医学研究中的实用统计学与常用统计方法汪 涛
taowang@shmu.edu.cn
关于本课程
目的
理解统计学在医学研究中的作用和地位
掌握统计分析的原则及基本思想
掌握基本的统计分析方法
对象
所有从事医学科学研究工作的人
内容
医学研究中涉及统计学的名词和概念
统计分析的原则及基本思想
基本的统计分析方法
统计设计等专题关于统计学
统计数字无处不在,但是真伪难辨。
工、农、商;就业、失业(下岗)、交通事故等等。
报纸、电视中经常可见医学研究报告,
但往往只有结果,其研究的有效性不得而知。
Few people outside the relevant field are concerned
about how the research was done,only about what
was found.
有些“研究”结论根本就是无稽之谈
( 纯属个人意见 )。
例:***胶囊使您的宝宝聪明
真伪难辨的研究报道充斥着我们的日常生活,让人无所适从。
就单单对统计方法而言 …
许多人认为统计学(统计学家)是不可信的,在他们的潜意识里,“统计学可以证明任何事情”。但是,在面对统计结果时,他们却经常不加批判地接受。
许多研究采用多种统计方法对一个数据进行分析,最终采用一个令人满意的结果。这是对统计的滥用。
事实上,统计不能证明任何东西,她只能对不确定现象加以限制。
变异 Variablility
统计学是研究变异的科学。可以这么说,
没有变异就不需要统计学。
在医学研究中,这种变异表现在人与人之间的差异。
虽然有时候我们感兴趣的是变异其本身,
但更多时候我们是试图找出隐藏在变异背后的规律性。
变量 Variables
Words of Sherlork Holmes in
The Sign of Four
You can,for example,never foretell
what any one man will do,but you can
say with precision what an average
number will be up to,Individuals vary,
but percentages remain constant,So
says the statistician.
关于 A,B两药疗效的研究结论
服用 A药的病人 60%得到缓解,而服用 B药的病人只有 50%。两药的疗效有差异。
( P=0.3149)
服用 A药的病人 60%得到缓解,而服用 B药的病人只有 50%。两药的疗效有差异。
( P=0.0015)
上述结论是否可信?可信程度多大?可否应用于实践?
要做好研究,理解基本的统计学思想至关重要。因为这些思想与研究设计和数据分析息息相关。另外,熟悉常用的统计分析方法也是相当必要的。
医学研究中的统计学
统计学渗透在医学实践中。例如:诊断和选择治疗方案。从某种意义上讲,我们每个人天生就是统计学家。
但是,这些判断究竟有多大把握说它们是正确的呢?
在非典型性肺炎还不为人所熟悉时,有多少人把它当作一般肺炎进行治疗的呢?
医学实践需要尽量减少不确定性,医学实践需要统计学。
Words of Douglas G,Altman in
Practical Statistics for Medical Research
In general the emphasis is on results (which
are presented as facts),with little or no
regard to the manner in which they were
obtained,which is probably why the subject
of statistics is widely seen as relating solely
to the analysis of data and the presentation
of numerical results,While these are
important parts of statistics,there is much
else besides,In particular,how and why the
data were collected are supremely
important.
医学研究中的统计学(续)
没有好的研究设计,数据分析将是徒劳无功的。
好的结果基于好的设计:,The justification for
the analysis lies not in the data collected but in
the manner in which the data were collected” –
Schoolman et al.
Design Design Design Design Design Design Design Design
Design Design Design Design Design Design Design Design
Design Design Design Design Design Design Design Design
Design Design Design Analysis Design Design Design
Design Design Design Design Design Design Design Design
Design Design Design Design Design Design Design Design
Design Design Design Design Design Design Design Design
医学研究中统计学的守备范围
PLANNING
DESIGN
EXECUTION
( data collection)
DATA PROCESSING
DATA ANALYSIS
PRESENTATION
INTERPRETATION
PUBLICATION
医学研究的一般流程医学研究与临床实践的区别
医学研究与临床实践的关键不同之处在于它们的范围。
虽然两者都是从患者个体身上获取数据,
但是医学研究更注重如何从这些个体数据中得到适用于更广泛人群的论断。
即:利用样本( sample)信息对总体
( population)进行推断( inference)。
一些基本概念
随机现象/随机事件 ( random event)
随机事件与统计学的关系?
研究单位/分析单位 ( unit of analysis)
样本 ( sample)
为什么要抽样?什么是理想的样本?
研究指标/分析指标/变量 ( variable)
研究指标与研究单位的关系?
数据的类型( I) --分类数据
两分类数据( binary,dichotomous,0-1 )
例:男 /女怀孕 /未怀孕已婚 /单身糖尿病 /非糖尿病吸烟 /不吸烟高血压 /血压正常
多分类数据
名义数据( nominal)
例:已婚 /单身 /离婚 /分居 /鳏寡
A/B/AB/O
有序数据( ordinal)
例:轻 /中 /重数据的类型( II) --数值数据
离散数据(计数数据)
例:家庭成员数、一年中的随访次数,24小时早博次数
与有序分类数据的区别是否可以数值表示、是否可以用来求平均值、
倍数、间距例:乳癌分期 I II III IV
家庭成员数 0 1 2 3 4 5+
连续数据(一般可以度量)
例:身高、体重、年龄、体温、血压数据的类型间转换
离散数据与连续数据年龄、心率
连续数据与分类数据每日吸烟支数连续数据转换为分类数据时信息损失其他类型的数据
秩(顺位)( ranks)
数据的位置。例:名次、喜好度
百分数( percentages)
率和比( rates and ratios)
评分( scores)
例,Apgar评分删失数据 Censored Data
有些数据无法准确记录而只知道大于或小于某一界限或位于两界限之间生存时间数据集中趋势的描述 —平均 Averages
均数 Mean(算术平均 arithmetic mean)
中位数 Median
几何均数 Geometric mean
众数 Mode
集中趋势的描述(课堂练习)
例,25名患者的年龄与肺功能数据患者编号 年龄(岁) PImax 患者编号 年龄(岁) PImax
1 7 80 14 15 100
2 7 85 15 16 120
3 8 110 16 17 110
4 8 95 17 17 125
5 8 95 18 17 75
6 9 100 19 17 100
7 11 45 20 19 40
8 12 95 21 19 75
9 12 130 22 20 110
10 13 75 23 23 150
11 13 80 24 23 75
12 14 70 25 23 95
13 14 80
离散趋势的描述
全距 Range
百分位数和四分位间距 inter-quartile range
离均差平方和 sum of squares/方差 variance
/标准差 standard deviation
直方图 —描述频数的分布例 1,298名 6个月到 6岁儿童的血清 IgM浓度
IgM (g/l) 频数 IgM (g/l) 频数
0.1 3 1.5 6
0.2 7 1.6 2
0.3 19 1.7 3
0.4 27 1.8 3
0.5 32 2.0 3
0.6 35 2.1 2
0.7 38 2.2 1
0.8 38 2.5 1
0.9 22 2.7 1
1.0 16 4.5 1
1.1 16
1.2 6
1.3 7
1.4 9
直方图 —描述频数的分布例 1,298名 6个月到 6岁儿童的血清 IgM浓度直方图 —描述频数的分布例 2:分年龄段交通事故人数(不等间距)
0-4 28
5-9 46
10-15 58
16 20
17 31
18-19 64
20-24 149
25-59 316
60+ 103
年龄段 人数数据呈现 Data Presentation( 1)
数值型呈现例:平均舒张压为 102.3mmHg(SD11.9)。
平均舒张压为 102.3?11.9mmHg。
利用表格
1960年到 1980年伦敦的人均消费面包( g/人 /周)
面包类别 年份
1960 1965 1970 1975 1980
白面包 1040 975 915 785 620
黑面包 70 80 70 75 115
全麦 25 20 15 20 45
其他 155 80 85 75 105
合计 1290 1155 1080 955 880
数据呈现 Data Presentation( 2)
伦敦的人均面包消费量
0
200
400
600
800
1000
1200
1960 1965 1970 1975 1980
年份面包消费量(
g
/
人/
周)
白面包黑面包全麦其他伦敦的人均面包消费量
0
200
400
600
800
1000
1200
1400
1960 1965 1970 1975 1980
年份面包消费量(
g
/
人/
周)
其他全麦黑面包白面包伦敦的人均面包消费量
0
200
400
600
800
1000
1200
1960 1965 1970 1975 1980
年份面包消费量(
g
/
人/
周)
白面包黑面包全麦其他
taowang@shmu.edu.cn
关于本课程
目的
理解统计学在医学研究中的作用和地位
掌握统计分析的原则及基本思想
掌握基本的统计分析方法
对象
所有从事医学科学研究工作的人
内容
医学研究中涉及统计学的名词和概念
统计分析的原则及基本思想
基本的统计分析方法
统计设计等专题关于统计学
统计数字无处不在,但是真伪难辨。
工、农、商;就业、失业(下岗)、交通事故等等。
报纸、电视中经常可见医学研究报告,
但往往只有结果,其研究的有效性不得而知。
Few people outside the relevant field are concerned
about how the research was done,only about what
was found.
有些“研究”结论根本就是无稽之谈
( 纯属个人意见 )。
例:***胶囊使您的宝宝聪明
真伪难辨的研究报道充斥着我们的日常生活,让人无所适从。
就单单对统计方法而言 …
许多人认为统计学(统计学家)是不可信的,在他们的潜意识里,“统计学可以证明任何事情”。但是,在面对统计结果时,他们却经常不加批判地接受。
许多研究采用多种统计方法对一个数据进行分析,最终采用一个令人满意的结果。这是对统计的滥用。
事实上,统计不能证明任何东西,她只能对不确定现象加以限制。
变异 Variablility
统计学是研究变异的科学。可以这么说,
没有变异就不需要统计学。
在医学研究中,这种变异表现在人与人之间的差异。
虽然有时候我们感兴趣的是变异其本身,
但更多时候我们是试图找出隐藏在变异背后的规律性。
变量 Variables
Words of Sherlork Holmes in
The Sign of Four
You can,for example,never foretell
what any one man will do,but you can
say with precision what an average
number will be up to,Individuals vary,
but percentages remain constant,So
says the statistician.
关于 A,B两药疗效的研究结论
服用 A药的病人 60%得到缓解,而服用 B药的病人只有 50%。两药的疗效有差异。
( P=0.3149)
服用 A药的病人 60%得到缓解,而服用 B药的病人只有 50%。两药的疗效有差异。
( P=0.0015)
上述结论是否可信?可信程度多大?可否应用于实践?
要做好研究,理解基本的统计学思想至关重要。因为这些思想与研究设计和数据分析息息相关。另外,熟悉常用的统计分析方法也是相当必要的。
医学研究中的统计学
统计学渗透在医学实践中。例如:诊断和选择治疗方案。从某种意义上讲,我们每个人天生就是统计学家。
但是,这些判断究竟有多大把握说它们是正确的呢?
在非典型性肺炎还不为人所熟悉时,有多少人把它当作一般肺炎进行治疗的呢?
医学实践需要尽量减少不确定性,医学实践需要统计学。
Words of Douglas G,Altman in
Practical Statistics for Medical Research
In general the emphasis is on results (which
are presented as facts),with little or no
regard to the manner in which they were
obtained,which is probably why the subject
of statistics is widely seen as relating solely
to the analysis of data and the presentation
of numerical results,While these are
important parts of statistics,there is much
else besides,In particular,how and why the
data were collected are supremely
important.
医学研究中的统计学(续)
没有好的研究设计,数据分析将是徒劳无功的。
好的结果基于好的设计:,The justification for
the analysis lies not in the data collected but in
the manner in which the data were collected” –
Schoolman et al.
Design Design Design Design Design Design Design Design
Design Design Design Design Design Design Design Design
Design Design Design Design Design Design Design Design
Design Design Design Analysis Design Design Design
Design Design Design Design Design Design Design Design
Design Design Design Design Design Design Design Design
Design Design Design Design Design Design Design Design
医学研究中统计学的守备范围
PLANNING
DESIGN
EXECUTION
( data collection)
DATA PROCESSING
DATA ANALYSIS
PRESENTATION
INTERPRETATION
PUBLICATION
医学研究的一般流程医学研究与临床实践的区别
医学研究与临床实践的关键不同之处在于它们的范围。
虽然两者都是从患者个体身上获取数据,
但是医学研究更注重如何从这些个体数据中得到适用于更广泛人群的论断。
即:利用样本( sample)信息对总体
( population)进行推断( inference)。
一些基本概念
随机现象/随机事件 ( random event)
随机事件与统计学的关系?
研究单位/分析单位 ( unit of analysis)
样本 ( sample)
为什么要抽样?什么是理想的样本?
研究指标/分析指标/变量 ( variable)
研究指标与研究单位的关系?
数据的类型( I) --分类数据
两分类数据( binary,dichotomous,0-1 )
例:男 /女怀孕 /未怀孕已婚 /单身糖尿病 /非糖尿病吸烟 /不吸烟高血压 /血压正常
多分类数据
名义数据( nominal)
例:已婚 /单身 /离婚 /分居 /鳏寡
A/B/AB/O
有序数据( ordinal)
例:轻 /中 /重数据的类型( II) --数值数据
离散数据(计数数据)
例:家庭成员数、一年中的随访次数,24小时早博次数
与有序分类数据的区别是否可以数值表示、是否可以用来求平均值、
倍数、间距例:乳癌分期 I II III IV
家庭成员数 0 1 2 3 4 5+
连续数据(一般可以度量)
例:身高、体重、年龄、体温、血压数据的类型间转换
离散数据与连续数据年龄、心率
连续数据与分类数据每日吸烟支数连续数据转换为分类数据时信息损失其他类型的数据
秩(顺位)( ranks)
数据的位置。例:名次、喜好度
百分数( percentages)
率和比( rates and ratios)
评分( scores)
例,Apgar评分删失数据 Censored Data
有些数据无法准确记录而只知道大于或小于某一界限或位于两界限之间生存时间数据集中趋势的描述 —平均 Averages
均数 Mean(算术平均 arithmetic mean)
中位数 Median
几何均数 Geometric mean
众数 Mode
集中趋势的描述(课堂练习)
例,25名患者的年龄与肺功能数据患者编号 年龄(岁) PImax 患者编号 年龄(岁) PImax
1 7 80 14 15 100
2 7 85 15 16 120
3 8 110 16 17 110
4 8 95 17 17 125
5 8 95 18 17 75
6 9 100 19 17 100
7 11 45 20 19 40
8 12 95 21 19 75
9 12 130 22 20 110
10 13 75 23 23 150
11 13 80 24 23 75
12 14 70 25 23 95
13 14 80
离散趋势的描述
全距 Range
百分位数和四分位间距 inter-quartile range
离均差平方和 sum of squares/方差 variance
/标准差 standard deviation
直方图 —描述频数的分布例 1,298名 6个月到 6岁儿童的血清 IgM浓度
IgM (g/l) 频数 IgM (g/l) 频数
0.1 3 1.5 6
0.2 7 1.6 2
0.3 19 1.7 3
0.4 27 1.8 3
0.5 32 2.0 3
0.6 35 2.1 2
0.7 38 2.2 1
0.8 38 2.5 1
0.9 22 2.7 1
1.0 16 4.5 1
1.1 16
1.2 6
1.3 7
1.4 9
直方图 —描述频数的分布例 1,298名 6个月到 6岁儿童的血清 IgM浓度直方图 —描述频数的分布例 2:分年龄段交通事故人数(不等间距)
0-4 28
5-9 46
10-15 58
16 20
17 31
18-19 64
20-24 149
25-59 316
60+ 103
年龄段 人数数据呈现 Data Presentation( 1)
数值型呈现例:平均舒张压为 102.3mmHg(SD11.9)。
平均舒张压为 102.3?11.9mmHg。
利用表格
1960年到 1980年伦敦的人均消费面包( g/人 /周)
面包类别 年份
1960 1965 1970 1975 1980
白面包 1040 975 915 785 620
黑面包 70 80 70 75 115
全麦 25 20 15 20 45
其他 155 80 85 75 105
合计 1290 1155 1080 955 880
数据呈现 Data Presentation( 2)
伦敦的人均面包消费量
0
200
400
600
800
1000
1200
1960 1965 1970 1975 1980
年份面包消费量(
g
/
人/
周)
白面包黑面包全麦其他伦敦的人均面包消费量
0
200
400
600
800
1000
1200
1400
1960 1965 1970 1975 1980
年份面包消费量(
g
/
人/
周)
其他全麦黑面包白面包伦敦的人均面包消费量
0
200
400
600
800
1000
1200
1960 1965 1970 1975 1980
年份面包消费量(
g
/
人/
周)
白面包黑面包全麦其他