统计分析的原则
Principles of statistical analysis
A distinctive function of statistics is this,it
enables the scientist to make a numerical
evaluation of the uncertainty of his conclusion.
-- Snedecor (1950)
引言
统计分析的目的把从样本中得到的结论推广到(同质)
总体中去。 Sample? Population
利用均数、标准差;百分构成/率;图表等进行描述。不同处理组间的比较。
样本结论(统计量)能否代表总体(参数)?
统计分析的两个基本工具 —估计
Estimation和假设检验 Hypothesis Test
统计学的一个重要思想如何表明从样本中得出的结果是对总体的最好的估计( Estimate)?
例 1:服用 A药的病人 63%得到缓解,而服用 B药的病人只有 53%。 A药的疗效比 B药好 10%。
( P=0.15)
例 2:服用 A药的病人 56%得到完全缓解,而服用 B
药的病人只有 36%。 A药的疗效比 B药好 18%。
( P<0.01)
抽样变异 Sampling Variation
样本均数的变异 Variability of
sample means
性质
1,较大样本的均数的变异小于较小样本的均数的变异
2,样本均数的变异小于观测值的变异
3,样本均数的变异随观测值变异的增大而增大随机样本的均数的分布 —
抽样分布 Sampling Distribution
从一个总体中随机地、不断地抽出样本大小相同的样本,这些样本具有如下性质:
1,样本均数 /方差的期望 =总体均数 /方差
2,样本均数的均数 =总体均数样本均数的方差 =总体方差 /样本量样本均数的标准差 -标准误标准误的估计
3,如果总体为正态分布,那么样本均数的分布也是正态分布。 如果样本量足够大,那么即使总体不是正态分布,样本均数的分布也近似正态分布 — 中心极限定理( Central Limited
Theorem)。
样本量总体方差?
样本量样本标准差样本量样本方差
对抽样分布的补充说明
在实际应用中,只要样本数据呈单峰、大致对称的分布,就可以认为其均数的分布服从正态或接近于正态。
在实际应用中,只要样本量足够大,那么不管数据呈何种分布,都可以将其均数的分布当作正态分布来处理。
随机样本的均数的分布的第 1条性质和第 3条性质同样适用于样本的百分构成(如二项分布)。但是由于这类数据所代表的显然不是正态总体,所以只有在样本量相当大时才可以应用性质 1和 3。
记号 Notations
nssn
SEs
SE
x
N
N
SDssx
SD
xx
x
x
x
,
,
,,
1 0,:1,0
,:,
,,,
,,,
2
22
2
2
标准误标准误的估计标准误样本均数的标准差样本均数的方差样本均数的均数的标准正态总体方差为均数为的正态总体方差为均数为样本标准差样本方差样本均数总体标准差总体方差总体均数理解抽样分布
xn
xSEx
xSDx
x
x
NxNx
x
的包含的包含的包含也逐渐接近于正态分布随着样本量的增大不服从正态分布即使则
%9596.1
%9596.1
%9596.1
,
,~,,~
22
计算机模拟 Simulation
正态总体的抽样分布例:假设原发性胆石症患者的血清白蛋白服从均数 35g/l标准差 6g/l的正态分布。现从中随机抽取样本量 10,25,100的样本各 100个考察它们的均数的分布。
理论上,均数的均数均应该等于 35,均数的标准差应该分别等于
6.0100/6 ;2.125/6 ;9.110/6
Simulation(续)
对数正态分布的抽样分布例:假设原发性胆石症患者的血清胆红素服从均数 3.6?mol/l标准差 1.1?mol/l的对数正态分布。现从中随机抽取样本量 10,25,100
的样本各 100个考察它们的均数的分布。
二项分布的抽样分布例:假设哮喘在人群中的患病率为 20%,现随机抽取样本量为 10,25,100的样本各 100
个考察哮喘患者数的分布。
一个样本均数的标准误
Standard Error of a sample mean
例,216名原发性胆石症患者的血清白蛋白均数为 34.46g/l,标准差为 5.84g/l。假设服从正态分布并且此样本为一随机样本,
试问如何用此样本的均数来对总体的均数进行估计呢?
lgSE
nsSEnSE
/3 9 7.02 1 684.5
对于本例的估计?
两样本均数之差的标准误
Standard error of the difference between two
sample means
因为两样本均数之差的方差等于两样本各自均数的方差之和,所以:
2
2
2
1
2
1
2
2
2
1
2121
v a rv a r
n
s
n
s
xSExSE
xxxxSE
一个样本百分构成的标准误
Standard Error of a sample proportion
理论上,当 np>5时,二项分布的百分构成 p近似地服从均数为 p,标准差为 的正态分布。即样本百分构成 p的标准误为:
例:观察到 80名妇女中有 13名患有哮喘,则哮喘的百分构成 p为 13/80=0.16,其标准误为:
npp?1
npp?1
0 4 1.08016.0116.0
两个样本百分构成的差的标准误与两个样本均数的差的标准误一样,因为两个样本的百分构成之差的方差等于两个样本各自的百分构成的方差的和,所以两个样本百分构成的差的标准误的计算为:
2
22
1
11
2
2
2
1
2121
11
v a rv a r
n
pp
n
pp
pSEpSE
ppppSE
可信区间 Confidence Interval( CI)
0
10
20
30
40
50
60
70
80
90
100
32 33 34 35 36 37 38
血清白蛋白(g/ l)
样本数可信区间 Confidence Interval( CI)
0
10
20
30
40
50
60
70
80
90
100
32 33 34 35 36 37 38
血清白蛋白(g/ l)
样本编号理解可信区间
95.096.1,
96.1%95
,%9596.1
96.1,96.1
96.1
%9596.1
的可能性是包含即
!一定包含总体均数的所以的包含因为
!就一定包含总体均数内在只要的可能性是多少?包含的包含
nx
nx
xn
nxnx
nx
xn
假设检验 Hypothesis Testing
假设检验的反证思想两种说法非 A即 B。要证明 B真,只要证明 A伪即可。
无效假设 Null hypothesis( H0)
意在推翻的假设(说法 A)。
备择假设 Alternative hypothesis( H1)
意在接受的假设(说法 B)。
从无效假设出发,找出不支持这一假设的证据,从而推翻它。
小概率事件
事件 A发生的概率是如此之小,以至于在一次试验(抽样)时,我们往往认为它(事件 A)不会发生。
统计学中,小概率事件一般是指发生概率 <0.05(检验水准?)的事件。
在假设检验中,如果在无效假设的前提下出现了小概率事件,我们则怀疑无效假设的真实性。
例:两种不同处理结果之间的差异
效果
A处理? 结果 A,B处理? 结果 B
效果 Effect,?= 结果 A - 结果 B
对于总体如果? = 0,则 A处理和 B处理之间没有差别。
如果 0,则 A处理和 B处理之间有差别。
对于样本即使? = 0,由于存在抽样变异,往往样本结果 A
– 样本结果 B =? 0。问题在于这个差异是否仅仅是由于抽样变异造成的?
对本例进行假设检验的思路无效假设:样本结果 A和 B之间的差异仅仅是由于抽样变异造成的。即 H0,?=0。
备择假设:样本结果 A和 B之间的差异不仅仅是由于抽样变异造成的,还包含不同处理的效果。即 H1,0。
由无效假设出发,我们可以计算出得到样本差异 或者更大差异的概率( P值)。
如果 P值小于检验水准?,则我们认为由此无效假设不太可能出现这样的结果,从而推翻它,
接受备择假设(差异显著性)。反之
方法一:利用可信区间假设样本结果 A和 B之间的差异仅仅是由于抽样变异造成的。即 H0,?=0。
由此假设,。则有 包含
95%的,同样地,包含总体均数
0的可能性是 95%。换句话说,不包含总体均数 0的可能性是 5%。
利用可信区间推翻无效假设一旦发现 没有包含总体均数 0,
我们则认为无效假设是不对的。即 样本结果 A
和 B之间的差异不仅仅是由于抽样变异造成的。
样本结果 A和 B之间的差异有显著性。
2?,0~N96.10?
96.1
96.1
方法二:利用检验统计量
检验统计量的构建(在无效假设的前提下)
检验统计量的构建是无效假设的关键。
检验统计量一般服从某种分布。这样我们就可以利用这种分布计算出?由无效假设出发,
得到观察到的差异或更大的差异?的概率,从而作出推断。
观察到的量的标准误假设的量观察到的量检验统计量
在继续进行之前
00
2
00
2
PrPr
1,0~,~
PrPr
1,0~,~
zzxx
Nz
x
zNx
uuxx
Nu
x
uNx
x
x
界值
对应于检验水准的分布上的某些数值。
正态分布上的某些界值:
单侧0.05
1.645 或 -1.645
双侧0.05
1.96 和 -1.96
相同检验水准,单侧检验界值外的概率是双侧检验的 2倍碱性磷酸酶的例子考察某药物是否有提高成年男性碱性磷酸酶的作用。已知未服药时成年男性的碱性磷酸酶的均值为 60U/l,标准差为 15U/l。
现观察到 100名服药后的成年男性的碱性磷酸酶的均值为
62U/l,问该药物是否有提高成年男性碱性磷酸酶的作用?
33.11 0 015 6062 nxZ
无效假设,
备择假设,
检验统计量,
拒绝无效假设的区间,单侧?=0.05,如果 Z>1.645则拒绝。
结论,由于 1.33<1.645,不拒绝无效假设。 尚无足够证据证明该药有提高 成年男性碱性磷酸酶的作用 。
60:
60:0
AH
H
33.11 0 015 6062 nxZ
血清白蛋白的例子原发性胆石症患者的血清白蛋白总体均数为 33.5g/l。现有 216
名患者的血清白蛋白均数为 34.46g/l,标准差为 5.84g/l,
问此样本是否来自于上面的总体?
无效假设 H0:此样本来自于上面的总体或者说此样本代表的总体与上面的总体相同。10
备择假设 H1:此样本不来自于上面的总体或者说此样本代表的总体与上面的总体不同。10
检验水准:双侧0.05
0156.020078.0242.2Pr,
42.2
397.0
5.3346.34
/397.0
216
84.5
zP
z
lgSE
值检验统计量样本均数的标准误理解检验统计量
观察到的量可以是一个样本的均数、两个样本均数的差、
一个样本的百分构成、两个样本百分构成的差
检验统计量所服从的分布不一定是正态分布。但只要是已知的理论分布,都可以通过该分布求得 P值。
观察到的量的标准误假设的量观察到的量
理解 P值
P值是指在无效假设的前提下,得到观察到的量(或更极端的量)的概率。
P值越小说明无效假设越不可靠。或者说,P
值越小我们就越有理由推翻无效假设。
至于 P值是否属于“小”,一般的,我们是根据事先确定的检验水准?来判断的。
当 P<?时,我们就可以下诸如“差别有显著性”的论断。
P值的大小与观察到的量的大小之间没有必然的联系。
当 P>?时
非小概率事件在无效假设的前提下,得到观察到的量
(或更极端的量)的可能性还是相当大的,我们尚不能拒绝无效假设或者说拒绝无效假设的证据不足。
具体问题,专业判断
P=0.70与 P=0.07
“差别有显著性”与“差别显著”
类似地,还有“差别有高度显著性”与
“差别极为显著”
二者之间不存在必然的联系。“差别显著”不一定导致“差别有显著性”,
“差别不显著”倒是有很大可能导致
“差别有显著性”。
即使“差别有显著性”,临床上也不一定有意义。
I型错误与 II型错误
Type I and Type II errors
尽管是小概率事件,它还是有可能发生的。
I型错误:虽然无效假设为真,但由于抽到了较大(检验统计量)的样本,使得 P值小于检验水准而导致被拒绝。
是否为小概率事件是由检验水准而定,所以犯错误的概率也由检验水准而定。
II型错误:虽然无效假设为假,但由于抽到了较小(检验统计量)的样本,使得 P值大于检验水准而导致不被拒绝。
犯 II型错误的概率由另一水准?而定。
单侧检验还是双侧检验?
One-sided or two-sided test?
双侧检验永远是正确的
单侧检验只有在少数情况下才是合适的
即使要做单侧检验,也必须事先确定非参数方法 Non-parametric methods
估计和假设检验都是基于某种分布来进行的,它们之间有着很密切的联系。由于分布都可以用某些参数来描述(特别是均数和标准差),所以基于分布的统计分析方法又被称为参数方法。
与此不同的是,统计学中还存在着另外一类不基于分布的分析方法,这类方法称为非参数方法。
广义的,非参数方法是用来分析那些不适合用参数方法分析的数据(常见的是严重偏态的数据、
等级数据)。
最常见的非参数方法是利用数据的顺位(而非数据本身)来进行。
统计建模 Statistical Modelling
在估计和假设检验的思想背后有一个统计分析的一般策略称为建模。
一个统计模型是一个可以近似描述两个或多个变量之间关系的数学式。这种方法可以简化数据的分析。
大多数参数方法都可以归为一个被称为“线性模型”的统一框架,其中线性的意思为
“可加的”。其基本思想在于所关心指标的变异可以由许多影响因子的相加的效果来进行解释。例如:血压值的大小是由年龄、性别、是否吸烟的效果相加而来。
关于统计建模的两个基本思想
统计建模一般基于某些假设,所以在建模之前对这些假设的验证是非常重要的。
在建好模型之后,我们也要从两个方面对模型的好坏进行评价。
第一是对模型的拟合度进行评价。看看由模型拟合的数据是否接近样本数据,拟合数据与样本数据之间的差是否呈随机分布。
第二是评价模型在用于预测更广范围的数据时,其可靠性如何。
区间估计还是假设检验?
假设检验尽管有用,但只能反映数据信息的一部分。
区间估计反映(对总体特征)估计的不确定程度,能更全面地把握数据。
可信区间与假设检验的互通性如果 95%可信区间不包含总体均数,则假设检验中 P值一定小于 0.05反之,如果 95%可信区间包含总体均数,则 P值一定大于 0.05。 99%可信区间同理。
小结
理解统计分析的基本思想至关重要。
样本均数 /样本百分构成的抽样分布理论。
中心极限定理。
估计(主要是区间估计)和假设检验是统计分析的两个重要工具。
P值的理解与解释。
,差异有显著性”与“有显著差异”不能混为一谈。
,差异有显著性”也不代表临床上有意义。
Principles of statistical analysis
A distinctive function of statistics is this,it
enables the scientist to make a numerical
evaluation of the uncertainty of his conclusion.
-- Snedecor (1950)
引言
统计分析的目的把从样本中得到的结论推广到(同质)
总体中去。 Sample? Population
利用均数、标准差;百分构成/率;图表等进行描述。不同处理组间的比较。
样本结论(统计量)能否代表总体(参数)?
统计分析的两个基本工具 —估计
Estimation和假设检验 Hypothesis Test
统计学的一个重要思想如何表明从样本中得出的结果是对总体的最好的估计( Estimate)?
例 1:服用 A药的病人 63%得到缓解,而服用 B药的病人只有 53%。 A药的疗效比 B药好 10%。
( P=0.15)
例 2:服用 A药的病人 56%得到完全缓解,而服用 B
药的病人只有 36%。 A药的疗效比 B药好 18%。
( P<0.01)
抽样变异 Sampling Variation
样本均数的变异 Variability of
sample means
性质
1,较大样本的均数的变异小于较小样本的均数的变异
2,样本均数的变异小于观测值的变异
3,样本均数的变异随观测值变异的增大而增大随机样本的均数的分布 —
抽样分布 Sampling Distribution
从一个总体中随机地、不断地抽出样本大小相同的样本,这些样本具有如下性质:
1,样本均数 /方差的期望 =总体均数 /方差
2,样本均数的均数 =总体均数样本均数的方差 =总体方差 /样本量样本均数的标准差 -标准误标准误的估计
3,如果总体为正态分布,那么样本均数的分布也是正态分布。 如果样本量足够大,那么即使总体不是正态分布,样本均数的分布也近似正态分布 — 中心极限定理( Central Limited
Theorem)。
样本量总体方差?
样本量样本标准差样本量样本方差
对抽样分布的补充说明
在实际应用中,只要样本数据呈单峰、大致对称的分布,就可以认为其均数的分布服从正态或接近于正态。
在实际应用中,只要样本量足够大,那么不管数据呈何种分布,都可以将其均数的分布当作正态分布来处理。
随机样本的均数的分布的第 1条性质和第 3条性质同样适用于样本的百分构成(如二项分布)。但是由于这类数据所代表的显然不是正态总体,所以只有在样本量相当大时才可以应用性质 1和 3。
记号 Notations
nssn
SEs
SE
x
N
N
SDssx
SD
xx
x
x
x
,
,
,,
1 0,:1,0
,:,
,,,
,,,
2
22
2
2
标准误标准误的估计标准误样本均数的标准差样本均数的方差样本均数的均数的标准正态总体方差为均数为的正态总体方差为均数为样本标准差样本方差样本均数总体标准差总体方差总体均数理解抽样分布
xn
xSEx
xSDx
x
x
NxNx
x
的包含的包含的包含也逐渐接近于正态分布随着样本量的增大不服从正态分布即使则
%9596.1
%9596.1
%9596.1
,
,~,,~
22
计算机模拟 Simulation
正态总体的抽样分布例:假设原发性胆石症患者的血清白蛋白服从均数 35g/l标准差 6g/l的正态分布。现从中随机抽取样本量 10,25,100的样本各 100个考察它们的均数的分布。
理论上,均数的均数均应该等于 35,均数的标准差应该分别等于
6.0100/6 ;2.125/6 ;9.110/6
Simulation(续)
对数正态分布的抽样分布例:假设原发性胆石症患者的血清胆红素服从均数 3.6?mol/l标准差 1.1?mol/l的对数正态分布。现从中随机抽取样本量 10,25,100
的样本各 100个考察它们的均数的分布。
二项分布的抽样分布例:假设哮喘在人群中的患病率为 20%,现随机抽取样本量为 10,25,100的样本各 100
个考察哮喘患者数的分布。
一个样本均数的标准误
Standard Error of a sample mean
例,216名原发性胆石症患者的血清白蛋白均数为 34.46g/l,标准差为 5.84g/l。假设服从正态分布并且此样本为一随机样本,
试问如何用此样本的均数来对总体的均数进行估计呢?
lgSE
nsSEnSE
/3 9 7.02 1 684.5
对于本例的估计?
两样本均数之差的标准误
Standard error of the difference between two
sample means
因为两样本均数之差的方差等于两样本各自均数的方差之和,所以:
2
2
2
1
2
1
2
2
2
1
2121
v a rv a r
n
s
n
s
xSExSE
xxxxSE
一个样本百分构成的标准误
Standard Error of a sample proportion
理论上,当 np>5时,二项分布的百分构成 p近似地服从均数为 p,标准差为 的正态分布。即样本百分构成 p的标准误为:
例:观察到 80名妇女中有 13名患有哮喘,则哮喘的百分构成 p为 13/80=0.16,其标准误为:
npp?1
npp?1
0 4 1.08016.0116.0
两个样本百分构成的差的标准误与两个样本均数的差的标准误一样,因为两个样本的百分构成之差的方差等于两个样本各自的百分构成的方差的和,所以两个样本百分构成的差的标准误的计算为:
2
22
1
11
2
2
2
1
2121
11
v a rv a r
n
pp
n
pp
pSEpSE
ppppSE
可信区间 Confidence Interval( CI)
0
10
20
30
40
50
60
70
80
90
100
32 33 34 35 36 37 38
血清白蛋白(g/ l)
样本数可信区间 Confidence Interval( CI)
0
10
20
30
40
50
60
70
80
90
100
32 33 34 35 36 37 38
血清白蛋白(g/ l)
样本编号理解可信区间
95.096.1,
96.1%95
,%9596.1
96.1,96.1
96.1
%9596.1
的可能性是包含即
!一定包含总体均数的所以的包含因为
!就一定包含总体均数内在只要的可能性是多少?包含的包含
nx
nx
xn
nxnx
nx
xn
假设检验 Hypothesis Testing
假设检验的反证思想两种说法非 A即 B。要证明 B真,只要证明 A伪即可。
无效假设 Null hypothesis( H0)
意在推翻的假设(说法 A)。
备择假设 Alternative hypothesis( H1)
意在接受的假设(说法 B)。
从无效假设出发,找出不支持这一假设的证据,从而推翻它。
小概率事件
事件 A发生的概率是如此之小,以至于在一次试验(抽样)时,我们往往认为它(事件 A)不会发生。
统计学中,小概率事件一般是指发生概率 <0.05(检验水准?)的事件。
在假设检验中,如果在无效假设的前提下出现了小概率事件,我们则怀疑无效假设的真实性。
例:两种不同处理结果之间的差异
效果
A处理? 结果 A,B处理? 结果 B
效果 Effect,?= 结果 A - 结果 B
对于总体如果? = 0,则 A处理和 B处理之间没有差别。
如果 0,则 A处理和 B处理之间有差别。
对于样本即使? = 0,由于存在抽样变异,往往样本结果 A
– 样本结果 B =? 0。问题在于这个差异是否仅仅是由于抽样变异造成的?
对本例进行假设检验的思路无效假设:样本结果 A和 B之间的差异仅仅是由于抽样变异造成的。即 H0,?=0。
备择假设:样本结果 A和 B之间的差异不仅仅是由于抽样变异造成的,还包含不同处理的效果。即 H1,0。
由无效假设出发,我们可以计算出得到样本差异 或者更大差异的概率( P值)。
如果 P值小于检验水准?,则我们认为由此无效假设不太可能出现这样的结果,从而推翻它,
接受备择假设(差异显著性)。反之
方法一:利用可信区间假设样本结果 A和 B之间的差异仅仅是由于抽样变异造成的。即 H0,?=0。
由此假设,。则有 包含
95%的,同样地,包含总体均数
0的可能性是 95%。换句话说,不包含总体均数 0的可能性是 5%。
利用可信区间推翻无效假设一旦发现 没有包含总体均数 0,
我们则认为无效假设是不对的。即 样本结果 A
和 B之间的差异不仅仅是由于抽样变异造成的。
样本结果 A和 B之间的差异有显著性。
2?,0~N96.10?
96.1
96.1
方法二:利用检验统计量
检验统计量的构建(在无效假设的前提下)
检验统计量的构建是无效假设的关键。
检验统计量一般服从某种分布。这样我们就可以利用这种分布计算出?由无效假设出发,
得到观察到的差异或更大的差异?的概率,从而作出推断。
观察到的量的标准误假设的量观察到的量检验统计量
在继续进行之前
00
2
00
2
PrPr
1,0~,~
PrPr
1,0~,~
zzxx
Nz
x
zNx
uuxx
Nu
x
uNx
x
x
界值
对应于检验水准的分布上的某些数值。
正态分布上的某些界值:
单侧0.05
1.645 或 -1.645
双侧0.05
1.96 和 -1.96
相同检验水准,单侧检验界值外的概率是双侧检验的 2倍碱性磷酸酶的例子考察某药物是否有提高成年男性碱性磷酸酶的作用。已知未服药时成年男性的碱性磷酸酶的均值为 60U/l,标准差为 15U/l。
现观察到 100名服药后的成年男性的碱性磷酸酶的均值为
62U/l,问该药物是否有提高成年男性碱性磷酸酶的作用?
33.11 0 015 6062 nxZ
无效假设,
备择假设,
检验统计量,
拒绝无效假设的区间,单侧?=0.05,如果 Z>1.645则拒绝。
结论,由于 1.33<1.645,不拒绝无效假设。 尚无足够证据证明该药有提高 成年男性碱性磷酸酶的作用 。
60:
60:0
AH
H
33.11 0 015 6062 nxZ
血清白蛋白的例子原发性胆石症患者的血清白蛋白总体均数为 33.5g/l。现有 216
名患者的血清白蛋白均数为 34.46g/l,标准差为 5.84g/l,
问此样本是否来自于上面的总体?
无效假设 H0:此样本来自于上面的总体或者说此样本代表的总体与上面的总体相同。10
备择假设 H1:此样本不来自于上面的总体或者说此样本代表的总体与上面的总体不同。10
检验水准:双侧0.05
0156.020078.0242.2Pr,
42.2
397.0
5.3346.34
/397.0
216
84.5
zP
z
lgSE
值检验统计量样本均数的标准误理解检验统计量
观察到的量可以是一个样本的均数、两个样本均数的差、
一个样本的百分构成、两个样本百分构成的差
检验统计量所服从的分布不一定是正态分布。但只要是已知的理论分布,都可以通过该分布求得 P值。
观察到的量的标准误假设的量观察到的量
理解 P值
P值是指在无效假设的前提下,得到观察到的量(或更极端的量)的概率。
P值越小说明无效假设越不可靠。或者说,P
值越小我们就越有理由推翻无效假设。
至于 P值是否属于“小”,一般的,我们是根据事先确定的检验水准?来判断的。
当 P<?时,我们就可以下诸如“差别有显著性”的论断。
P值的大小与观察到的量的大小之间没有必然的联系。
当 P>?时
非小概率事件在无效假设的前提下,得到观察到的量
(或更极端的量)的可能性还是相当大的,我们尚不能拒绝无效假设或者说拒绝无效假设的证据不足。
具体问题,专业判断
P=0.70与 P=0.07
“差别有显著性”与“差别显著”
类似地,还有“差别有高度显著性”与
“差别极为显著”
二者之间不存在必然的联系。“差别显著”不一定导致“差别有显著性”,
“差别不显著”倒是有很大可能导致
“差别有显著性”。
即使“差别有显著性”,临床上也不一定有意义。
I型错误与 II型错误
Type I and Type II errors
尽管是小概率事件,它还是有可能发生的。
I型错误:虽然无效假设为真,但由于抽到了较大(检验统计量)的样本,使得 P值小于检验水准而导致被拒绝。
是否为小概率事件是由检验水准而定,所以犯错误的概率也由检验水准而定。
II型错误:虽然无效假设为假,但由于抽到了较小(检验统计量)的样本,使得 P值大于检验水准而导致不被拒绝。
犯 II型错误的概率由另一水准?而定。
单侧检验还是双侧检验?
One-sided or two-sided test?
双侧检验永远是正确的
单侧检验只有在少数情况下才是合适的
即使要做单侧检验,也必须事先确定非参数方法 Non-parametric methods
估计和假设检验都是基于某种分布来进行的,它们之间有着很密切的联系。由于分布都可以用某些参数来描述(特别是均数和标准差),所以基于分布的统计分析方法又被称为参数方法。
与此不同的是,统计学中还存在着另外一类不基于分布的分析方法,这类方法称为非参数方法。
广义的,非参数方法是用来分析那些不适合用参数方法分析的数据(常见的是严重偏态的数据、
等级数据)。
最常见的非参数方法是利用数据的顺位(而非数据本身)来进行。
统计建模 Statistical Modelling
在估计和假设检验的思想背后有一个统计分析的一般策略称为建模。
一个统计模型是一个可以近似描述两个或多个变量之间关系的数学式。这种方法可以简化数据的分析。
大多数参数方法都可以归为一个被称为“线性模型”的统一框架,其中线性的意思为
“可加的”。其基本思想在于所关心指标的变异可以由许多影响因子的相加的效果来进行解释。例如:血压值的大小是由年龄、性别、是否吸烟的效果相加而来。
关于统计建模的两个基本思想
统计建模一般基于某些假设,所以在建模之前对这些假设的验证是非常重要的。
在建好模型之后,我们也要从两个方面对模型的好坏进行评价。
第一是对模型的拟合度进行评价。看看由模型拟合的数据是否接近样本数据,拟合数据与样本数据之间的差是否呈随机分布。
第二是评价模型在用于预测更广范围的数据时,其可靠性如何。
区间估计还是假设检验?
假设检验尽管有用,但只能反映数据信息的一部分。
区间估计反映(对总体特征)估计的不确定程度,能更全面地把握数据。
可信区间与假设检验的互通性如果 95%可信区间不包含总体均数,则假设检验中 P值一定小于 0.05反之,如果 95%可信区间包含总体均数,则 P值一定大于 0.05。 99%可信区间同理。
小结
理解统计分析的基本思想至关重要。
样本均数 /样本百分构成的抽样分布理论。
中心极限定理。
估计(主要是区间估计)和假设检验是统计分析的两个重要工具。
P值的理解与解释。
,差异有显著性”与“有显著差异”不能混为一谈。
,差异有显著性”也不代表临床上有意义。