第三章
总体均数的估计
与假设检验
第一节
均数的抽样误差与标准误
了解总体特征的最好方法是对总体的
每一个体进行观察、试验,但这在医
学研究实际中往往不可行。
对 无限总体 不可能对所有个体逐一观
察,对 有限总体 限于人力、财力、物
力、时间或个体过多等原因,不可能
也没必要对所有个体逐一研究。
借助 抽样研究 。
欲了解某地 2000年正常成年男性血清
总胆固醇的平均水平,随机抽取该地
200名正常成年男性作为 样本。
由于存在个体差异,抽得的 样本均数
不太可能恰好等于 总体均数。
由 个体变异和抽样 造成的样本统计量
与总体参数的差异,称为 抽样误差。
这些来自同一总体的若干样本统计量
间,也存在抽样误差。
在抽样研究中,抽样误差是不可避免
的。
由于其产生的根本原因是 生物个体的
变异性,故抽样误差分布具有一定的
规律性。
例 3-1 某市 1999年 18岁男生身高服从
? =167.7cm,? =5.3cm正态分布,从
该 N(167.7,5.32)总体中随机抽样
(图 3-1)。
每次 =10人,共有 样本 g=100个,
得到每个 样本均数 及 标准差 。
将上述 100个样本均数看成 新变量值
,这 100个样本均数构成一新分布。
jnjXjS
jn
jSjX
样本均数抽样分布具有如下特点:
①各样本均数未必等于总体均数;
②各样本均数间存在差异(表 3-1);
③样本均数围绕总体均数 (167.7cm)
呈正态分布(图 3-2);
④样本均数变异范围较原变量变异范
围大大缩小,这 100个样本均数的
均数为 167.69cm、标准差为 1.69cm。
在 非正态分布总体 中可进行类似抽样。
可得到如下结论:
若 服从正态分布
则 服从正态分布
若 不服从正态分布
n大:则 近似服从正态分布
n小:则 为非正态分布
iX
jX
iX
jX
jX
的总体均数为 ?;而 的标准差
比原个体值的标准差要小,为区别两
者,的标准差用 表示。
样本统计量的标准差称标准误
(standard error,SE)。
样本均数的标准差称均数的标准误
(standard error of mean,SEM),
反映样本均数间离散程度。
jXX?
jX
jX X?
jX
可证明均数标准误
在实际工作中 ?常未知, 用 S来估计
。 均数标准误估计值
X n?? ?
X SS n?
X n
?? ?
X
SS
n
?
均数标准误大小与标准差大小成正比
,与样本含量 n的平方根成反比 。
第二节
t 分布
一,t 分布的概念
若某一随机变量 X服从总体均数为 ?、
总体标准差为 ? 的正态分布 N(?,?2)
X ???XX?2X
X?
)1,0(~ 2NXu
?
???
)1,0(~ 2N
X
u
X?
??
?
由于样本均数服从总体均数为 ?、总
体标准差为 的正态分布 N(?,)
XX?2
X
X?
2
X?
,1
X
XX
tn
S Sn
??
?
??
? ? ? ?
18X Y Z? ? ?
nm???
X 1n???
18X Y Z? ? ? ?=2
nm? ??
n为计算某一统计量用到的 数据个数,
m为计算该统计量用到其它 独立统计量
的个数。
t分布最早
由英国统计学家 W.S,Gosset
于 1908年
以, Student”笔名发表,
故又称 Student's t-distribution。
它的发现,
开创了小样本统计推断的新纪元。
二,t分布的图形与特征
t分布是一簇曲线。 ?不同,曲线形
状不同(图 3-3)。
①单峰分布,以 0为中心,左右对称
② ?越小,t值越分散,t分布的峰部
越矮而尾部翘得越高;
③当 ?逼近 ?,逼近,t分布逼近 u
分布。
XS ?X
XS?
t分布曲线下面积 (概率 P或 ?)与横轴 t
值间的关系 (附表 2):
在 t界值表中, 一侧尾部面积称 单侧概
率, 两侧尾部面积之和称 双侧概率 。
在相同自由度时, 值增大, P减小;
在相同 值时, 双尾 P为单尾 P的两倍 。
如双尾 =单尾 =1.812。
t??,2,t??
t0.10/2,10t.05,101.812?
t
t
0.10 / 2,10t 0,05,10t
第三节
总体均数的估计
一、可信区间的概念
参数估计 是用样本统计量推断总体
参数 。 有点估计和区间估计两种 。
点估计 是用相应样本统计量直接作
为其总体参数的估计值 。 如用 估
计 ?,S估计 ?等 。 其方法虽简单, 但
未考虑抽样误差的大小 。
X
X
区间估计 是按预先给定的概率
(1??)所确定的包含未知总体参数的
一个范围 。 该范围称为参数的 可信区
间 或置信区间 (confidence
interval,CI);
预先给定的概率 (1??)称为 可信度
或置信度 (confidence level),常取
95%或 99%。
X
可信区间通常由两个数值即 可信
限 /置信限 (confidence limit,CL)
构成 。 其中较小的值称可信下限
(lower limit,L),较大的值称可信
上限 (upper limit,U),一般表示为
L?U。
X
二、总体均数可信区间的计算
1,单一总体均数的可信区间
(1)?未知:按 t分布 。
(2)? 已知
或 ?未知但 n足够大 (如 n>60)时
,按 u分布 。
2,两总体均数之差的可信区间
1.单一总体均数的可信区间
(1)?未知:
双侧 1–α 可信区间
单侧 1–α 可信区间
,XX t S??? ??
,XX t S??? ??
StSt XX XX ????,2,2,??
例 3-2 在例 3-1中抽得第 15号样本
的 =166.95(cm),S=3.64(cm),求
其总体均数的 95%可信区间 。
(cm)
故该地 18岁男生身高均数的 95%可信
区间为 (164.35,169.55)cm。
166.95X ?3.64S?
3.6 4 1.1 51110XS ??
0.05 2,9 2.262t ?
X
3,6 4 1,1 5 1 1
10X
S ?? 0.05 2,9 2.262t ? 0, 0 5 2,9 2, 2 6 2t ?
( 1 6 6, 9 5 2, 2 6 2 1, 1 5 1 1,1 6 6, 9 5 2, 2 6 2 1, 1 5 1 1 )? ? ? ?
(2)?已知或 ?未知但 n足够大,
?已知,
双侧 1–α 可信区间
单侧 1–α 可信区
?? ???? XX uu XX,2,2,??
?
?
??
??
X
X
u
u
X
X
,
,
?
?
?未知但 n足够大,
双侧 1–α 可信区间
单侧 1–α 可信区
SuSu XX XX ????,2,2,??
Su
Su
X
X
X
X
??
??
,
,
?
?
例 3-3 某地抽取正常成年人 200名, 测
得其血清胆固醇均数为 3.64 mmol/L,标准
差为 1.20mmol/L,估计该地正常成年人血清
胆固醇均数 95%可信区间 。
本例 =3.64,S=1.20,n=200、
=0.0849,
=(3.47,3.81)(mmol?L)
该地正常成年人血清胆固醇均数双侧 95%
可信区间为 (3.47,3.81)mmol?L。
XXS X
XS 0, 0 5 / 2 1, 9 6u ?
? ?3, 6 4 1, 9 6 0, 0 8 4 9,3, 6 4 1, 9 6 0, 0 8 4 9? ? ? ?
2,两总体均数之差的可信区间
双侧 1–α 可信区间
单侧 1–α 可信区间
12
12 / 2,() XXX X t S?? ???
12
121 2,( ) ( ) XXX X t S???? ?? ? ? ?
12
121 2,( ) ( ) XXX X t S???? ?? ? ? ?
三、可信区间的确切含义
从例 3-1及表 3-1可看出, 在算得的
100个样本均数的 95%可信区间中, 平
均约有 95个可信区间包含了总体均数
,另外 5个 (第 20号, 31号, 54号, 76
号和 82号 )不包括 。
可信区间确切含义:
如果能够进行重复抽样试验, 平均有
(1??)的可信区间包含了总体参数,
而不是总体参数落在该范围的可能性
为 (1??)。
在实际工作中, 只能根据一次试验结
果估计可信区间, 就认为该区间包含
了 ?,该结论犯错误的概率 ≤ ? 。
可信区间估计的优劣取决两个方面:
一是可信度 1??,即区间包含 ?的理论
概率大小,愈接近 1愈好。
二是区间的宽度,区间愈窄愈好。
当样本含量为定值时,上述两者互相
矛盾。若只顾提高可信度,则可信区
间会变宽。
四、总体均数可信区间与参考值
范围的区别
,XX t S???
XXu??? XX uS??
X uS??
计
算
公
式
?未知:
?已知或 ?未知但
n﹥ 60:
或
正态分布
偏态分布
PX~ P100?X
,XX t S???
XX u S??XXu ???
X u S??
含
义
按预先给定的概率,
确定未知参数 ? 的可
能范围 。 实际上一次
抽样算得的可信区间
要么包含总体均数,
要么不包含 。 95%CI估
计错误的概率 ≤ 0.05.
,正常人,
的 解剖,
生理, 生
化 某项 指
标 的波 动
范围 。
总体均数的波动范围 个体值的
波动范围
用
途
总体均数的区间估
计
绝大多
数 ( 如
95%) 观
察对象
某项指
标的分
布范围
第四节
t 检验和 u检验
由样本信息推断总体特征, 除 参数
估计 外, 还会遇到这样的问题:
某一样本均数是否来自于已知均数
总体? 两个不同样本均数是否来自
均数相同的总体等?
要回答这类问题, 更多的是用统计
推断的另一方面 ?? 假设检验
(hypothesis test)。
观测到的样本均数与总体均数间或
两样本均数间差异的可能原因:
总体均数不同;
总体均数相同, 差别由抽样造成 。
需要通过统计学假设检验来判断 。
假设检验一般做法:
1.进行检验假设,假设样本对应的总
体参数与某已知总体参数相等,
2.计算检验统计量,根据统计量分布
规律,
3.确定 P 值,根据检验统计量大小,
4.作出统计推断,根据 P值判断样本
信息是否支持原假设 。
蕴含独特的逻辑和统计学思维方式 。
t 检验 (Student’s t-test)
当 n较小时 (如 n﹤ 60),要求样本随
机地取自 正态总体, 两小样本均数比
较要求所对应两总体方差相等
,即 方差齐性 。
U 检验 (U-test,亦称 Z-test)。
要求 n较大;或 n虽小但总体标准差
已知 。
2212???
22
12???
一、单样本 t 检验
即 ( 代表未知 ?) 与 已知 ?0(理论值
,标准值或稳定值 )比较 。
例 3-5 某医生测量了 36名从事铅作
业男性工人的血红蛋白含量, 算得其
均 数 为 130.83g/L, 标 准 差 为
25.74g/L。 问从事铅作业工人的血红
蛋白是否不同于正常成年男性平均值
140g/L?
X
X
(1)建立检验假设, 确定检验水准
H0,?=?0=140g/L,从事铅作业男
性工人平均血红蛋白含量与正常成
年男性平均值相等 。
H1,?≠ ?0,
?=0 。
(2)计算检验统计量
351361
138.2
36
74.25
14083.130
0
?????
??
?
?
?
?
?
?
n
n
S
X
S
X
t
X
?
??
( 3)确定 P值, 作出推断结论
t0.05/2,35< 2.138< t0.02/2,35
0.02< P < 0.05
按 ?=0.05水准, 拒绝 H0,接受 H1,
有统计学意义 。 可认为从事铅作业男
性工人的平均血红蛋白含量低于正常
成年男性的 。
2, 1 3 8 2, 1 3 8t ? ? ?
二、配对 t 检验
又称成对 t 检验 。
按重要特征配对, 随机分组 。
① 两同质受试对象分别接受两种不
同处理; ② 同一受试对象分别接受两
种不同处理; ③ 同一受试对象 (一种 )
处理前后 。
配对 t 检验实质同单样本 t 检验 。
若两处理效应相同, 即 ?1=?2,则
?1??2=0(当成已知总体 ?0)。
差值的样本均数所代表的未知总体
均数 ?d与已知总体均数 ?0=0的比较,
0
,1d
ddd
d dd
tn
S S n S n
?
?
? ?
? ? ? ?=
例 3-6 为比较两种方法对乳酸饮
料中脂肪含量测定结果是否不同,
某人随机抽取了 10份乳酸饮料制品
,分别用脂肪酸水解法和哥特里-
罗紫法测定其结果如表 3-3第 (1)
?(3)栏 。 问两法测定结果是否不同
?
表 3 - 3 两种方法对乳酸饮料中脂肪含量的测定结果 ( % )
编号
(1 )
哥特里-罗紫法
(2 )
脂肪酸水解法
(3 )
差值 d
(4 )= (2 ) ? (3 )
1 0, 8 4 0 0, 5 8 0 0, 2 6 0
2 0, 5 9 1 0, 5 0 9 0, 0 8 2
3 0, 6 7 4 0, 5 0 0 0, 1 7 4
4 0, 6 3 2 0, 3 1 6 0, 3 1 6
5 0, 6 8 7 0, 3 3 7 0, 3 5 0
6 0, 9 7 8 0, 5 1 7 0, 4 6 1
7 0, 7 5 0 0, 4 5 4 0, 2 9 6
8 0, 7 3 0 0, 5 1 2 0, 2 1 8
9 1, 2 0 0 0, 9 9 7 0, 2 0 3
10 0, 8 7 0 0, 5 0 6 0, 3 6 4
2, 7 2 4
(1)建立检验假设, 确定检验水准
H0,?d=0,两种方法的测定结果相同
H1,?d≠ 0,
?=0.05
(2)计算检验统计量
9110
925.7
10
1087.0
02724.0
???
?
?
?
?
?
?
?
nS
d
t
d
d
(3)确定 P 值, 作出推断结论
t=7.925> t0.001/2,9=4.781
P< 0.001
按 ?=0.05水准, 拒绝 H0,接受 H1,
有统计学意义 。 两种方法对脂肪含量
的测定结果不同, 哥特里-罗紫法测
定结果较高 。
三、两样本 t 检验
1.总体方差相等的 t 检验
当两总体方差相等,可将两样本方
差合并,求两者的共同方差 ? 合并
方差 。
2221 ??=2cS
2
cS
例 3-7 为研究国产四类新药 阿卡
波糖胶囊降血糖效果, 某医院用 40
名 II型糖尿病病人进行同期随机对
照试验 。 试验者将这些病人随机等
分到 试验组 (用阿卡波糖胶囊 )和 对
照组 (用拜唐苹胶囊 ),分别测得试
验开始前和 8周后空腹血糖, 算得空
腹血糖下降值见表 3-4,能否认为国
产四类新药阿卡波糖胶囊与拜唐苹
胶囊对空腹血糖的降糖效果不同?
表 3 - 4 试验组和对照组空腹血糖下降值 (m m ol/L )
- 0.7 0 - 5.6 0 2.00 2.80 0.70 3.50 4.00 5.80 7.10 - 0.5 0 试验组
X
1
( n
1
= 20 )
2.50 - 1.6 0 1.70 3.00 0.40 4.50 4.60 2.50 6.00 - 1.4 0
3.70 6.50 5.00 5.20 0.80 0.20 0.60 3.40 6.60 - 1.1 0 对照组
X
2
( n
2
= 20 )
6.00 3.80 2.00 1.60 2.00 2.20 1.20 3.1 0 1.70 - 2.0 0
(1)建立检验假设,确定检验水准
H0,?1=?2 H1,?1 ≠ ?2
?=0.05
(2)计算检验统计量
1 2 1 2
1 2 1 212
12
( ) ( )
,2
X X X X
X X X X
t n n
SS
??
?
??
? ? ? ?
? ? ? ? ?
1 2 1 2
2 2 2 2 2 2
1 1 2 2 1 2
1 2 1 2
2,06 50 2,62 50
0.642
( 1 ) ( 1 ) 3,06 01 2,42 0511
()
202
X X X X
t
n S n S S S
n n n n n
?? ?
? ? ? ? ?
? ? ? ? ?
?
??
?=n1+n2?2=2(n?1)=2(20?1)=38
(3)确定 P值, 作出推断结论
按 ?=0.05 水准, 不拒绝 H0,无统
计学意义 。 还不能认为阿卡波糖胶
囊与拜唐苹胶囊对空腹血糖的降糖
效果不同 。
50.0
6 8 1.06 4 2.06 4 2.0
38,2/5.0
?
?????
P
t t
2.总体方差不相等的 t 检验
?数据变换后进行 t 检验
?秩转换的非参数检验 (第 8章 )
?近似 t检验 ? t'检验
(separate variance estimation
t-test)
2221 ??=2cS
t'检验
?Cochran & Cox法 (1950)
对临界值校正,
?Satterthwaite法 (1946)
对自由度校正 。
?Welch法 (1947)
对自由度校正 。
12 11
22
2212
12
1
'
1
nXX
t
nSS
nn
?
?
???
?
??
?
四,u 检验
1.单样本 u检验:
适用于 n较大 (n﹥60) 或 ?0已知时。
00 ( )
X
XX
un
S Sn
????
?? 较大时
00
0
0
( )
X
XXu
n
?? ?
? ?
???? 已知时
2.两样本 u 检验:
适用于两样本含量较大
(如 n1﹥ 60且 n2﹥ 60)时 。
12
1 2 1 2
22
12
12
XX
X X X X
u
S SS
nn
?
??
??
?
第五节
两均数的等效检验
前述两样本 t检验, 得到 P﹤ ?,拒绝
H0,可认为两总体均数不等 。 得到 P>
?,不拒绝 H0,还不能证明两总体均数
相等 。
要推断两总体均数是否相等或相差
很小, 需借助 等效检验 (equivalence
test)。
等效检验常用于新药临床试验评价
一, 等效检验的基本步骤
例 3-9 为研究某新药对高血脂患
者胆固醇的降低作用是否同于标准
药物, 随机将 202例高血脂患者分为
新药试验组和标准药物对照组, 测
得各组治疗前后胆固醇 (mmol/L)降
低的平均值和标准差如表 3-6。 若等
效界值 ?=0.52mmol/L,问新药和标
准药物的疗效是否相同?
表 3 - 6 两药物治疗高血脂患者的疗效,
胆固醇降低值 (m m ol /L )
分组 n X
S
新药组 102 0.57 0.89
标准药物组 100 0.48 0.82
(1)建立检验假设, 确定检验水准
H0,mmol/L,两药物不等效
H1,mmol/L,两药物等效
?=0.05
12 0, 5 2??? ? ? ?
12 0, 5 2??? ? ? ?
(2)计算检验统计量
﹤ ?=0.52mmol/L
12
1 2 1 2
22
1 1 2 2
1 2 1 2
12
( ) ( )
( 1 ) ( 1 ) 1 1
()
2
2
XX
X X X X
t
S n S n S
n n n n
nn?
?
? ? ? ? ? ?
??
? ? ?
?
??
? ? ?
12 0, 5 7 0, 4 8 0, 0 9XX ? ? ? ?
22
( 0.57 0.48 ) 0.52 3.569
( 102 1 ) 0.89 ( 100 1 ) 0.82 1 1()
102 100 2 102 100
102 100 2 200
t
?
??? ? ?
? ? ? ? ? ?
??
? ? ? ?
22
( 0, 5 7 0, 4 8 ) 0, 5 2
3, 5 6 9
( 1 0 2 1 ) 0, 8 9 ( 1 0 0 1 ) 0, 8 2 1 1
()
1 0 2 1 0 0 2 1 0 2 1 0 0
1 0 2 1 0 0 2 2 0 0
t
?
??
? ? ?
? ? ? ? ?
?
??
? ? ? ?
(3)确定 P 值, 作出推断结论
∣ t∣= 3.569﹥ t0.001/2,200=3.340
P ﹤ 0.001。
按 ?=0.05水准, 拒绝 H0,接受 H1,
有统计学意义 。 可认为新药和标准药
物对降低胆固醇的疗效相同 。
二, 应用等效检验的注意事项
1,?值须在等效试验前根据专业知
识予以确定 。 研究者可把专业上或公
认有临床实际意义的差值作为等效界
值 ?。 如血压 ?值为 0.67kPa(5mmHg),
胆固醇 ?值为 0.52mmol/L(20mg/dl),
白细胞 ?值为 0.5? 109/L(500个 /mm3)
。 当难以确定时, 可用 0.2?0.5倍标准
差作为参考 。
2,等效检验和一般假设检验即,
差别检验, 的基本思想一致。
表 3 - 7 一般假设检验和等效检验的比较
( 以两样本 t 检验为例 )
检验方法 H 0 H 1
一般假设
检验
1 2 1 2
0? ? ? ?? ? ?即
1 2 1 2 1 2 1 2
00? ? ? ? ? ? ? ?? ? ? ? ? ?即 或 即
等效检验
12
?? ? ? ?
12
?? ? ? ?
等效检验和一般, 差别检验, 最大
不同之处,采用两个同时进行的单侧
检验去判断无效假设是否成立 。
假定 ?T??C的等效区间为 [??,?],
判断试验药和对照药是否等效, 第一
次单侧 t检验 H1为,?T??C ﹥ ??,第二
次单侧 t检验 H1为,?T??C ﹤ ?,只有
两次单侧 t检验均拒绝 H0,接受 H1,才
能认为试验药和对照药等效 。
3,在等效检验中,拒绝 H0,接受 H1
,有统计学意义,所下专业结论是两
总体均数等效。
第六节
假设检验的基本步骤
及注意事项
假设检验利用 小概率反证法 思想,
从问题对立面 (H0)出发间接判断要解
决的问题 (H1)是否成立 。 在 H0成立的
条件下计算检验统计量, 获得 P值来
判断 。 当 P ≤ ?,就是小概率事件 。
小概率事件原理,小概率事件在一
次抽样中发生的可能性很小, 如果它
发生了, 则有理由怀疑 H0,认为 H1成
立, 该结论可能犯 ?的错误 。
一、假设检验的基本步骤
1.建立检验假设,确定检验水准:
(1)?=?0, 检 验 假 设 (hypothesis
under test),常称无效假设或零假
设 (null hypothesis)。 用 H0表示 。
(2)???0:备择假设, 常称对立假设
(alternative hypothesis)。 用 H1或
HA表示 。
注意事项:
①针对总体而不是针对样本而言;
② H0和 H1是相互联系、对立假设,结
论根据 H0和 H1作出,两者缺一不可;
③ H0通常是:某两个 (或多个 )总体参
数相等,或某两个总体参数之差等于 0
,或 …… 无效,或某资料服从某一特
定分布等;
④ H1反映了检验的单双侧。
H1:???0或 ?< ?0,单侧检验。有无
差异,差异方向。
H1:???0,双侧检验。
单双侧检验确定,首先根据专业知
识,其次根据所要解决的问题。双侧
检验较保守和稳妥。
(3)?:检验水准, 也称显著性水
准, 它属于 I型错误的范畴 。 ?是预先
规定的概率值, 它确定了小概率事件
标准 。 在实际工作中常取 ?=0.05。 但
并非一成不变 。
2.计算检验统计量
应根据变量和资料类型、设计方案
、统计推断的目的、方法的适用条件
等选择检验统计量。
所有检验统计量都是在 H0成立的前
提条件下计算出来的。
3.确定 P 值, 作出推断结论
P 的含义是指从 H0规定的总体中随
机抽样, 其检验统计量等于及大于现
有样本获得检验统计量值的概率 。
根据获得的事后概率 P,与事先规定
的概率 —?进行比较, 看其是否为小
概率事件而得出结论 。
结论应包含统计结论和专业结论 。
统 计 结 论 只 说 明 有 统 计 学 意 义
(statistical significance)或无统
计 学 意 义 (no statistical
significance),而不能说明专业上的
差异大小 。 它必须同专业结论有机结
合, 才能得出恰如其分, 符合客观实
际的最终结论 。
若 P ≤ ?, 结论为按 ?检验水准,
拒绝 H0,接受 H1,有统计学意义 (统
计结论 )。 可认为 …… 不同, …… 高
于 …… (专业结论 )。
若 P> ?,结论为按 ?检验水准, 不
拒绝 H0,无统计学意义 (统计结论 )。
还不能认为 …… 不同 (专业结论 )。
P> ?过去称, 无显著性,, 文献中
常用 NS(non-significant / no
significance)表示,, 阴性结果, 。
① 虽然否定之否定为肯定, 但不拒
绝 H0不等于接受 H0,因此时证据不足
。 可暂时, 接受, 它, 或, 阴性待诊
” 。
② 下结论时, 对 H0只能说:拒绝或不
拒绝;对 H1只能说:接受 H1。
二,I型错误和 II型错误
表 3 - 1 0 可能发生的两类错误
假设检验的结果
客观实际
拒绝 H
0
,接受” H
0
H
0
成立 I 型错误 ( ? ) 推断正确 (1 ? ? )
H
0
不成立 即 H
1
成立 推断正确 (1 ? ? ) II 型错误 ( ? )
?是预先规定允许犯 I型错误概率的
最大值, 可取单尾亦可取双尾 。
II型错误的概率大小用 ? 表示,?
只取单尾, ? 值的大小一般未知, 须
在知道两总体差值 ? (如 ?1??2等 ),?
及 n 时, 才能算出 ( 图 3-6) 。
1?? 称检验效能 (power of a test)
,过去称把握度 。 为当两总体确有差
异, 按检验水准 ?所能发现该差异的
能力 。 1??只取单尾 。
? 愈小, ? 愈大; ? 愈大, ? 愈小
。 若要同时减小 ?和 ?,唯一方法是增
加样本含量 n。
若重点减少 ?(如一般假设检验 ),一
般取 ?=0.05;
若重点减少 ?(如方差齐性检验, 正
态性检验等 ),一般取 ?=0.10或 0.20
甚至更高 。
拒绝 H0,只可能犯 I型错误, 不可能
犯 II型错误;, 接受, H0,只可能犯
II型错误, 不可能犯 I型错误 。
三、假设检验应注意的问题
1.要有严密的研究设计
组间应均衡,具有可比性,也就是除
对比的主要因素 (如临床试验用新药和
对照药 )外,其它可能影响结果的因素
(如年龄、性别、病程、病情轻重等 )
在对比组间应相同或相近。
2.不同资料应选用不同检验方法
配对设计计量资料:配对 t检验。
完全随机设计两样本计量资料:
小样本 (任一 ni≤60) 且方差齐,
两样本 t检验;若方差不齐,近似 t?检
验。
大样本 (所有 ni> 60),u检验。
3.正确理解, 显著性, 一词的含义
差别有或无统计学意义, 过去称差
别有或无, 显著性,, 是对样本统计
量与总体参数或样本统计量之间的比
较而言, 相应推断为:可以认为或还
不能认为两个或多个总体参数有差别
。
4.结论不能绝对化
因统计结论具有概率性质, 故, 肯
定,,, 一定,,, 必定, 等词不要
使用 。 在报告结论时, 最好列出检验
统计量的值, 尽量写出具体的 P值或 P
值 的 确 切 范 围, 而 不 简 单 写 成
P﹤ 0.05,以便读者与同类研究进行
比较或进行循证医学时采用 Meta分析
。
5.统计, 显著性, 与医学, 显著性
”
统计, 显著性, 对应统计结论, 医
学, 显著性, 对应专业结论 。
统计结论有意义, 专业结论无意义
,最终结论没有意义, 样本含量过大
或设计存在问题 。 统计结论无意义,
专业结论有意义, 检查设计是否合理
,样本含量是否足够 。
6.可信区间与假设检验区别和联系
可信区间说明量的大小即推断总体
均数范围, 假设检验推断质的不同即
判断两总体均数是否不等 。
可信区间可回答假设检验问题, 可
信区间若包含了 H0, 按 ?水准, 不拒
绝 H0;若不包含 H0, 按 ?水准, 拒绝
H0, 接受 H1。
可信区间不但能回答差别有无统计
学意义, 还能提示差别有无实际专业
意义 ( 图 3-7) 。
可信区间不能够完全代替假设检验
。 可信区间只能在预先规定概率 ?的
前提下进行计算, 假设检验能获得一
较为确切的 P值 。
第七节
正态性检验
和两样本方差齐性检验
两小样本 t 检验:相应的两总体为
正态总体且两总体方差相等, 即方差
齐性;
配对 t 检验:每对数据差值的总体
为正态总体 。
一、正态性检验
1.图示法
概率图 (probability-probability
plot)以实际累积频率 (X )对被检验分
布(如正态分布)的理论累积频率 (Y
)作图(图 3-8);
分位数图 (quantile-quantile
plot)以实际分位数 (X )对被检验分
布(如正态分布)理论分位数 (Y )作
图(图 3-9);
如果实际值与理论值两者吻合,则
图中散点几乎都在一条直线上,可认
为该资料服从正态分布。
2.计算法
( 1) 对偏度和峰度各用一个指标评
定, 其中以矩法 (method of moment,
又称动差法 )效率最高;
( 2) 仅用一个指标综合评定, 其中
W 检验法效率最高, 适用 n﹤ 100的资
料; D 检验法效率也高, 不论样本含
量多少均适用 。
矩是利用数学上矩原理来检验偏度
和峰度 。
偏度指分布不对称的程度和方向,
用偏度系数 (总体,?1 样本,g1)衡量;
峰度指分布与正态曲线相比的冒尖
或扁平程度, 用峰度系数 (总体,?2 样
本,g2)衡量 。
总体偏度系数 ?1=0为对称, ?1﹥ 0为
正偏态, ?1﹤ 0为负偏态;
总体峰度系数 ?2=0为正态峰, ?2﹥ 0
为尖峭峰, ?2﹤ 0为平阔峰 。
当同时满足对称和正态峰两个条件
时, 才能认为该资料服从正态分布 。
二、两样本方差齐性检验
第一个样本方差既可能大于也可能
小于第二个样本方差,是双侧检验。
公式规定以较大方差作分子,F必然大
于 1,附表 3只给出不对称 F 分布右侧
界值,实对应双尾概率 P。
2
111
2
222
1()
1()
nS
F
nS
?
?
??
?
??
较大
较小
例 3-12 对例 3-8,用 F检验判断对照
组和试验组病人 8周时糖化血红蛋白
HbA1c(%)下降值总体方差是否不等 。
(1)建立检验假设, 确定检验水准 。
H0:
H1:
?=0.10
2221 ?? =
2221 ?? ?
(2)计算检验统计量
(3)确定 P值, 作出推断结论
3.775﹥ 2.15=F0.10(20,19)
P﹤ 0.10
按 ?=0.10水准, 拒绝 H0,接受 H1,有
统计学意义 。 可认为对照组和试验组
病人 HbA1c(%)下降值总体方差不等 。
2
2
1, 3 6 3, 7 7 5
0, 7 0
F ??
1
2
2 0 1 1 9
2 0 1 1 9
?
?
? ? ?
? ? ?
练 习 题
一、最佳选择题
三、计算分析题
1,2,3,4,5,6,7,8.
谢 谢 !
总体均数的估计
与假设检验
第一节
均数的抽样误差与标准误
了解总体特征的最好方法是对总体的
每一个体进行观察、试验,但这在医
学研究实际中往往不可行。
对 无限总体 不可能对所有个体逐一观
察,对 有限总体 限于人力、财力、物
力、时间或个体过多等原因,不可能
也没必要对所有个体逐一研究。
借助 抽样研究 。
欲了解某地 2000年正常成年男性血清
总胆固醇的平均水平,随机抽取该地
200名正常成年男性作为 样本。
由于存在个体差异,抽得的 样本均数
不太可能恰好等于 总体均数。
由 个体变异和抽样 造成的样本统计量
与总体参数的差异,称为 抽样误差。
这些来自同一总体的若干样本统计量
间,也存在抽样误差。
在抽样研究中,抽样误差是不可避免
的。
由于其产生的根本原因是 生物个体的
变异性,故抽样误差分布具有一定的
规律性。
例 3-1 某市 1999年 18岁男生身高服从
? =167.7cm,? =5.3cm正态分布,从
该 N(167.7,5.32)总体中随机抽样
(图 3-1)。
每次 =10人,共有 样本 g=100个,
得到每个 样本均数 及 标准差 。
将上述 100个样本均数看成 新变量值
,这 100个样本均数构成一新分布。
jnjXjS
jn
jSjX
样本均数抽样分布具有如下特点:
①各样本均数未必等于总体均数;
②各样本均数间存在差异(表 3-1);
③样本均数围绕总体均数 (167.7cm)
呈正态分布(图 3-2);
④样本均数变异范围较原变量变异范
围大大缩小,这 100个样本均数的
均数为 167.69cm、标准差为 1.69cm。
在 非正态分布总体 中可进行类似抽样。
可得到如下结论:
若 服从正态分布
则 服从正态分布
若 不服从正态分布
n大:则 近似服从正态分布
n小:则 为非正态分布
iX
jX
iX
jX
jX
的总体均数为 ?;而 的标准差
比原个体值的标准差要小,为区别两
者,的标准差用 表示。
样本统计量的标准差称标准误
(standard error,SE)。
样本均数的标准差称均数的标准误
(standard error of mean,SEM),
反映样本均数间离散程度。
jXX?
jX
jX X?
jX
可证明均数标准误
在实际工作中 ?常未知, 用 S来估计
。 均数标准误估计值
X n?? ?
X SS n?
X n
?? ?
X
SS
n
?
均数标准误大小与标准差大小成正比
,与样本含量 n的平方根成反比 。
第二节
t 分布
一,t 分布的概念
若某一随机变量 X服从总体均数为 ?、
总体标准差为 ? 的正态分布 N(?,?2)
X ???XX?2X
X?
)1,0(~ 2NXu
?
???
)1,0(~ 2N
X
u
X?
??
?
由于样本均数服从总体均数为 ?、总
体标准差为 的正态分布 N(?,)
XX?2
X
X?
2
X?
,1
X
XX
tn
S Sn
??
?
??
? ? ? ?
18X Y Z? ? ?
nm???
X 1n???
18X Y Z? ? ? ?=2
nm? ??
n为计算某一统计量用到的 数据个数,
m为计算该统计量用到其它 独立统计量
的个数。
t分布最早
由英国统计学家 W.S,Gosset
于 1908年
以, Student”笔名发表,
故又称 Student's t-distribution。
它的发现,
开创了小样本统计推断的新纪元。
二,t分布的图形与特征
t分布是一簇曲线。 ?不同,曲线形
状不同(图 3-3)。
①单峰分布,以 0为中心,左右对称
② ?越小,t值越分散,t分布的峰部
越矮而尾部翘得越高;
③当 ?逼近 ?,逼近,t分布逼近 u
分布。
XS ?X
XS?
t分布曲线下面积 (概率 P或 ?)与横轴 t
值间的关系 (附表 2):
在 t界值表中, 一侧尾部面积称 单侧概
率, 两侧尾部面积之和称 双侧概率 。
在相同自由度时, 值增大, P减小;
在相同 值时, 双尾 P为单尾 P的两倍 。
如双尾 =单尾 =1.812。
t??,2,t??
t0.10/2,10t.05,101.812?
t
t
0.10 / 2,10t 0,05,10t
第三节
总体均数的估计
一、可信区间的概念
参数估计 是用样本统计量推断总体
参数 。 有点估计和区间估计两种 。
点估计 是用相应样本统计量直接作
为其总体参数的估计值 。 如用 估
计 ?,S估计 ?等 。 其方法虽简单, 但
未考虑抽样误差的大小 。
X
X
区间估计 是按预先给定的概率
(1??)所确定的包含未知总体参数的
一个范围 。 该范围称为参数的 可信区
间 或置信区间 (confidence
interval,CI);
预先给定的概率 (1??)称为 可信度
或置信度 (confidence level),常取
95%或 99%。
X
可信区间通常由两个数值即 可信
限 /置信限 (confidence limit,CL)
构成 。 其中较小的值称可信下限
(lower limit,L),较大的值称可信
上限 (upper limit,U),一般表示为
L?U。
X
二、总体均数可信区间的计算
1,单一总体均数的可信区间
(1)?未知:按 t分布 。
(2)? 已知
或 ?未知但 n足够大 (如 n>60)时
,按 u分布 。
2,两总体均数之差的可信区间
1.单一总体均数的可信区间
(1)?未知:
双侧 1–α 可信区间
单侧 1–α 可信区间
,XX t S??? ??
,XX t S??? ??
StSt XX XX ????,2,2,??
例 3-2 在例 3-1中抽得第 15号样本
的 =166.95(cm),S=3.64(cm),求
其总体均数的 95%可信区间 。
(cm)
故该地 18岁男生身高均数的 95%可信
区间为 (164.35,169.55)cm。
166.95X ?3.64S?
3.6 4 1.1 51110XS ??
0.05 2,9 2.262t ?
X
3,6 4 1,1 5 1 1
10X
S ?? 0.05 2,9 2.262t ? 0, 0 5 2,9 2, 2 6 2t ?
( 1 6 6, 9 5 2, 2 6 2 1, 1 5 1 1,1 6 6, 9 5 2, 2 6 2 1, 1 5 1 1 )? ? ? ?
(2)?已知或 ?未知但 n足够大,
?已知,
双侧 1–α 可信区间
单侧 1–α 可信区
?? ???? XX uu XX,2,2,??
?
?
??
??
X
X
u
u
X
X
,
,
?
?
?未知但 n足够大,
双侧 1–α 可信区间
单侧 1–α 可信区
SuSu XX XX ????,2,2,??
Su
Su
X
X
X
X
??
??
,
,
?
?
例 3-3 某地抽取正常成年人 200名, 测
得其血清胆固醇均数为 3.64 mmol/L,标准
差为 1.20mmol/L,估计该地正常成年人血清
胆固醇均数 95%可信区间 。
本例 =3.64,S=1.20,n=200、
=0.0849,
=(3.47,3.81)(mmol?L)
该地正常成年人血清胆固醇均数双侧 95%
可信区间为 (3.47,3.81)mmol?L。
XXS X
XS 0, 0 5 / 2 1, 9 6u ?
? ?3, 6 4 1, 9 6 0, 0 8 4 9,3, 6 4 1, 9 6 0, 0 8 4 9? ? ? ?
2,两总体均数之差的可信区间
双侧 1–α 可信区间
单侧 1–α 可信区间
12
12 / 2,() XXX X t S?? ???
12
121 2,( ) ( ) XXX X t S???? ?? ? ? ?
12
121 2,( ) ( ) XXX X t S???? ?? ? ? ?
三、可信区间的确切含义
从例 3-1及表 3-1可看出, 在算得的
100个样本均数的 95%可信区间中, 平
均约有 95个可信区间包含了总体均数
,另外 5个 (第 20号, 31号, 54号, 76
号和 82号 )不包括 。
可信区间确切含义:
如果能够进行重复抽样试验, 平均有
(1??)的可信区间包含了总体参数,
而不是总体参数落在该范围的可能性
为 (1??)。
在实际工作中, 只能根据一次试验结
果估计可信区间, 就认为该区间包含
了 ?,该结论犯错误的概率 ≤ ? 。
可信区间估计的优劣取决两个方面:
一是可信度 1??,即区间包含 ?的理论
概率大小,愈接近 1愈好。
二是区间的宽度,区间愈窄愈好。
当样本含量为定值时,上述两者互相
矛盾。若只顾提高可信度,则可信区
间会变宽。
四、总体均数可信区间与参考值
范围的区别
,XX t S???
XXu??? XX uS??
X uS??
计
算
公
式
?未知:
?已知或 ?未知但
n﹥ 60:
或
正态分布
偏态分布
PX~ P100?X
,XX t S???
XX u S??XXu ???
X u S??
含
义
按预先给定的概率,
确定未知参数 ? 的可
能范围 。 实际上一次
抽样算得的可信区间
要么包含总体均数,
要么不包含 。 95%CI估
计错误的概率 ≤ 0.05.
,正常人,
的 解剖,
生理, 生
化 某项 指
标 的波 动
范围 。
总体均数的波动范围 个体值的
波动范围
用
途
总体均数的区间估
计
绝大多
数 ( 如
95%) 观
察对象
某项指
标的分
布范围
第四节
t 检验和 u检验
由样本信息推断总体特征, 除 参数
估计 外, 还会遇到这样的问题:
某一样本均数是否来自于已知均数
总体? 两个不同样本均数是否来自
均数相同的总体等?
要回答这类问题, 更多的是用统计
推断的另一方面 ?? 假设检验
(hypothesis test)。
观测到的样本均数与总体均数间或
两样本均数间差异的可能原因:
总体均数不同;
总体均数相同, 差别由抽样造成 。
需要通过统计学假设检验来判断 。
假设检验一般做法:
1.进行检验假设,假设样本对应的总
体参数与某已知总体参数相等,
2.计算检验统计量,根据统计量分布
规律,
3.确定 P 值,根据检验统计量大小,
4.作出统计推断,根据 P值判断样本
信息是否支持原假设 。
蕴含独特的逻辑和统计学思维方式 。
t 检验 (Student’s t-test)
当 n较小时 (如 n﹤ 60),要求样本随
机地取自 正态总体, 两小样本均数比
较要求所对应两总体方差相等
,即 方差齐性 。
U 检验 (U-test,亦称 Z-test)。
要求 n较大;或 n虽小但总体标准差
已知 。
2212???
22
12???
一、单样本 t 检验
即 ( 代表未知 ?) 与 已知 ?0(理论值
,标准值或稳定值 )比较 。
例 3-5 某医生测量了 36名从事铅作
业男性工人的血红蛋白含量, 算得其
均 数 为 130.83g/L, 标 准 差 为
25.74g/L。 问从事铅作业工人的血红
蛋白是否不同于正常成年男性平均值
140g/L?
X
X
(1)建立检验假设, 确定检验水准
H0,?=?0=140g/L,从事铅作业男
性工人平均血红蛋白含量与正常成
年男性平均值相等 。
H1,?≠ ?0,
?=0 。
(2)计算检验统计量
351361
138.2
36
74.25
14083.130
0
?????
??
?
?
?
?
?
?
n
n
S
X
S
X
t
X
?
??
( 3)确定 P值, 作出推断结论
t0.05/2,35< 2.138< t0.02/2,35
0.02< P < 0.05
按 ?=0.05水准, 拒绝 H0,接受 H1,
有统计学意义 。 可认为从事铅作业男
性工人的平均血红蛋白含量低于正常
成年男性的 。
2, 1 3 8 2, 1 3 8t ? ? ?
二、配对 t 检验
又称成对 t 检验 。
按重要特征配对, 随机分组 。
① 两同质受试对象分别接受两种不
同处理; ② 同一受试对象分别接受两
种不同处理; ③ 同一受试对象 (一种 )
处理前后 。
配对 t 检验实质同单样本 t 检验 。
若两处理效应相同, 即 ?1=?2,则
?1??2=0(当成已知总体 ?0)。
差值的样本均数所代表的未知总体
均数 ?d与已知总体均数 ?0=0的比较,
0
,1d
ddd
d dd
tn
S S n S n
?
?
? ?
? ? ? ?=
例 3-6 为比较两种方法对乳酸饮
料中脂肪含量测定结果是否不同,
某人随机抽取了 10份乳酸饮料制品
,分别用脂肪酸水解法和哥特里-
罗紫法测定其结果如表 3-3第 (1)
?(3)栏 。 问两法测定结果是否不同
?
表 3 - 3 两种方法对乳酸饮料中脂肪含量的测定结果 ( % )
编号
(1 )
哥特里-罗紫法
(2 )
脂肪酸水解法
(3 )
差值 d
(4 )= (2 ) ? (3 )
1 0, 8 4 0 0, 5 8 0 0, 2 6 0
2 0, 5 9 1 0, 5 0 9 0, 0 8 2
3 0, 6 7 4 0, 5 0 0 0, 1 7 4
4 0, 6 3 2 0, 3 1 6 0, 3 1 6
5 0, 6 8 7 0, 3 3 7 0, 3 5 0
6 0, 9 7 8 0, 5 1 7 0, 4 6 1
7 0, 7 5 0 0, 4 5 4 0, 2 9 6
8 0, 7 3 0 0, 5 1 2 0, 2 1 8
9 1, 2 0 0 0, 9 9 7 0, 2 0 3
10 0, 8 7 0 0, 5 0 6 0, 3 6 4
2, 7 2 4
(1)建立检验假设, 确定检验水准
H0,?d=0,两种方法的测定结果相同
H1,?d≠ 0,
?=0.05
(2)计算检验统计量
9110
925.7
10
1087.0
02724.0
???
?
?
?
?
?
?
?
nS
d
t
d
d
(3)确定 P 值, 作出推断结论
t=7.925> t0.001/2,9=4.781
P< 0.001
按 ?=0.05水准, 拒绝 H0,接受 H1,
有统计学意义 。 两种方法对脂肪含量
的测定结果不同, 哥特里-罗紫法测
定结果较高 。
三、两样本 t 检验
1.总体方差相等的 t 检验
当两总体方差相等,可将两样本方
差合并,求两者的共同方差 ? 合并
方差 。
2221 ??=2cS
2
cS
例 3-7 为研究国产四类新药 阿卡
波糖胶囊降血糖效果, 某医院用 40
名 II型糖尿病病人进行同期随机对
照试验 。 试验者将这些病人随机等
分到 试验组 (用阿卡波糖胶囊 )和 对
照组 (用拜唐苹胶囊 ),分别测得试
验开始前和 8周后空腹血糖, 算得空
腹血糖下降值见表 3-4,能否认为国
产四类新药阿卡波糖胶囊与拜唐苹
胶囊对空腹血糖的降糖效果不同?
表 3 - 4 试验组和对照组空腹血糖下降值 (m m ol/L )
- 0.7 0 - 5.6 0 2.00 2.80 0.70 3.50 4.00 5.80 7.10 - 0.5 0 试验组
X
1
( n
1
= 20 )
2.50 - 1.6 0 1.70 3.00 0.40 4.50 4.60 2.50 6.00 - 1.4 0
3.70 6.50 5.00 5.20 0.80 0.20 0.60 3.40 6.60 - 1.1 0 对照组
X
2
( n
2
= 20 )
6.00 3.80 2.00 1.60 2.00 2.20 1.20 3.1 0 1.70 - 2.0 0
(1)建立检验假设,确定检验水准
H0,?1=?2 H1,?1 ≠ ?2
?=0.05
(2)计算检验统计量
1 2 1 2
1 2 1 212
12
( ) ( )
,2
X X X X
X X X X
t n n
SS
??
?
??
? ? ? ?
? ? ? ? ?
1 2 1 2
2 2 2 2 2 2
1 1 2 2 1 2
1 2 1 2
2,06 50 2,62 50
0.642
( 1 ) ( 1 ) 3,06 01 2,42 0511
()
202
X X X X
t
n S n S S S
n n n n n
?? ?
? ? ? ? ?
? ? ? ? ?
?
??
?=n1+n2?2=2(n?1)=2(20?1)=38
(3)确定 P值, 作出推断结论
按 ?=0.05 水准, 不拒绝 H0,无统
计学意义 。 还不能认为阿卡波糖胶
囊与拜唐苹胶囊对空腹血糖的降糖
效果不同 。
50.0
6 8 1.06 4 2.06 4 2.0
38,2/5.0
?
?????
P
t t
2.总体方差不相等的 t 检验
?数据变换后进行 t 检验
?秩转换的非参数检验 (第 8章 )
?近似 t检验 ? t'检验
(separate variance estimation
t-test)
2221 ??=2cS
t'检验
?Cochran & Cox法 (1950)
对临界值校正,
?Satterthwaite法 (1946)
对自由度校正 。
?Welch法 (1947)
对自由度校正 。
12 11
22
2212
12
1
'
1
nXX
t
nSS
nn
?
?
???
?
??
?
四,u 检验
1.单样本 u检验:
适用于 n较大 (n﹥60) 或 ?0已知时。
00 ( )
X
XX
un
S Sn
????
?? 较大时
00
0
0
( )
X
XXu
n
?? ?
? ?
???? 已知时
2.两样本 u 检验:
适用于两样本含量较大
(如 n1﹥ 60且 n2﹥ 60)时 。
12
1 2 1 2
22
12
12
XX
X X X X
u
S SS
nn
?
??
??
?
第五节
两均数的等效检验
前述两样本 t检验, 得到 P﹤ ?,拒绝
H0,可认为两总体均数不等 。 得到 P>
?,不拒绝 H0,还不能证明两总体均数
相等 。
要推断两总体均数是否相等或相差
很小, 需借助 等效检验 (equivalence
test)。
等效检验常用于新药临床试验评价
一, 等效检验的基本步骤
例 3-9 为研究某新药对高血脂患
者胆固醇的降低作用是否同于标准
药物, 随机将 202例高血脂患者分为
新药试验组和标准药物对照组, 测
得各组治疗前后胆固醇 (mmol/L)降
低的平均值和标准差如表 3-6。 若等
效界值 ?=0.52mmol/L,问新药和标
准药物的疗效是否相同?
表 3 - 6 两药物治疗高血脂患者的疗效,
胆固醇降低值 (m m ol /L )
分组 n X
S
新药组 102 0.57 0.89
标准药物组 100 0.48 0.82
(1)建立检验假设, 确定检验水准
H0,mmol/L,两药物不等效
H1,mmol/L,两药物等效
?=0.05
12 0, 5 2??? ? ? ?
12 0, 5 2??? ? ? ?
(2)计算检验统计量
﹤ ?=0.52mmol/L
12
1 2 1 2
22
1 1 2 2
1 2 1 2
12
( ) ( )
( 1 ) ( 1 ) 1 1
()
2
2
XX
X X X X
t
S n S n S
n n n n
nn?
?
? ? ? ? ? ?
??
? ? ?
?
??
? ? ?
12 0, 5 7 0, 4 8 0, 0 9XX ? ? ? ?
22
( 0.57 0.48 ) 0.52 3.569
( 102 1 ) 0.89 ( 100 1 ) 0.82 1 1()
102 100 2 102 100
102 100 2 200
t
?
??? ? ?
? ? ? ? ? ?
??
? ? ? ?
22
( 0, 5 7 0, 4 8 ) 0, 5 2
3, 5 6 9
( 1 0 2 1 ) 0, 8 9 ( 1 0 0 1 ) 0, 8 2 1 1
()
1 0 2 1 0 0 2 1 0 2 1 0 0
1 0 2 1 0 0 2 2 0 0
t
?
??
? ? ?
? ? ? ? ?
?
??
? ? ? ?
(3)确定 P 值, 作出推断结论
∣ t∣= 3.569﹥ t0.001/2,200=3.340
P ﹤ 0.001。
按 ?=0.05水准, 拒绝 H0,接受 H1,
有统计学意义 。 可认为新药和标准药
物对降低胆固醇的疗效相同 。
二, 应用等效检验的注意事项
1,?值须在等效试验前根据专业知
识予以确定 。 研究者可把专业上或公
认有临床实际意义的差值作为等效界
值 ?。 如血压 ?值为 0.67kPa(5mmHg),
胆固醇 ?值为 0.52mmol/L(20mg/dl),
白细胞 ?值为 0.5? 109/L(500个 /mm3)
。 当难以确定时, 可用 0.2?0.5倍标准
差作为参考 。
2,等效检验和一般假设检验即,
差别检验, 的基本思想一致。
表 3 - 7 一般假设检验和等效检验的比较
( 以两样本 t 检验为例 )
检验方法 H 0 H 1
一般假设
检验
1 2 1 2
0? ? ? ?? ? ?即
1 2 1 2 1 2 1 2
00? ? ? ? ? ? ? ?? ? ? ? ? ?即 或 即
等效检验
12
?? ? ? ?
12
?? ? ? ?
等效检验和一般, 差别检验, 最大
不同之处,采用两个同时进行的单侧
检验去判断无效假设是否成立 。
假定 ?T??C的等效区间为 [??,?],
判断试验药和对照药是否等效, 第一
次单侧 t检验 H1为,?T??C ﹥ ??,第二
次单侧 t检验 H1为,?T??C ﹤ ?,只有
两次单侧 t检验均拒绝 H0,接受 H1,才
能认为试验药和对照药等效 。
3,在等效检验中,拒绝 H0,接受 H1
,有统计学意义,所下专业结论是两
总体均数等效。
第六节
假设检验的基本步骤
及注意事项
假设检验利用 小概率反证法 思想,
从问题对立面 (H0)出发间接判断要解
决的问题 (H1)是否成立 。 在 H0成立的
条件下计算检验统计量, 获得 P值来
判断 。 当 P ≤ ?,就是小概率事件 。
小概率事件原理,小概率事件在一
次抽样中发生的可能性很小, 如果它
发生了, 则有理由怀疑 H0,认为 H1成
立, 该结论可能犯 ?的错误 。
一、假设检验的基本步骤
1.建立检验假设,确定检验水准:
(1)?=?0, 检 验 假 设 (hypothesis
under test),常称无效假设或零假
设 (null hypothesis)。 用 H0表示 。
(2)???0:备择假设, 常称对立假设
(alternative hypothesis)。 用 H1或
HA表示 。
注意事项:
①针对总体而不是针对样本而言;
② H0和 H1是相互联系、对立假设,结
论根据 H0和 H1作出,两者缺一不可;
③ H0通常是:某两个 (或多个 )总体参
数相等,或某两个总体参数之差等于 0
,或 …… 无效,或某资料服从某一特
定分布等;
④ H1反映了检验的单双侧。
H1:???0或 ?< ?0,单侧检验。有无
差异,差异方向。
H1:???0,双侧检验。
单双侧检验确定,首先根据专业知
识,其次根据所要解决的问题。双侧
检验较保守和稳妥。
(3)?:检验水准, 也称显著性水
准, 它属于 I型错误的范畴 。 ?是预先
规定的概率值, 它确定了小概率事件
标准 。 在实际工作中常取 ?=0.05。 但
并非一成不变 。
2.计算检验统计量
应根据变量和资料类型、设计方案
、统计推断的目的、方法的适用条件
等选择检验统计量。
所有检验统计量都是在 H0成立的前
提条件下计算出来的。
3.确定 P 值, 作出推断结论
P 的含义是指从 H0规定的总体中随
机抽样, 其检验统计量等于及大于现
有样本获得检验统计量值的概率 。
根据获得的事后概率 P,与事先规定
的概率 —?进行比较, 看其是否为小
概率事件而得出结论 。
结论应包含统计结论和专业结论 。
统 计 结 论 只 说 明 有 统 计 学 意 义
(statistical significance)或无统
计 学 意 义 (no statistical
significance),而不能说明专业上的
差异大小 。 它必须同专业结论有机结
合, 才能得出恰如其分, 符合客观实
际的最终结论 。
若 P ≤ ?, 结论为按 ?检验水准,
拒绝 H0,接受 H1,有统计学意义 (统
计结论 )。 可认为 …… 不同, …… 高
于 …… (专业结论 )。
若 P> ?,结论为按 ?检验水准, 不
拒绝 H0,无统计学意义 (统计结论 )。
还不能认为 …… 不同 (专业结论 )。
P> ?过去称, 无显著性,, 文献中
常用 NS(non-significant / no
significance)表示,, 阴性结果, 。
① 虽然否定之否定为肯定, 但不拒
绝 H0不等于接受 H0,因此时证据不足
。 可暂时, 接受, 它, 或, 阴性待诊
” 。
② 下结论时, 对 H0只能说:拒绝或不
拒绝;对 H1只能说:接受 H1。
二,I型错误和 II型错误
表 3 - 1 0 可能发生的两类错误
假设检验的结果
客观实际
拒绝 H
0
,接受” H
0
H
0
成立 I 型错误 ( ? ) 推断正确 (1 ? ? )
H
0
不成立 即 H
1
成立 推断正确 (1 ? ? ) II 型错误 ( ? )
?是预先规定允许犯 I型错误概率的
最大值, 可取单尾亦可取双尾 。
II型错误的概率大小用 ? 表示,?
只取单尾, ? 值的大小一般未知, 须
在知道两总体差值 ? (如 ?1??2等 ),?
及 n 时, 才能算出 ( 图 3-6) 。
1?? 称检验效能 (power of a test)
,过去称把握度 。 为当两总体确有差
异, 按检验水准 ?所能发现该差异的
能力 。 1??只取单尾 。
? 愈小, ? 愈大; ? 愈大, ? 愈小
。 若要同时减小 ?和 ?,唯一方法是增
加样本含量 n。
若重点减少 ?(如一般假设检验 ),一
般取 ?=0.05;
若重点减少 ?(如方差齐性检验, 正
态性检验等 ),一般取 ?=0.10或 0.20
甚至更高 。
拒绝 H0,只可能犯 I型错误, 不可能
犯 II型错误;, 接受, H0,只可能犯
II型错误, 不可能犯 I型错误 。
三、假设检验应注意的问题
1.要有严密的研究设计
组间应均衡,具有可比性,也就是除
对比的主要因素 (如临床试验用新药和
对照药 )外,其它可能影响结果的因素
(如年龄、性别、病程、病情轻重等 )
在对比组间应相同或相近。
2.不同资料应选用不同检验方法
配对设计计量资料:配对 t检验。
完全随机设计两样本计量资料:
小样本 (任一 ni≤60) 且方差齐,
两样本 t检验;若方差不齐,近似 t?检
验。
大样本 (所有 ni> 60),u检验。
3.正确理解, 显著性, 一词的含义
差别有或无统计学意义, 过去称差
别有或无, 显著性,, 是对样本统计
量与总体参数或样本统计量之间的比
较而言, 相应推断为:可以认为或还
不能认为两个或多个总体参数有差别
。
4.结论不能绝对化
因统计结论具有概率性质, 故, 肯
定,,, 一定,,, 必定, 等词不要
使用 。 在报告结论时, 最好列出检验
统计量的值, 尽量写出具体的 P值或 P
值 的 确 切 范 围, 而 不 简 单 写 成
P﹤ 0.05,以便读者与同类研究进行
比较或进行循证医学时采用 Meta分析
。
5.统计, 显著性, 与医学, 显著性
”
统计, 显著性, 对应统计结论, 医
学, 显著性, 对应专业结论 。
统计结论有意义, 专业结论无意义
,最终结论没有意义, 样本含量过大
或设计存在问题 。 统计结论无意义,
专业结论有意义, 检查设计是否合理
,样本含量是否足够 。
6.可信区间与假设检验区别和联系
可信区间说明量的大小即推断总体
均数范围, 假设检验推断质的不同即
判断两总体均数是否不等 。
可信区间可回答假设检验问题, 可
信区间若包含了 H0, 按 ?水准, 不拒
绝 H0;若不包含 H0, 按 ?水准, 拒绝
H0, 接受 H1。
可信区间不但能回答差别有无统计
学意义, 还能提示差别有无实际专业
意义 ( 图 3-7) 。
可信区间不能够完全代替假设检验
。 可信区间只能在预先规定概率 ?的
前提下进行计算, 假设检验能获得一
较为确切的 P值 。
第七节
正态性检验
和两样本方差齐性检验
两小样本 t 检验:相应的两总体为
正态总体且两总体方差相等, 即方差
齐性;
配对 t 检验:每对数据差值的总体
为正态总体 。
一、正态性检验
1.图示法
概率图 (probability-probability
plot)以实际累积频率 (X )对被检验分
布(如正态分布)的理论累积频率 (Y
)作图(图 3-8);
分位数图 (quantile-quantile
plot)以实际分位数 (X )对被检验分
布(如正态分布)理论分位数 (Y )作
图(图 3-9);
如果实际值与理论值两者吻合,则
图中散点几乎都在一条直线上,可认
为该资料服从正态分布。
2.计算法
( 1) 对偏度和峰度各用一个指标评
定, 其中以矩法 (method of moment,
又称动差法 )效率最高;
( 2) 仅用一个指标综合评定, 其中
W 检验法效率最高, 适用 n﹤ 100的资
料; D 检验法效率也高, 不论样本含
量多少均适用 。
矩是利用数学上矩原理来检验偏度
和峰度 。
偏度指分布不对称的程度和方向,
用偏度系数 (总体,?1 样本,g1)衡量;
峰度指分布与正态曲线相比的冒尖
或扁平程度, 用峰度系数 (总体,?2 样
本,g2)衡量 。
总体偏度系数 ?1=0为对称, ?1﹥ 0为
正偏态, ?1﹤ 0为负偏态;
总体峰度系数 ?2=0为正态峰, ?2﹥ 0
为尖峭峰, ?2﹤ 0为平阔峰 。
当同时满足对称和正态峰两个条件
时, 才能认为该资料服从正态分布 。
二、两样本方差齐性检验
第一个样本方差既可能大于也可能
小于第二个样本方差,是双侧检验。
公式规定以较大方差作分子,F必然大
于 1,附表 3只给出不对称 F 分布右侧
界值,实对应双尾概率 P。
2
111
2
222
1()
1()
nS
F
nS
?
?
??
?
??
较大
较小
例 3-12 对例 3-8,用 F检验判断对照
组和试验组病人 8周时糖化血红蛋白
HbA1c(%)下降值总体方差是否不等 。
(1)建立检验假设, 确定检验水准 。
H0:
H1:
?=0.10
2221 ?? =
2221 ?? ?
(2)计算检验统计量
(3)确定 P值, 作出推断结论
3.775﹥ 2.15=F0.10(20,19)
P﹤ 0.10
按 ?=0.10水准, 拒绝 H0,接受 H1,有
统计学意义 。 可认为对照组和试验组
病人 HbA1c(%)下降值总体方差不等 。
2
2
1, 3 6 3, 7 7 5
0, 7 0
F ??
1
2
2 0 1 1 9
2 0 1 1 9
?
?
? ? ?
? ? ?
练 习 题
一、最佳选择题
三、计算分析题
1,2,3,4,5,6,7,8.
谢 谢 !