1
第六章 几种离散型
变量的分布及其应用
第一节 二项分布
2
例 6-1 某种药物治疗某种非传染性疾病的有效率为
0.70。今用该药治疗该疾病患者 10人,试分别计算
这 10人中有 6人,7人,8人有效的概率。
3
6 1 0 61 0 !( 6 ) 0, 7 0 ( 1 0, 7 0 ) 0, 2 0 0 1 2
6 ! ( 1 0 6 ) !P
?? ? ?
?
7 1 0 71 0 !( 7 ) 0, 7 0 ( 1 0, 7 0 ) 0, 2 6 6 8 3
7 ! ( 1 0 7 ) !P
?? ? ?
?
8 1 0 81 0 !( 8 ) 0, 7 0 ( 1 0, 7 0 ) 0, 2 3 3 4 7
8 ! ( 1 0 8 ) !P
?? ? ?
?
4
二项分布( binomial distribution)是指在只
会产生两种可能结果如, 阳性, 或, 阴性, 之一
的 n次独立重复试验(称为 n重 Bernoulli试验)中
,当每次试验的, 阳性, 概率保持不变时,出现
,阳性, 的次数 X=0,1,2,…, n的一种概率分
布。
一、二项分布的概念
5
从阳性率为 π 的总体中随机抽取大小为 n的样
本,则出现阳性数为 X的概率分布即呈二项分布,
记为 X~ B(n,π ),
!( ) ( 1 ) 0,1,2,,
! ( ) !
X n XnP X X n
X n X ??
?? ? ? ? ? ?
?
6
中国福利彩票
发行量 1500万元,特等奖 100个,金额 5万元;
每张彩票面值 2元,中奖概率 1/75000。
100元
0.99933
0.00067
投入金额
未中概率
中奖概率
1000元
0.99336
0.00664
1万元
0.93551
0.06449
10万元
0.51341
0.48659
100万元
0.00127
0.99873
7
2,率的标准误,用来描述样本率的抽样误差,率
的标准误越小,则率的抽样误差就越小。
二、二项分布的性质
1,当 n较大时,只要 π 不太靠近 0或 1,二项分布
B(n,π )近似正态分布 N(nπ,nπ (1-π )) 。
nppS p /)1( ??
8
当 n较大,p和 1-p均不太小如 np和 n(1-p)均大于
5时,可利用样本率 p的分布近似正态分布来估计
总体率的可信区间。
三、总体率的区间估计
22(,)ppp u S p u S????
0, 0 5 2 1, 9 6u ? 0, 0 1 2 2, 5 8u ?
界值:
9
四、样本率与总体率的比较
例 某药治疗某种疾病的有效率为 0.70。用该药治
疗该疾病患者 10人,结果 2人有效。有何结论?
0 1 2( 2 ) 0, 0 0 1 6P X p p p? ? ? ? ?
假设检验,
H0,π = 0.70
H1,π< 0.70
10
例 某药治疗某病患者 200人,结果 70人有效。计
算总体有效率的 95%可信区间。
0,3 5p ?
( 1, 9 6,1, 9 6 )ppp S p S??
0, 0 3 6 2pS ?
95%可信区间,( 27.9%, 42.1%)
11
五、两样本率的比较 –大样本
例 6-5 为研究某职业人群颈椎病发病的性别差异,
今随机抽查了该职业人群男性 120人和女性 110人
,发现男性中有 36人患有颈椎病,女性中有 22人
患有颈椎病。试作统计推断。
12
假设检验,
H0,π1=π2
H1,π1≠π2
α=0.05
计算统计量 u,
21
21
ppS
ppu
?
??
12
12
11( 1 ) ( )
ppS p p nn? ? ? ?
式中 p 为合并样本率 。
13
本例 n1=120,p1= 36/120 = 0.30;
n2=110,p2= 22/110 = 0.20;
p = ( 36+22) /( 120+110) = 0.2522;
查 u界值表得 0.05<P<0.10。 按 α =0.05水准, 不拒
绝 H0,即尚不能认为该职业人群颈椎病的发病有
性别差异 。
则,
12
110, 2 5 2 2 ( 1 0, 2 5 2 2 ) ( ) 0, 0 5 7 3
1 2 0 1 1 0ppS ? ? ? ? ?
0,3 0 0,2 0 1,7 4 5
0,0 5 7 3u
???
14
Chi-square Test
2? 检验
第七章
15
?2分布是一种连续型分布,按分布的密
度函数可给出不同自由度的一簇分布曲线。
?2分布的形状依赖于自由度的大小;当自由
度趋向于无穷大时,?2分布趋向正态分布。
16
第一节 四格表资料的 检验?2
例 7-1 某院欲比较异梨醇口服液(试验
组)和氢氯噻嗪 +地塞米松(对照组)降低颅
内压的疗效。将 200例颅内压增高症患者随机
分为两组,结果见表 7-1。问两组降低颅内压
的总体有效率有无差别?
17
表 7-1 两组降低颅内压有效率的比较
组 别 有效 无效 合计 有效率( %)
试验组 99 5 104 95.20
对照组 75 21 96 78.13
合 计 174 26 200 87.00
18
1??
表 7-1 两组降低颅内压有效率的比较
? ?? T TA
2
2 )(?
组 别 有效 无效 合计 有效率( %)
试验组 99( 90.48) 5( 13.52) 104 95.20
对照组 75( 83.52) 21( 12.48) 96 78.13
合 计 174 26 200 87.00
基本公式:
19
2
2 ()
( ) ( ) ( ) ( )
a d b c n
a b c d a c b d
?
?
?
? ? ? ?
四格表专用公式:
四格表资料数据格式
组 别 阳性 阴性 合计
A组 a b ( a+ b)
B组 c d ( c+ d)
合 计 ( a+ c) ( b+ d) ( n)
20
?2 检验的步骤:
H0:, 即试验组与对照组降低颅内
压的总体有效率相等
H1:, 即试验组与对照组降低颅内
压的总体有效率不等
21 ?? ?
21 ?? ?
05.0??
21
计算检验统计量
86.12261 7 4961 0 4 2 0 0)7552199(
2
2 ?
???
?????
查附表 8 的界值表得 。按 拒
绝 H0,接受 H1,可以认为两组降低颅内压总体有效率
不等,即可认为异梨醇口服液降低颅内压的有效率
高于氢氯噻嗪 +地塞米松的有效率。
查表作结论
005.0?P 05.0??
22
四格表资料连续性校正公式
1??
2
2
( | | )
2
( ) ( ) ( ) ( )
c
n
a d b c n
a b c d a c b d
?
??
?
? ? ? ?
23
( 1)当 n≥40且所有的 T≥5时,用检验的基本公
式;当 P≈α时,改用四格表资料的 Fisher确切概率
法。
对于四格表资料,通常规定:
( 2)当 n≥40 但有 1≤T< 5时,用四格表资料的
校正公式;或改用四格表资料的 Fisher确切概率法
。
( 3)当 n< 40,或 T< 1时,用四格表资料的
Fisher确切概率法。
( 4)连续性校正仅用于 ν= 1的四格表资料。
24
例 7-2 某医师欲比较胞磷胆碱与神经节苷酯
治疗脑血管疾病的疗效,将 78例脑血管疾病患者
随机分为两组,结果见表 7-2。问两种药物治疗脑
血管疾病的有效率是否相等?
表 7-2 两种药物治疗脑血管疾病有效率的比较
组 别 有效 无效 合计 有效率( %)
胞磷胆碱组 46 6 52 88.46
神经节苷酯组 18 8( 4.67) 26 69.23
合 计 64 14 78 82.05
2 3,1 4c? ? 35.42 ??校正,未校正:
25
第二节 配对四格表资料的 检验?2
免疫荧光法 乳胶凝集法 合计+ -
+ 11( a) 12( b) 23
- 2( c) 33( d) 35
合 计 13 45 58
表 7-3 两种方法的检测结果
26
H0,B= C,即两种方法的总体检测
结果相同
H1,B≠C,即两种方法的总体检测
结果不相同
05.0??
27
cb
cb
?
?? 22 )(?
cb
cb
c ?
??? 22 )1(?
( b+ c) ≥40时
( b+ c)< 40时1=?
79.5
212
)1212( 22 ?
?
???
c?
本例, P < 0.05。
1=?
28
第四节 行 × 列表资料的 检验?2
专用公式
)1(
2
2 ?? ?
CR nn
An?
1、多个样本率的比较
2、样本构成比的比较
3、双向无序分类资料的关联性检验
自由度 ν = (行数 -1)(列数 -1)
29
多个样本率或两个构成比
比较的 ?2检验
表 7-8 三种疗法有效率的比较
疗 法 有效 无效 合计 有效率( %)
物理疗法 199 7 206 96.60
药物治疗 164 18 182 90.11
外用膏药 118 26 144 81.94
合 计 481 51 532 90.41
30
H0,π1 = π2 = π3,即三种疗法治疗周围性
面神经麻痹的有效率相等
H1:三种疗法治疗周围性面神经麻痹的有效率
不全相等
05.0??
31
2 2 2
2 1 9 9 7 2 65 3 2 ( 1 )
2 0 6 4 8 1 2 0 6 5 1 1 4 4 5 1
2 1, 0 4
? ? ? ? ? ?
? ? ?
?
2)12)(13( ?????
查 ?2界值表,得 p< 0.005,按 α= 0.05水准,
拒绝 H0,接受 H1,三种疗法治疗周围性面
神经麻痹的有效率有差别。
32
双向无序分类资料的关联性检验
表 7-10 某地 5801人的血型
ABO血型 MN血型 合计M N MN
O 431 490 902 1823
A 388 410 800 1598
B 495 587 950 2032
AB 137 179 32 348
合 计 1451 1666 2684 5801
问题,( 1)两分类变量有无关联?
( 2)关联程度如何?
33
分析步骤:
H0,两种血型系统间无关联
H1,两种血型系统间有关联
05.0??
2 2 2
2 4 3 1 4 9 0 3 25 8 0 1 ( 1 )
1 8 2 3 1 4 5 1 1 8 2 3 1 6 6 6 3 4 8 2 6 8 4? ? ? ? ? ?? ? ?
6)13)(14( ?????
2 1 3,1 6?
34
结论:两种血型系统间虽然有关联性,但列联
系数数值较小,虽然有统计学意义,仍可认为
关系不太密切。
进一步计算列联系数:
2
2
2 1 3,1 6 0,1 8 8 3
5 8 0 1 2 1 3,1 6
C
n
?
?
? ? ?
??
查界值表得 P< 0.005。按 α=0.05检验水准拒绝
H0,接受 H1,认为两种血型系统间有关联。
35
例 7-5 某医院肝胆外科在手术中,观察了胆结
石的部位与类型的资料如下,试分析两者间有无关
系?
表 7-11 胆结石的类型和部位
例 数 百分比 ( % )
结石部位 总例数
胆固醇
结石
胆红素
结石
其它
胆固醇
结石
胆红素
结石
其它
胆 囊 1 18 70 16 32 59, 3 13, 6 27, 1
肝外胆管 75 12 39 24 16, 0 52, 0 32, 0
肝内胆管 29 2 20 7 6,9 69, 0 24, 1
合 计 222 84 75 63 37, 8 33, 8 28, 4
36
第五节 多个样本率比较的 分割法?2
多个实验组间的两两比较
H0:,任 两对比组的总体有效率相等
H1:,任 两对比组的总体有效率不等
21 ?? ?
21 ?? ?
检验假设:
05.0??
37
检验水准调整:
'
( 1 ) / 2 1= k k +
??
?
三种疗法治疗周围性面神经麻痹的实例中,检验
水准调整为:
0 1 2 5.04/05.012/)13(3 05.0' ??????
对应的临界值:
2
0,0 1 2 5,1 6, 2 4? ?
38
对比组 有效 无效 合计 值 值
物理疗法组 199 7 206
6.76 <0.0125药物治疗组 164 18 182
合计 363 25 388
物理疗法组 199 7 206
21.32 <0.00227外用膏药组 118 26 144
合计 317 33 350
药物治疗组 164 18 182
4.59 >0.0125外用膏药组 118 26 144
合计 282 44 326
三种疗法有效率的两两比较
2? P
39
第六节 有序分组资料的线性趋势检验
年龄与冠状动脉硬化的关系
年龄 (岁)
( X)
冠状动脉硬化等级( Y) 合计
— + ++ +++
20~ 70 22 4 2 98
30~ 27 24 9 3 63
40~ 16 23 13 7 59
≥50 9 20 15 14 58
合计 122 89 41 26 278
第六章 几种离散型
变量的分布及其应用
第一节 二项分布
2
例 6-1 某种药物治疗某种非传染性疾病的有效率为
0.70。今用该药治疗该疾病患者 10人,试分别计算
这 10人中有 6人,7人,8人有效的概率。
3
6 1 0 61 0 !( 6 ) 0, 7 0 ( 1 0, 7 0 ) 0, 2 0 0 1 2
6 ! ( 1 0 6 ) !P
?? ? ?
?
7 1 0 71 0 !( 7 ) 0, 7 0 ( 1 0, 7 0 ) 0, 2 6 6 8 3
7 ! ( 1 0 7 ) !P
?? ? ?
?
8 1 0 81 0 !( 8 ) 0, 7 0 ( 1 0, 7 0 ) 0, 2 3 3 4 7
8 ! ( 1 0 8 ) !P
?? ? ?
?
4
二项分布( binomial distribution)是指在只
会产生两种可能结果如, 阳性, 或, 阴性, 之一
的 n次独立重复试验(称为 n重 Bernoulli试验)中
,当每次试验的, 阳性, 概率保持不变时,出现
,阳性, 的次数 X=0,1,2,…, n的一种概率分
布。
一、二项分布的概念
5
从阳性率为 π 的总体中随机抽取大小为 n的样
本,则出现阳性数为 X的概率分布即呈二项分布,
记为 X~ B(n,π ),
!( ) ( 1 ) 0,1,2,,
! ( ) !
X n XnP X X n
X n X ??
?? ? ? ? ? ?
?
6
中国福利彩票
发行量 1500万元,特等奖 100个,金额 5万元;
每张彩票面值 2元,中奖概率 1/75000。
100元
0.99933
0.00067
投入金额
未中概率
中奖概率
1000元
0.99336
0.00664
1万元
0.93551
0.06449
10万元
0.51341
0.48659
100万元
0.00127
0.99873
7
2,率的标准误,用来描述样本率的抽样误差,率
的标准误越小,则率的抽样误差就越小。
二、二项分布的性质
1,当 n较大时,只要 π 不太靠近 0或 1,二项分布
B(n,π )近似正态分布 N(nπ,nπ (1-π )) 。
nppS p /)1( ??
8
当 n较大,p和 1-p均不太小如 np和 n(1-p)均大于
5时,可利用样本率 p的分布近似正态分布来估计
总体率的可信区间。
三、总体率的区间估计
22(,)ppp u S p u S????
0, 0 5 2 1, 9 6u ? 0, 0 1 2 2, 5 8u ?
界值:
9
四、样本率与总体率的比较
例 某药治疗某种疾病的有效率为 0.70。用该药治
疗该疾病患者 10人,结果 2人有效。有何结论?
0 1 2( 2 ) 0, 0 0 1 6P X p p p? ? ? ? ?
假设检验,
H0,π = 0.70
H1,π< 0.70
10
例 某药治疗某病患者 200人,结果 70人有效。计
算总体有效率的 95%可信区间。
0,3 5p ?
( 1, 9 6,1, 9 6 )ppp S p S??
0, 0 3 6 2pS ?
95%可信区间,( 27.9%, 42.1%)
11
五、两样本率的比较 –大样本
例 6-5 为研究某职业人群颈椎病发病的性别差异,
今随机抽查了该职业人群男性 120人和女性 110人
,发现男性中有 36人患有颈椎病,女性中有 22人
患有颈椎病。试作统计推断。
12
假设检验,
H0,π1=π2
H1,π1≠π2
α=0.05
计算统计量 u,
21
21
ppS
ppu
?
??
12
12
11( 1 ) ( )
ppS p p nn? ? ? ?
式中 p 为合并样本率 。
13
本例 n1=120,p1= 36/120 = 0.30;
n2=110,p2= 22/110 = 0.20;
p = ( 36+22) /( 120+110) = 0.2522;
查 u界值表得 0.05<P<0.10。 按 α =0.05水准, 不拒
绝 H0,即尚不能认为该职业人群颈椎病的发病有
性别差异 。
则,
12
110, 2 5 2 2 ( 1 0, 2 5 2 2 ) ( ) 0, 0 5 7 3
1 2 0 1 1 0ppS ? ? ? ? ?
0,3 0 0,2 0 1,7 4 5
0,0 5 7 3u
???
14
Chi-square Test
2? 检验
第七章
15
?2分布是一种连续型分布,按分布的密
度函数可给出不同自由度的一簇分布曲线。
?2分布的形状依赖于自由度的大小;当自由
度趋向于无穷大时,?2分布趋向正态分布。
16
第一节 四格表资料的 检验?2
例 7-1 某院欲比较异梨醇口服液(试验
组)和氢氯噻嗪 +地塞米松(对照组)降低颅
内压的疗效。将 200例颅内压增高症患者随机
分为两组,结果见表 7-1。问两组降低颅内压
的总体有效率有无差别?
17
表 7-1 两组降低颅内压有效率的比较
组 别 有效 无效 合计 有效率( %)
试验组 99 5 104 95.20
对照组 75 21 96 78.13
合 计 174 26 200 87.00
18
1??
表 7-1 两组降低颅内压有效率的比较
? ?? T TA
2
2 )(?
组 别 有效 无效 合计 有效率( %)
试验组 99( 90.48) 5( 13.52) 104 95.20
对照组 75( 83.52) 21( 12.48) 96 78.13
合 计 174 26 200 87.00
基本公式:
19
2
2 ()
( ) ( ) ( ) ( )
a d b c n
a b c d a c b d
?
?
?
? ? ? ?
四格表专用公式:
四格表资料数据格式
组 别 阳性 阴性 合计
A组 a b ( a+ b)
B组 c d ( c+ d)
合 计 ( a+ c) ( b+ d) ( n)
20
?2 检验的步骤:
H0:, 即试验组与对照组降低颅内
压的总体有效率相等
H1:, 即试验组与对照组降低颅内
压的总体有效率不等
21 ?? ?
21 ?? ?
05.0??
21
计算检验统计量
86.12261 7 4961 0 4 2 0 0)7552199(
2
2 ?
???
?????
查附表 8 的界值表得 。按 拒
绝 H0,接受 H1,可以认为两组降低颅内压总体有效率
不等,即可认为异梨醇口服液降低颅内压的有效率
高于氢氯噻嗪 +地塞米松的有效率。
查表作结论
005.0?P 05.0??
22
四格表资料连续性校正公式
1??
2
2
( | | )
2
( ) ( ) ( ) ( )
c
n
a d b c n
a b c d a c b d
?
??
?
? ? ? ?
23
( 1)当 n≥40且所有的 T≥5时,用检验的基本公
式;当 P≈α时,改用四格表资料的 Fisher确切概率
法。
对于四格表资料,通常规定:
( 2)当 n≥40 但有 1≤T< 5时,用四格表资料的
校正公式;或改用四格表资料的 Fisher确切概率法
。
( 3)当 n< 40,或 T< 1时,用四格表资料的
Fisher确切概率法。
( 4)连续性校正仅用于 ν= 1的四格表资料。
24
例 7-2 某医师欲比较胞磷胆碱与神经节苷酯
治疗脑血管疾病的疗效,将 78例脑血管疾病患者
随机分为两组,结果见表 7-2。问两种药物治疗脑
血管疾病的有效率是否相等?
表 7-2 两种药物治疗脑血管疾病有效率的比较
组 别 有效 无效 合计 有效率( %)
胞磷胆碱组 46 6 52 88.46
神经节苷酯组 18 8( 4.67) 26 69.23
合 计 64 14 78 82.05
2 3,1 4c? ? 35.42 ??校正,未校正:
25
第二节 配对四格表资料的 检验?2
免疫荧光法 乳胶凝集法 合计+ -
+ 11( a) 12( b) 23
- 2( c) 33( d) 35
合 计 13 45 58
表 7-3 两种方法的检测结果
26
H0,B= C,即两种方法的总体检测
结果相同
H1,B≠C,即两种方法的总体检测
结果不相同
05.0??
27
cb
cb
?
?? 22 )(?
cb
cb
c ?
??? 22 )1(?
( b+ c) ≥40时
( b+ c)< 40时1=?
79.5
212
)1212( 22 ?
?
???
c?
本例, P < 0.05。
1=?
28
第四节 行 × 列表资料的 检验?2
专用公式
)1(
2
2 ?? ?
CR nn
An?
1、多个样本率的比较
2、样本构成比的比较
3、双向无序分类资料的关联性检验
自由度 ν = (行数 -1)(列数 -1)
29
多个样本率或两个构成比
比较的 ?2检验
表 7-8 三种疗法有效率的比较
疗 法 有效 无效 合计 有效率( %)
物理疗法 199 7 206 96.60
药物治疗 164 18 182 90.11
外用膏药 118 26 144 81.94
合 计 481 51 532 90.41
30
H0,π1 = π2 = π3,即三种疗法治疗周围性
面神经麻痹的有效率相等
H1:三种疗法治疗周围性面神经麻痹的有效率
不全相等
05.0??
31
2 2 2
2 1 9 9 7 2 65 3 2 ( 1 )
2 0 6 4 8 1 2 0 6 5 1 1 4 4 5 1
2 1, 0 4
? ? ? ? ? ?
? ? ?
?
2)12)(13( ?????
查 ?2界值表,得 p< 0.005,按 α= 0.05水准,
拒绝 H0,接受 H1,三种疗法治疗周围性面
神经麻痹的有效率有差别。
32
双向无序分类资料的关联性检验
表 7-10 某地 5801人的血型
ABO血型 MN血型 合计M N MN
O 431 490 902 1823
A 388 410 800 1598
B 495 587 950 2032
AB 137 179 32 348
合 计 1451 1666 2684 5801
问题,( 1)两分类变量有无关联?
( 2)关联程度如何?
33
分析步骤:
H0,两种血型系统间无关联
H1,两种血型系统间有关联
05.0??
2 2 2
2 4 3 1 4 9 0 3 25 8 0 1 ( 1 )
1 8 2 3 1 4 5 1 1 8 2 3 1 6 6 6 3 4 8 2 6 8 4? ? ? ? ? ?? ? ?
6)13)(14( ?????
2 1 3,1 6?
34
结论:两种血型系统间虽然有关联性,但列联
系数数值较小,虽然有统计学意义,仍可认为
关系不太密切。
进一步计算列联系数:
2
2
2 1 3,1 6 0,1 8 8 3
5 8 0 1 2 1 3,1 6
C
n
?
?
? ? ?
??
查界值表得 P< 0.005。按 α=0.05检验水准拒绝
H0,接受 H1,认为两种血型系统间有关联。
35
例 7-5 某医院肝胆外科在手术中,观察了胆结
石的部位与类型的资料如下,试分析两者间有无关
系?
表 7-11 胆结石的类型和部位
例 数 百分比 ( % )
结石部位 总例数
胆固醇
结石
胆红素
结石
其它
胆固醇
结石
胆红素
结石
其它
胆 囊 1 18 70 16 32 59, 3 13, 6 27, 1
肝外胆管 75 12 39 24 16, 0 52, 0 32, 0
肝内胆管 29 2 20 7 6,9 69, 0 24, 1
合 计 222 84 75 63 37, 8 33, 8 28, 4
36
第五节 多个样本率比较的 分割法?2
多个实验组间的两两比较
H0:,任 两对比组的总体有效率相等
H1:,任 两对比组的总体有效率不等
21 ?? ?
21 ?? ?
检验假设:
05.0??
37
检验水准调整:
'
( 1 ) / 2 1= k k +
??
?
三种疗法治疗周围性面神经麻痹的实例中,检验
水准调整为:
0 1 2 5.04/05.012/)13(3 05.0' ??????
对应的临界值:
2
0,0 1 2 5,1 6, 2 4? ?
38
对比组 有效 无效 合计 值 值
物理疗法组 199 7 206
6.76 <0.0125药物治疗组 164 18 182
合计 363 25 388
物理疗法组 199 7 206
21.32 <0.00227外用膏药组 118 26 144
合计 317 33 350
药物治疗组 164 18 182
4.59 >0.0125外用膏药组 118 26 144
合计 282 44 326
三种疗法有效率的两两比较
2? P
39
第六节 有序分组资料的线性趋势检验
年龄与冠状动脉硬化的关系
年龄 (岁)
( X)
冠状动脉硬化等级( Y) 合计
— + ++ +++
20~ 70 22 4 2 98
30~ 27 24 9 3 63
40~ 16 23 13 7 59
≥50 9 20 15 14 58
合计 122 89 41 26 278