连续型随机变量:数值变量资料。
离散型随机变量:分类变量资料经整理后得到的例数。
第六章 几种离散型变量的分布及其应用连续型随机变量有 n 个,无数种;
离散型随机变量只有一个,( n + 1)种。
第一节 二项分布概述
1.二项分布 (binominal distribution)的定义:
如果某种随机试验只能产生两种结果,在已知其中一种事件的发生概率( π)和试验次数( n)
时,该事件发生数( X)的概率 (P(X))可用特定的公式求得,X的概率分布具有一定规律,而且与数学上的二项式定理一致,称为二项分布。
二项分布记为 X~ B( n,π)。

2
n




n n n - 1 n - 2 2n( 1 - ) + = ( 1 - ) + ( 1 - ) ( 1 - )
1
...X



n - X nn+,,,( 1 - )
X
X


n-X
n
P ( X ) = ( 1 - )
X
!
! ( ) !
n
X n X



n
X
2.二项分布的概率函数二项式公式补充例题:设小白鼠接受一定剂量的某种毒物时,
死亡概率为 0.8,生存概率为 0.2。如果每组各用 3
只(甲、乙、丙)逐个做试验,每组小白鼠的死亡和生存只数及其概率如下表:
每组小白鼠的死亡和生存只数及其概率所有可能结果 每种结果的概率 死亡数 不同死亡数的概率生 生 生 0.008 0 0.008
生 生 死 0.032
生 死 生 0.032 1 0.096
死 生 生 0.032
生 死 死 0.128
死 生 死 0.128 2 0.384
死 死 生 0.128
死 死 死 0.512 3 0.512
合计 1.000 - 1.000
例 6-1 某种药物治疗某种非传染性疾病的有效率为 0.70,无效率为 0.30。今用该药治疗该疾病患者 10人,试分别计算这 10人中有 6人,7人,8人有效的概率。
6 1 0 61 0 !(6 ) 0,7 0 ( 1 0,7 0 ) 0,2 0 0 1 2
6 ! ( 1 0 6 ) !
P
7 1 0 71 0 !(7 ) 0,7 0 ( 1 0,7 0 ) 0,2 6 6 8 3
7 ! ( 1 0 7 ) !
P
8 1 0 81 0 !( 8 ) 0,7 0 ( 1 0,7 0 ) 0,2 3 3 4 7
8 ! ( 1 0 8 ) !
P
3.二项分布的累计概率
( 1)最多有 K 例为阳性的概率
( 2)最少有 K 例为阳性的概率

k
X
XPkXP
0
)()(

n
kX
XPkXP )()(
( ) ( )P X k P X k+?=?
n
X
XP
0
)(
一、二项分布的适用条件和性质
(一)二项分布的适用条件
1.两种结果相互对立;
2.已知固定的 π和 n;
3.各次试验相互独立。
(二)二项分布的性质
1.二项分布的均数和标准差
1.绝对数形式,均数 标准差
2.相对数形式,均数 标准差
p=
(1 )n= n=
( 1 ) /p n=
样本率 ( p )的标准差又称为 率的标准误实际工作中根据样本资料计算的样本标准误为:
(1 ) /pS p p n?=
标准误与样本率和样本大小的关系如何?
率的标准误的用途,
① 衡量率的抽样误差
②衡量样本率的可靠性
③估计数总体率的可信区间
④率的假设检验。
( 1) π= 0.5,对称分布;
π< 0.5,正偏态; π> 0.5,负偏态。
( 2) n 相同时,π 和 (1- π)呈镜面对称。
( 3) π不变,分布随 n 增大趋于对称。
2.二项分布的图形
π=0.2,n=10时的 二项 分布
X
P(X)
n=0.3,π=0.5的二项分布
n=3,π=0.5
P(X)
X
21191715131197531
p,4
.3
.2
.1
0.0 312927252321191715131197531
p,3
.2
.1
0.0
4037343128252219161310741
p,3
.2
.1
0.0
4946434037343128252219161310741
p,2
.1
0.0 61575349454137332925211713951
p,2
.1
0.0
97918579736761554943373125191371
p,14
.12
.10
.08
.06
.04
.02
0.00
n=20
n=30 n=40
n=60 n=100
n=50
π=0.1的二项分布
3.二项分布的正态近似性当 n 足够大,而且 π 不是太大或太小时,
二项分布近似正态分布。
或当:
二项分布近似正态分布。
二项分布近似正态分布时,最多有 X 例为阳性的概率 P(X)相当于标准正态分布函数 φ
0,5 5 0,5 ( 1 ) 5,nn时,; 时,
()u
( ) 0,5
(1 )
Xn
u
n


n=50,π=0.5的二项分布
P(X)
4.二项分布 P(X)的最大值
( 1)当( n+ 1) × π 是整数时
( 2)当( n+ 1) × π 不是整数时
()P X X n?在 = ( + 1 ) 取整数处达到最大处达到最大。和在 1)1()1()( nnXXP
二、二项分布的应用
1.总体率的区间估计
(1)直接查表法:附表 6,817页。
例 6-2 在对 13名输卵管结扎的育龄妇女经壶腹部 -壶腹部吻合术后,观察其受孕情况,发现有 6人受孕,试据此资料估计该吻合术受孕率的 95%可信区间。
19%~75%
当 X>n/2时先按 n- X查表,
然后 1-低限为高限,1-高限为低限。
例如将上例改成发现有 8人受孕,先查 X=5得
14%~ 68%,则 X= 8为 32%~ 86%。
(2)正态近似法(大样本)
π 的 95%可信区间
π 的 99%可信区间
( 1,9 6 1,9 6ppp S p S,)
( 2,5 8 2,5 8ppp S p S,)
例 6-3 在观测一种药物对某种非传染性疾病的治疗效果时,用该药治疗了此种非传染性疾病患者
100人,发现 55人有效,试据此估计该药物治疗有效率的 95%可信区间。
该药物治疗有效率的 95%可信区间为:
0497.0
100
)55.01(55.0)1(
n
ppS
p
%)%,( 74.6426.45
)+,-( 0 4 9 7.096.155.00 4 9 7.096.155.0
(二)样本率与总体率比较
1.直接法
( 1)单侧检验
① 若是回答“差”或“低”的问题,则计算“阳性”次数最多为 k次的概率:
② 若是回答“优”或“高”的问题,则计算“阳性”次数至少为 k次的概率:

k
X
XPkXP
0
)()(

n
kX
XPkXP )()(
例 6-4 已知输卵管结扎的育龄妇女实施壶腹部-壶腹部吻合术后的受孕率为 0.55。今对 10名输卵管结扎了的育龄妇女实施峡部-峡部吻合术,结果有 9人受孕。问实施峡部-峡部吻合术妇女的受孕率是否高于壶腹部-壶腹部吻合术的受孕率?
P<0.05按 α= 0.05水准,拒绝 H0,接受 H1,可认为实施峡部-峡部吻合术妇女的受孕率高于壶腹部-壶腹部吻合术的受孕率。
023257.055.0)55.01(55.0
)!910(!9
!10
)10()9()9(
109109


PPXPP
“更背离无效假设的事件”
为什么要求累计概率?
0 2.228
2.5%
- 2.228 1 2
t
( 2)双侧检验例 6-5 已知某种非传染性疾病采用甲药治疗的有效率为 0.60。今改乙药治疗该疾病患者 10人,发现 9人有效。问甲、乙两种药物的疗效 是否不同?
P>0.05按 α= 0.05水准,不拒绝 H0,不能认为甲、乙两种药物的疗效不同。
0 1 2 2 9 4 7 2 2.00 1 0 6 1 7.00 0 1 5 7 2 8 6 4.00 0 0 1 0 4 8 5 8.0
)2()1()0(

PPPP甲比乙差的一侧:
0 5 7 6 5 2 3 3 9.00 1 2 2 9 4 7 2 2.00 4 6 3 5 7 6 1 7.0 =+双侧?P
0 4 6 3 5 7 6 1 7.00 0 6 0 4 6 6 1 8.00 4 0 3 1 1.0
60.0)60.01(60.0
)!910(!9
!10
)10()9()9(
109109
=+
甲比乙优的一侧:


PPXP
0 4 2 4 6 7 3 2 8.0)60.01(60.0
)!310(!3
!10)3( 3103 =
P
2.正态近似法当样本资料近似正态分布时可用 u 检验,u 值计算公式如下:
n
p
u
/)1(
00
0

例 6-6 已知某疾病采用常规治疗的治愈率约为 45%。
现随机抽取 180名该疾病患者改用新治疗方法进行治疗,
结果治愈 117人。问新治疗方法是否比常规疗法效果好?
本例应采用单侧检验。
。%,= %65180/117450p?
。05.0,:,45.0,0100 HH
394.5
180/)45.01(45.0
45.065.0

u
(三)两样本率比较当两组资料近似正态分布时可用 u 检验,u 值计算公式如下:
21
21
21)(
)(
21
)/1/1)(1(
21
21
nn
XX
P
P
nnPPS
S
pp
u
c
c
ccpp
pp

为合计率:
例 6-7 为研究某职业人群颈椎病发病的性别差异,今随机抽查了该职业人群男性 120人和女性
110人,发现男性中有 36人患有颈椎病,女性中有
22人患有颈椎病。试作统计推断。
0 5 7 3.0)
1 1 0
1
1 2 0
1)(
1 1 01 2 0
22361(
1 1 01 2 0
2236
)( 21


ppS
双侧。=,05.0,:,,211210 HH
745.1
0 5 7 3.0
20.030.0=u
(四 )拟合优度检验 —— 研究非遗传性疾病的家族聚集性例 6-8 某研究者为研究某种非遗传性疾病的家族集聚性,
对一社区 82户 3口人的家庭进行了该种疾病患病情况调查,所得数据资料见表 6-1中的第( 1)、( 2)栏。试分析其家族集聚性。
。=集性,该疾病的发生有家族聚集性,该疾病的发生无家族聚
05.0:
:
1
0
H
H
。,患病率人,患病总人数调查总人数 49.0120246
表 6-1 患病数据资料与二项分布拟合优度的检验
X 实际户 概率 P(X) 理论户数数 A T=82P(X)
( 1) ( 2) ( 3) ( 4) ( 5) ( 6) ( 7)
0 26 0.13265 10.8774 -15.1226 228.6936 21.0247
1 10 0.38235 31.3525 21.3525 455.9273 14.5420
2 28 0.36735 30.1229 2.1229 4.5069 0.1496
3 18 0.11765 9.6472 -8.3528 69.7690 7.2320
合计 82 1.00000 82.0000 — — 42.9483
2)( AT? TAT
2)(?
AT?
。,
,=,查表得=本例求得,
0 0 5.060.1095.42
60.1095.42 2 20 0 5.02
P

2242 =-=组数-
(五)群检验例 6-9 某学者在对某一湖沼地区的钉螺感染血吸虫的流行病学研究中,收集了钉螺标本 6000只,将其分为 300个群
,每群 20只。经检验,在这 300群中发现有 270个群是阳性群,问该地区钉螺血吸虫的感染率是多少?
%87.101087.0
300
270
11 20P
个标本。个群,每个群有个标本分成 mnN
率。就是一个群为阳性的概-
率,即一个群为阴性群的概
,个标本均为阴性的概率就是某群
m
m
Q
mQ
1
率。为每个标本为阴性的概-则
,率为设每个标本为阳性的概
Q
1
n
X
Q
nX
Xn
m

:率的估计值,于是便有作为一个群为阳性群概用个群是阳性群,个群中有假定受检的
1
/
m
m
n
X
QP
n
X
Q


111
1 的估计值为。这样,阳性概率从而,?
第二节 泊松分布一,泊松分布的 定义,
定义,单位时间(空间、面积、容积等)内,
某事件发生数( X)称为泊松分布变量,当已知其总体均数( λ)时,X的发生概率概率 (P(X))可用特定的公式求得,其概率分布称为泊松分布。
当 n 较大,较小时的二项分布应按泊松分布处理。

,3,21,0)(,,

X
X
eXP X
泊松分布的概率函数为:
泊松分布记作 X~P( ),
描述小概率事件发生概率的分布。
为为泊松分布的总体均数,e =2.71828。
二,Poisson 分布的适用条件
1.普通性,
在充分小的观测单位上 X 的取值最多为 1,
即发生为 1,未发生为 0。
2.平稳性:
X 的取值只与观测单位的大小有关,而与观测单位的位置无关。
3.独立增量性:
在某个观测单位上 X 的取值与其它各观测单位上 X 的取值无关,即相互独立性。
三,泊松分布的性质:
( 1)泊松分布的均数等于方差。
( 2)泊松分布的可加性:
如果小单位的发生数 X服从泊松分布,那么将若干小单位的发生数 X相加后的 仍然服从泊松分布。
( 3)泊松分布的正态近似性,
( 4)当 n很大,而 π很小,且 πn=λ为常数时,二项分布近似 Poisson分布。
20
X?
图 6- 3.1 = 1 时的泊松分布图形?
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.00
P(X)
1
阳性数 X
0.40
四,泊松分布的图形
0 1 2 3 4 5 6 7 8 9 10
0 3 6 8.0
0 4 0 9.0
0 4 6 0.0
0 5 2 5.0
0 6 1 3.0
0 7 3 6.0
0 9 2 0.0
1 2 3.0
1 8 4.0
3 6 8.0
3 6 8.0
10
9
8
7
6
5
4
3
2
1
0
P
P
P
P
P
P
P
P
P
P
P
0.04
0.08
0.12
0.16
0.20
0.24
0.28
0.00
0 1 2 3 4 5 6 ≥7
P(X)
2
图 6- 3.2 = 2 时的泊松分布图形
阳性数 X
0 0 4 6 8.0
0 1 2 0.0
0 3 6 1.0
0 9 0 2.0
180.0
271.0
271.0
135.0
7
6
5
4
3
2
1
0
P
P
P
P
P
P
P
P
0.04
0.08
0.12
0.16
0.20
0.24
0.00
0 1 2 3 4 5 6 7 8 ≥9
P(X)
3
阳性数 X
0 0 4 1 0.0
0 0 8 1 0.0
0 2 1 6.0
0 5 0 4.0
101.0
168.0
224.0
224.0
149.0
0 4 9 8.0
9
8
7
6
5
4
3
2
1
0
P
P
P
P
P
P
P
P
P
P
图 6- 3.3 = 2 时的泊松分布图形
阳性数 X
0.02
0.04
0.06
0.08
0.10
0.12
0.14
0.00
P(X)
图 6- 3.4 = 5时的泊松分布图形?
5
00742.0
00824.0
0181.0
0363.0
0653.0
104.0
146.0
175.0
175.0
140.0
0842.0
0337.0
00674.0
12
11
10
9
8
7
6
5
4
3
2
1
0
P
P
P
P
P
P
P
P
P
P
P
P
P
0.16
0.18
0 1 2 3 4 5 6 7 8 9 10 11 ≥12
0.02
0.04
0.06
0.08
0.10
0.12
0.14
0.00 <3 3 4 5 6 7 8 9 10 11 12 13 14 15>15
P(X)
= 8时的泊松分布图形?
8
阳性数 X
五,泊松分布的应用:
(一)估计总体均数( )的可信区间当,的可信区间可查附表 7。
当,
的 95%可信区间=
的 99%可信区间=
50?X
50?X
XX 96.1?
XX 58.2?
X可视为泊松分布的样本均数例 6-10 某工厂在环境监测中,对一实施了技术改造的生产车间作空气中粉尘浓度的检测,空气中测得粉尘粒子数为 21。假定车间空气中的粉尘分布均匀,试估计该车间平均每立方米空气中所含粉尘颗粒数的 95%和 99%可信区间。
本例 X= 21,查附表得 可信区间为:
95% 13.0~ 32.0;
99% 11.0~ 35.9。
31m
例 6-11 某研究者对某社区 12000名居民进行了健康检查,发现其中有 68名胃癌患者。估计该社区胃癌患病数的 95%和 99%可信区间。
95%
99%
)。,即(
);,即(
28.8972.466858.268
16.8484.516896.168
(二)样本均数( X)和总体均数差别的假设检验
1.直接计算概率法例 6-12 一般人群先天性心脏病的发病率为 8‰,
某研究者为探讨母亲吸烟是否会增大其小孩的先天性心脏病的发病危险,对一群 20~ 25岁有吸烟嗜好的孕妇进行了生育观察,在她们生育的 120名小孩中,经筛查有 4人患了先天性心脏病。试作统计推断。
)( 20
,单侧。05.0,008.0:,008.0,10 HH
96.00 0 8.01 2 0,1 2 0 0 nn
0 1 6 6 3 3.0
!
96.0
1
)(1)4(
3
0
96.0
3
0


X
X
X
X
e
XPXPP
)( 20
2.正态分布法例 6-13 有研究表明,一般人群精神发育不全的发生率为 3‰,今调查了有亲缘血统婚配关系的后代 25000人,发现 123人精神发育不全,问有亲缘血统婚配关系的后代其精神发育不全的发生率是否要高于一般人群?
543.5
75
75123
Xu
,单侧。05.0,003.0:,003.0,10 HH
。75003.02 5 0 0 0,123,2 5 0 0 0 0 nXn
(三)两个样本均数( X)差别的假设检验
( 1)单位相同,无重复:
21
21
XX
XX
u
21
21 1
XX
XX
u

时:当 2021 XX
时:当 205 21 XX
( 2)单位相同,有重复,且重复次数相同:
21
21
XX
XX
u


( 3)单位不相同,或有重复且但重复次数不同:
2
2
1
1
21 1
n
X
n
X
XX
u

2
2
1
1
21
n
X
n
X
XX
u
时:当 2021 XX
时:当 205 21 XX
n
X
X
例 6-14 某卫生检疫机构对两种纯净水各抽验了
1ml水样,分别培养出大肠杆菌 4个和 7个,试比较这两种纯净水中平均每毫升所含大肠杆菌数有无差别?
。05.0,:,,211210 HH
6 0 3.0
74
1741
21
21 =

--


XX
XX
u
例 6-15 某研究者为了分析一种罕见的非传染性疾病发病的地域差异,对甲地区连续观察了四年,发现有 32人发病;对乙地区连续观察了三年,发现有 12人发病。假定甲、乙两地区在观察期内的人口构成相同,人口基数相近且基本不变,试作统计推断。
。05.0,:,,211210 HH
191.2
3
3/12
4
4/32
3
12
4
32
2
2
1
1
21



n
X
n
X
XX
u
第三节 负二项分布(略)
当 n不固定,记 n=X+k,X取值为 0,1,2、
3……,k为大于 0的常数,若要求在 X+k次试验中,出现阳性的次数恰好为 X次的概率分布即是负二项分布。
k称为聚集指数,衡量分布的聚集趋向的程度。
结束