第四章 常用概率分布
前面介绍了数据资料的整理与反映资料分布的集中性和离中性的特征数。通过样本的结果
( 统计量 )推断总体的的特征(参数),必须以概率论为基础。
本章在讨论“事件”与“概率”的基础上,
主要介绍生物学研究中三种常用的概率分布,即正态分布,二项分布 和 泊松分布,然后简述 样本平均数的抽样分布 与 t分布 。
难度级,
第一节 事件与概率
第二节 概率分布
第三节 正态分布
第四节 二项分布
第五节 泊松分布
第六节 样本平均数的抽样分布
第七节 t 分布第一节 事件与概率
一、事件
(一)必然现象与随机现象
1、必然现象 指在某些条件下,一定会发生的现象。(可分为必然事件和不可能事件两类)
2、随机现象 指在相同条件下重复进行试验,
结果未必相同,这种现象称为随机现象。
事实证明,当在相同条件下进行大量观察时,
随机现象大都呈现某种规律。 概率论与数理统计就是 研究随机现象统计规律性 的一门数学学科。 。
(二 )随机试验 (random trial) 与事件
(random event)
我们把对自然现象的一次观察或进行的一次科学试验统称为一个试验。如果这个试验具有下述三个特性就称其为 随机试验,简称试验 。
可以在相同条件下重复进行;
每次试验的可能结果不止一个,并且事先能明确试验的所有可能结果;
试验前不能确定哪一个结果会出现。
随机试验的每一个可能结果称为 随机事件,
简称事件,通常用字母 A,B,C…… 等表示。
二、概 率 ( probability)
(一)定义 设在同一条件组 S下进行了 n次试验,事件 A发生了 m次。当随着 n的增大,如果事件 A发生的的 频率 m/ n稳定地接近某一数值 p,则称 p为随机事件 A在条件组 S下发生的概率,记为
P(A)=p。当 n 充分大时,P( A) = m / n 。
(二)小概率事件与小概率原理
当事件 A的概率与 0非常接近时,称此事件为小概率事件 。小概率事件虽然不是不可能事件,
但通常认为在一次试验中实际上是不可能发生的,
称之为,小概率事件实际不可能性原理,。 这是统计假设检验的基础。
第二节 概率分布
(probability distribution)
若要全面了解试验,则必须知道试验的全部可能结果及各种结果发生的概率,即 试验结果的概率分布 。
一、随机变量 ( random variable)
(一)定义
作一次试验或抽样观察,其结果有多种可能。
每一种可能结果都可用一个数来表示。把这些数作为变量 x 的取值范围,则试验或观察结果可用变量 x来表示。变量 x就称为 随机变量 。
随机变量可用 x,y… 等字母表示。
(二)分类
1、离散型随机变量
(discrete random variable)
如果表示试验结果的随机变量 x,其可能取值为 有限个或至多可列个,并可以按一定顺序一一列举,则称 x为 离散型随机变量 。
2、连续型随机变量
(continuous random variable)
如果表示试验结果的随机变量 x,其可能取值为某范围内的任何数值,表现为 不可列性和连续变异,则称 x为 连续型随机变量 。
二、离散型随机变量的概率分布
(一)研究离散型随机变量的概率分布要解决的 两个问题,
要了解离散型随机变量 x的统计规律,就必须知道它的一切可能取值 ;
取每种可能值的概率 。
亦即,要想了解只取整数值的某一总体的全面情况,只须知道 其个体的一切可能值,以及 取各种可能值的个体在总体中所占的比率 。
ix
ip
(二)离散型随机变量的概率分布
将离散型随机变量 x的一切可能取值
及其对应的概率,记作
上式即称为离散型随机变量 x的概率分布或分布。
也可用 分布列表 示离散型随机变量 x的概率分布,
离散型随机变量概率分布的基本性质,
10 ii pp 和变量 x x1 x2 … xn …
概率 P p1 p2 … pn …
,...)2,1(?ix i
ip
ii pxxP )(,...2,1?i
三、连续型随机变量的概率分布
连续型随机变量的概率分布不能用分布列来表示,因为其可能取的值是不可数的。因此只能 用随机变量 x在某个区间内取值的概率
P(a≤x<b) 来表示 。
(一)概率分布密度曲线和概率分布密度函数 (参见 P35)
(二)连续型随机变量的概率由概率分布密度函数确定
xdxfbxaP b
a?
)()(
(三)连续型随机变量概率分布的性质
分布密度函数大于或等于 0,

当随机变量 x取某一特定值时,其概率为 0,

在一次试验中 x取值必在范围内,为一必然事件。因此
0)(?xf
cc dxxfcxp 0)()(
x
1)()(


dxxfxp
c为任意实数第三节 正态分布
( normal distribution)
正态分布是一种很重要的特殊的 连续型随机变量的概率分布 。
生物现象中有许多变量是服从或接近正态分布的;
许多统计分析方法都是以正态分布为基础的;
此外,还有不少随机变量在一定条件下以正态分布为其极限分布。
因此,正态分布无论对理论研究还是实际应用,在统计学中均占有重要的地位。
一、正态分布的定义及其特征
(一)定义 若连续性随机变量 x的概率分布密度函数为:
其中,为平均数,为方差,则称随机变量 x服从正态分布,记为
相应的概率分布函数为
2
2
2
)(
2
1
)(?

x
exf
),(~ 2x

x
x
exF
2
2
2
)(
2
1
)(?

2?
二、正态分布的特征
f(x)是非负数,以 x轴为渐进线;
曲线在 处各有一个拐点;
x
x
2
1)(?f
x
正态分布密度函数曲线
正态分布密度曲线是以为对称轴的 单峰、对称 的 悬钟形;
f(x)在 处达到极大值,
极大值为
正态分布有两个参数,即平均数 和标准差 。 是 位置参数,是 变异度参数 。
分布密度曲线与横轴所夹的面积为 1,即:
dxexP
x
2
2
2
)(
2
1)(





μ相同而 σ不同的三个正态总体σ 相同而 μ 不同的三个正态总体二、标准正态分布
( standard normal distribution)
(一)定义 由于正态分布是依赖于参数 和
(或 )的一簇分布,造成研究具体正态总体时的不便。因此将一般的 转换为
的正态分布,则称 的正态分布为 标准正态分布 。
标准正态分布的概率密度函数及分布函数如下:
),( 2N
1,0 2 1,0 2
2





deueu
2
2
2
1
2
2
1)(,
2
1)(
若随机变量 u服从标准正态分布,记作
(二)标准化的方法
对于任何一个服从正态分布 的随机变量 x,都可以通过标准化变换:
即 减平均数后再除以标准差,将其变换为服从标准正态分布的随机变量 u。对不同的 u值编成函数表,称为正态分布表,从中可以查到任意一个区间内曲线下的面积,即为概率。
),( 2N
/)( xu
)1,0(~ Nu
三、正态分布的概率计算
(一)标准正态分布的概率计算
设 u服从标准正态分布,则 u落在?u1,u2)内的概率
dueuuuP
u
u
u
2
1
2
2
21 2
1
)(
duedue
u uu u


1
2
2
2
22
2
1
2
1

查得。可由附表)与(而 1)( 12 uu
)()( 12 uu
应熟记的几种标准正态分布概率
99.0)58.258.2(
95.0)96.196.1(
9 9 7 3.0)33(
9 5 4 5.0)22(
6 8 2 6.0)11(





uP
uP
uP
uP
uP
01.0)582(
05.0)96.1(
0 0 2 7.0)3(
0 4 5 5.0)2(
3 1 7 4.0)1(





uP
uP
uP
uP
uP
1)1()1(
)1()11(


uPuP
uPuP
(二)一般正态分布的概率计算
将区间的上下限标准化,服从正态分布的随机变量 x落在? x1,x2? 内的概率,等于服从标准正态分布的随机变量 u落在的概率。
然后 查标准正态分布的概率表
[例 ]若 x服从 的正态分布,试求 。
令 u=(x-30.26)/5.10,则 u服从标准正态分布,

/,/ 21 xx
22 10.5,26.30
98.3264.21 xP
6 5 6 4.0)69.1()53.0()53.069.1(
)
10.5
26.3098.32
10.5
26.30
10.5
26.3064.21()98.3264.21(


uP
xPxP
(三 )双侧概率(两尾概率)与单侧概率
(一尾概率)
随机变量 x落在平均数加减不同倍数标准差区间之外的概率称为 双侧概率(两尾概率),记作
对应于双侧概率可以求得随机变量 x小于
或大于 的概率,称为 单侧概率(一尾概率),记作 。
如 x落在 之外的双侧
概率为 0.05,而单侧概率为 0.025。即
k?
k?
2/?
)96.1,96.1(
025.0)96.1()96.1( xPxP
005.0)58.2()58.2( xPxP
第四节 二项分布 ( Binomial distribution)
一、贝努利试验及其概率公式
(一)独立试验和贝努利试验
将随机试验重复进行 n次,若各次试验结果互相不影响,即每次试验结果出现的概率都不依赖于其它各次试验的结果,则称这 n次试验是 相互独立 的。
对于 n次独立的试验,如果?每次试验结果出现且只出现对立事件 A与 之一 ;?在每次试验中出现 A的概率是常数 p( 0<p<1),因而出现对立事件 的概率是 1-p=q,则称这一串重复的独立试验为 n重贝努利试验,简称 贝努利试验 。
A
A
(二)二项分布的概率
在 n重贝努利试验中,事件 A发生 k次的概率恰好等于( q+p) n二项展开式中的第 k+1项,因此也将 称作 二项概率公式。
二、二项分布的意义及其性质
(一)定义 设随机变量 x所有可能取的值为零和正整数,0,1,2,…,n,且有
(其中 p>0,q>0,p+q=1),则称随机变量 x服从参数为 n和 p的二项分布,记为
nkqpCkP knkknn,,2,1,0,)(
nkqpCkPkxP knkknn,,2,1,0,)()(
),(~ pnBx
(二)二项分布的性质
二项分布是一种离散型随机变量的概率分布,
由 n和 p两个参数决定,参数 n称为 离散参数,只能取正整数; p是 连续参数,取值为 0与 1之间的任何数值。
二项分布具有概率分布的一切性质,即:
( k=0,1,2,…,n)
二项分布的概率之和等于 1,即:
0)()( kPkxP n
1)(
0

n
n
k
knkk
n pqqpC

上面 是二项分布概率的 基本性质 ;?
是我们在运算中经常要根据题目要求运算时要应用到的,要注意理解。

m
k
knkk
nn qpCmkPmxP
0
)()(
)()()( 212121
2
1
mmqpCmkmPmxmP
m
mk
knkk
nn

n
mk
knkk
nn qpCmkPmxP )()(
三、二项分布的概率计算及其应用条件
(一)概率计算
二项分布的概率计算,可以直接利用二项概率公式进行。把时间 A发生的次数 k代入公式即可求得对应的概率。
[例 ]有一批种蛋,其孵化率为 0.85,今在该批种蛋中任选 6枚进行孵化,试给出孵化出小鸡的各种可能情况的概率。
这个问题属于贝努里模型,其中,
孵化 6枚种蛋孵出的小鸡数 x服从二项分布,其中 x的可能取值为 0,1,2,3,4,
5,6。
85.0,6 pn
15.085.01q
)85.0,6(B
其中
思考:求?至少孵出 3只小鸡的概率是多少?
孵出的小鸡数在 2-5只之间的概率是多大?
0 0 0 0 1 1 3 9.0)15.0()15.0()85.0()0( 660066 CP
0 0 0 3 8 7 2 8.0)15.0()85.0(6)15.0()85.0()1( 51161166CP
0 0 5 4 8 6 4 8.0)15.0()85.0(15)15.0()85.0()2( 42262266CP
0 4 1 4 5 3 4 4.0)15.0()85.0(20)15.0()85.0()3( 33363366CP
1 7 6 1 7 7 1 1.0)15.0()85.0(15)15.0()85.0()4( 24464466CP
3 9 9 3 3 4 7 8.0)15.0()85.0(6)15.0()85.0()5( 15565566CP
3 7 7 1 4 9 5 2.0)85.0()15.0()85.0()6( 6066666CP
(二)应用条件(三个 )
二项分布的 应用条件有三,
各观察单位 只具有互相对立的一种结果,
如阳性或阴性,生存或死亡等,属于二项分类资料。
已知发生某一结果 (如死亡 ) 的概率为 p,
其对立结果的概率则为 1-P=q,实际中要求 p 是从大量观察中获得的比较稳定的数值。
n个观察单位的 观察结果互相独立,即每个观察单位的观察结果不会影响到其它观察单位的结果。
四、二项分布的平均数与标准差
统计学证明,服从二项分布 B(n,p)的随机变量之平均数 μ,标准差 σ 与参数 n,p有如下关系:
当试验结果以事件 A发生次数 k表示时
当试验结果以事件 A发生的频率 k/ n表示时
也称率的标准误。
n p q
np
npq
p
p
p
/)(?
p?
第四节 泊松分布
(Possion distribution)
普阿松分布是一种可以用来描述和分析随机地发生在单位空间或时间里的 稀有事件 的分布。
所谓稀有事件即为小概率事件。要观察到这类事件,样本含量 n必须很大 。在生物、医学研究中,
服从普阿松分布的随机变量是常见的。
此外,由于普阿松分布是描述小概率事件的,
因而二项分布中当 p很小 n很大时,可用普阿松分布逼近。
一、波松分布的意义
(一)定义
若随机变量 x(x=k)只取零和正整数值,且其概率分布为
其中 k=0,1,… ; λ > 0;e=2.7182… 是自然对数的底数,则称 X服从参数为 λ 的普阿松分布记为 x~ P(λ) 。
(二)特征
普阿松分布作为一种离散型随机变量的概率分布有一个重要的特征。
e
k
kxP
k
!
)(
这就是它的 平均数 和 方差 相等,都等于常数 λ,
即 μ=σ 2=λ 。利用这一特征,可以初步判断一个随机变量是否服从普阿松分布。
[例 ]我们调查了 200个奶牛场,统计各场某 10
年内出现的怪胎(如缺皮症,全身无毛等)的头数,然后以怪胎头数把 200个奶牛场分类,统计每类中奶牛场数目,结果如下:
试研究 10年内母牛怪胎数的概率分布。
10年内母牛产怪胎次数( m) 0 1 2 3 4 总 计奶牛场数( f) 109 65 22 3 1 200
每一奶牛场 10年内母牛产怪胎是稀有事件,先
假设 母牛产怪胎数的概率分布为 普阿松分布。根据观察结果计算每一奶牛场 10年内母牛产怪胎的平均数,根据加权法可得用 =0.61估计 λ,代入 计算当 m=0,1,2,3,4时的概率和理论次数(见表)。
x
61.0200 14332221650109 n fxx
e
kkxP
k
!)(
怪胎数( m) 0 1 2 3 4 总 计实际次数 ( f) 109 65 22 3 1 200
概 率(理论) 0.5434 0.3314 0.1011 0.0206 0.0031 0.9996
理 论 次 数 108.68 66.28 20.22 4.12 0.62 199.92
x
由表中的结果可以看出,计算所得的理论次数与
实际次数十分接近,说明各奶牛场 10年内出现怪胎次数是服从 普阿松分布的,我们事先的假设是正确的。
下面我们再来证实我们所得的资料是否具有普阿松分布的特征。
已经计算出 =0.61,样本方差计算如下,
S2与 很接近,这正是普阿松分布所具有的特征。
x
611.0
199
200/12241332221650109
1
/)(
222222
22
2


n
nfmfm
S
x
二、波松分布的概率计算
λ 是普阿松分布所依赖的唯一参数 。普阿松分布的概率计算,只要参数 λ 确定了,
问题就解决了。把 k=0,1,2,… 代入公式即可求得各项的概率。
但是在大多数服从普阿松分布的实例中,
分布参数 λ 往往是未知的,只能 从所观察的随机样本中计算出相应的样本平均数作为 λ 的估计值。
四、三种重要的概率分布之间的关系
前面讨论的三个重要的概率分布中,前两个概率分布属离散型的,后一个属连续型的。三者间的关系综述如下:
对于二项分布,在 n→∞,p→0,且
np=λ( 较小常数 )情况下,二项分布趋于普阿松分布。在这种场合,普阿松分布中的参数 λ 用二项分布的 np代之;
在 n→∞,p→0.5 时,二项分布趋于正态分布。在这种场合,正态分布中的 μ,σ 2用二项分布的 np,npq代之。
在实际计算中,当 p< 0.1且 n很大时,二项分布可由普阿松分布近似,当 p> 0.1且 n很大时,
二项分布可由正态分布近似。
二项分布普阿松分 布正态分布
p> 0.1
n?∞
P<0.1
n?∞
第六节 样本平均数的抽样分布
研究 总体与从中抽取的样本之间的关系 是统计学的中心内容。
对这种关系的研究可从两方面着手,一是 从总体到样本,这就是研究 抽样分布 的问题; 二是 从样本到总体,这就是 统计推断 问题。
统计推断是以总体分布和样本抽样分布的理论关系为基础的。为了能正确地利用样本去推断总体,并能正确地理解统计推断的结论,须对样本的抽样分布有所了解。
总体与样本间的关系从总体到样本?
从样本到总体
统计推断 (目的 )
抽样分布 (基础)
一、样本平均数的抽样分布
(一)基本概念
1、返置抽样与不返置抽样
由总体随机抽样 (random sampling)的方法可分为有返置抽样和不返置抽样两种。 前者指每次抽出一个个体后,这个个体应返置回原总体;后者指每次抽出的个体不返置回原总体。
对于无限总体,返置与否关系不大,都可保证各个体被抽到的机会均等。 对于有限总体,要保证随机抽样,就应该采取返置抽样,否则各个体被抽到的机会就不均等。
2、原始总体与样本平均数抽样总体
设有一个总体,总体均数为 μ,方差为 σ 2,总体中各变数为 x,将此总体称为 原总体 。现从这个总体中随机抽取含量为 n的样本,样本平均数记为 。
由这些样本算得的平均数有大有小,不尽相同,与原总体均数 μ 相比往往表现出不同程度的差异。这种差异是由随机抽样造成的,称为抽样误差 (Sampling error)。
显然,样本平均数 也是一个随机变量,其概率分布叫做 样本平均数的抽样分布 。
x
x
由样本平均数构成的总体称为 样本平均数的抽样总体,其平均数和标准差分别记为 和 。
是样本平均数抽样总体的标准差,简称 标准误 (Standard error),它表示平均数抽样误差的大小。
x? x?
x?
原总体( μ,σ)
样本平均数的抽样总体(,)x? x?
3,原始总体与样本平均数抽样总体的两个参数间的关系
统计学上已证明 总体的两个参数与 x 总体的两个参数有如下关系:
为了验证这个结论及了解平均数抽样总体与原总体概率分布间的关系,可进行模拟抽样试验
(请同学们参考有关书籍)。
(二 ) x变量与 变量概率分布间的关系 —— 中心极限定理
x
nxx
,
x
若随机变量 x服从正态分布 N(μ,σ 2),x1,
x2,…,,xn是由 x总体得来的随机样本,则统计量
=Σx / n的概率分布也是正态分布,且有
即 服从正态分布 N(μ,σ 2/ n)。
若随机变量 x服从平均数是 μ,方差是 σ 2
的分布 (不是正态分布 ); x1,x2,…,,xn 是由此总体得来的随机样本,则统计量 =Σx / n的概率分布,当 n相当大时逼近正态分布 N(μ,σ 2/ n)。
这就是中心极限定理。上述两个结果保证了样本平均数的抽样分布服从或者逼近正态分布 。
x
x,x
nx /22 x
二、标准误
(一)定义及其意义标准误 (平均数抽样总体的标准差 )
的大小反映样本平均数 的抽样误差的大小,即精确性的高低。
标准误大,说明各样本均数间差异程度大,
样本平均数 的精确性低。反之,小,说明间的差异程度小,样本平均数的精确性高。
的大小与原总体的标准差 σ 成正比,与样本含量 n的平方根成反比。从某特定总体抽样,
因为 σ 是一常数,所以 只有增大样本含量才能降低样本均数的抽样误差 。
nx /
x
x x? x
x?
(二)计算
在实际工作中,总体标准差 σ 往往是未知的,
因而 无法求得。
此时,可用样本标准差 S估计 σ 。于是以估计 。记 为,称作样本标准误或均数标准误。 是平均数抽样误差的估计值。若样本中各观察值为 则
x?
nS /
x?
nS /
xS
xS
nxxx,...,,21
)1(
/)(
)1(
)( 222


nn
nxx
nn
xx
n
S
S x
(二)标准误与标准差的区别、联系
二者的 区别,样本标准差 S是反映样本中各变数 变异程度大小的一个指标,它的大小说明了对该样本代表性的强弱。
样本标准误 是样本平均数的标准差,它是抽样误差的估计值,其大小说明了样本间变异程度的大小及精确性的高低。
联系,对于 大样本资料,常将样本标准差 S
与样本平均数 配合使用,记为,用以说明所考察性状或指标的优良性与稳定性。
nxxx,...,,21
xS
x Sx?
对于 小样本资料,常将样本标准误与样本平均数配合使用,记为,用以表示所考察性状或指标的优良性与抽样误差的大小。
xSx?
第七节 t分布 (t- distribution)
一,t分布
由样本平均数抽样分布的性质 (中心极限定理 )
知道:若 。
将随机变量 x标准化得,则 。
当 σ 2未知时,以 S代替 σ 所得到的统计量记为 t。
在计算时,由于采用 S来代替 σ,使得 t 变量不再服从标准正态分布,而是服从 t分布。它的概率密度函数如下:
式中 t的取值范围是 -∞<t<+∞ ; df=n-1为自由度
),(~),,(~ 22 nNxNx 则
xxu /)(
)1,0(~ Nu
2
12
)1(
)2/(
]2/)1[(1)(
df
df
t
df
df
df
tf
二,t分布曲线的特点
与标准正态分布曲线相比,t分布曲线顶部略低,两尾部稍高而平。 df越小这种趋势越明显。
df越大,t分布越趋近于标准正态分布。当 t>30
时,t 分布与标准正态分布的区别很小。
不同自由度的 t分布
t分布受 自由度 的制约,每一个自由度都有一条 t分布曲线。
t分布密度曲线 以 t
= 0为中心,两边对称,
且在 t= 0时,分布密度函数取得最大值。
对于不同自由度下 t分布的两尾概率及其对应的临界 t值已编制成附表 3,即 t分布表。该表第一列为自由度 df,表头为 两尾概率值,表中数字即为临界 t 值。
例如,当 df=15时,查附表 3得 两尾概率 等于
0.05的临界 t值为 =2.131,其意义是,
P(-∞<t< -2.131)=P(2.131<t<+∞)=0.025;
P(-∞<t< -2.131)+P(2.131<t<+∞)=0.05 。
由附表 3可知,当 df一定时,概率 P越大,临界 t值越小;概率 P越小,临界 t值越大。
当 概率 P一定时,随着 df的增加,临界 t值在减小,当 df=∞ 时,临界 t值与标准正态分布的 u
相等。