第四章 常用概率分布
为了便于读者理解统计分析的基本原理,正确掌握和应用以后各章所介绍的统计分析方法,本章在介绍概率论中最基本的两个概念——事件、概率的基础上,重点介绍生物科学研究中常用的几种随机变量的概率分布——正态分布、二项分布、波松分布以及样本平均数的抽样分布和t分布。
事件与概率
一、事 件
(一)必然现象与随机现象 在自然界与生产实践和科学试验中,人们会观察到各种各样的现象,把它们归纳起来,大体上分为两大类:一类是可预言其结果的,即在保持条件不变的情况下,重复进行试验,其结果总是确定的,必然发生(或必然不发生)。例如,在标准大气压下,水加热到100℃必然沸腾;步行条件下必然不可能到达月球等。这类现象称为必然现象(inevitable phenomena)或确定性现象(definite phenomena)。另一类是事前不可预言其结果的,即在保持条件不变的情况下,重复进行试验,其结果未必相同。例如,掷一枚质地均匀对称的硬币,其结果可能是出现正面,也可能出现反面;孵化6枚种蛋,可能“孵化出0只雏”,也可能“孵化出1只雏”,…,也可能“孵化出6 只雏”,事前不可能断言其孵化结果。这类在个别试验中其结果呈现偶然性、不确定性现象,称为随机现象(random phenomena)或不确定性现象(indefinite phenomena)。
人们通过长期的观察和实践并深入研究之后,发现随机现象或不确定性现象,有如下特点:在一定的条件实现时,有多种可能的结果发生,事前人们不能预言将出现哪种结果;对一次或少数几次观察或试验而言,其结果呈现偶然性、不确定性;但在相同条件下进行大量重复试验时,其试验结果却呈现出某种固有的特定的规律性——频率的稳定性,通常称之为随机现象的统计规律性。例如,对于一头临产的妊娠母牛产公犊还是产母犊是事前不能确定的,但随着妊娠母牛头数的增加,其产公犊、母犊的比例逐渐接近1:1的性别比例规律。概率论与数理统计就是研究和揭示随机现象统计规律的一门科学。
(二)随机试验与随机事件
1、随机试验 通常我们把根据某一研究目的,在一定条件下对自然现象所进行的观察或试验统称为试验(trial)。而一个试验如果满足下述三个特性,则称其为一个随机试验(random trial),简称试验:
(1)试验可以在相同条件下多次重复进行;
(2)每次试验的可能结果不止一个,并且事先知道会有哪些可能的结果;
(3)每次试验总是恰好出现这些可能结果中的一个,但在一次试验之前却不能肯定这次试验会出现哪一个结果。
如在一定孵化条件下,孵化6枚种蛋,观察其出雏情况;又如观察两头临产妊娠母牛所产犊牛的性别情况,它们都具有随机试验的三个特征,因此都是随机试验。
2、随机事件 随机试验的每一种可能结果,在一定条件下可能发生,也可能不发生,称为随机事件(random event),简称事件(event),通常用A、B、C等来表示。
(1)基本事件 我们把不能再分的事件称为基本事件(elementary event),也称为样本点(sample point)。例如,在编号为1、2、3、…、10的十头猪中随机抽取1头,有10种不同的可能结果:“取得一个编号是1”、“取得一个编号是2”、…、“取得一个编号是10”,这10个事件都是不可能再分的事件,它们都是基本事件。由若干个基本事件组合而成的事件称为复合事件(compound event)。如“取得一个编号是2的倍数”是一个复合事件,它由“取得一个编号是2”、“是4”、“是6、“是8”、“是10”5个基本事件组合而成。
(2)必然事件 我们把在一定条件下必然会发生的事件称为必然事件(certain event),用Ω表示。例如,在严格按妊娠期母猪饲养管理的要求饲养的条件下,妊娠正常的母猪经114天左右产仔,就是一个必然事件。
(3)不可能事件 我们把在一定条件下不可能发生的事件称为不可能事件(impossible event),用ф表示。例如,在满足一定孵化条件下,从石头孵化出雏鸡,就是一个不可能事件。
必然事件与不可能事件实际上是确定性现象,即它们不是随机事件,但是为了方便起见,我们把它们看作为两个特殊的随机事件。
二,概 率
(一)概率的统计定义 研究随机试验,仅知道可能发生哪些随机事件是不够的,还需了解各种随机事件发生的可能性大小,以揭示这些事件的内在的统计规律性,从而指导实践。这就要求有一个能够刻划事件发生可能性大小的数量指标,这指标应该是事件本身所固有的,且不随人的主观意志而改变,人们称之为概率(probability)。事件A的概率记为P(A)。下面我们先介绍概率的统计定义。
在相同条件下进行n次重复试验,如果随机事件A发生的次数为m,那么m/n称为随机事件A的频率(frequency);当试验重复数n逐渐增大时,随机事件A的频率越来越稳定地接近某一数值p,那么就把p称为随机事件A的概率。这样定义的概率称为统计概率(statistics probability),或者称后验概率(posterior probability)。
例如为了确定抛掷一枚硬币发生正面朝上这个事件的概率,历史上有人作过成千上万次抛掷硬币的试验。在表4—1中列出了他们的试验记录。
表4—1 抛掷一枚硬币发生正面朝上的试验记录实验者
投掷次数
发生正面朝上的次数
频率(m/n)
蒲 丰
4040
2048
0.5069
k.皮尔逊
12000
6019
0.5016
k.皮尔逊
24000
12012
0.5005
从表4-1可看出,随着实验次数的增多,正面朝上这个事件发生的频率越来越稳定地接近0.5,我们就把0.5作为这个事件的概率。
在一般情况下,随机事件的概率p是不可能准确得到的。通常以试验次数n充分大时随机事件A的频率作为该随机事件概率的近似值。
即 P(A)=p≈m/n (n充分大) (4-1)
(二)概率的古典定义 上面介绍了概率的统计定义。但对于某些随机事件,用不着进行多次重复试验来确定其概率,而是根据随机事件本身的特性直接计算其概率。
有很多随机试验具有以下特征:
1、试验的所有可能结果只有有限个,即样本空间中的基本事件只有有限个;
2、各个试验的可能结果出现的可能性相等,即所有基本事件的发生是等可能的;
3、试验的所有可能结果两两互不相容。
具有上述特征的随机试验,称为古典概型(classical model)。对于古典概型,概率的定义如下:
设样本空间由n个等可能的基本事件所构成,其中事件A包含有m个基本事件,则事件A的概率为m/n,即
P(A)=m/n (4-2)
这样定义的概率称为古典概率(classical probability)或先验概率(prior probability)。
【例4.1】在编号为1、2、3、…、10的十头猪中随机抽取1头,求下列随机事件的概率。
(1)A=“抽得一个编号≤4”;
(2)B=“抽得一个编号是2的倍数”。
因为该试验样本空间由10个等可能的基本事件构成,即n=10,而事件A所包含的基本事件有4个,既抽得编号为1,2,3,4中的任何一个,事件A便发生,即mA=4,所以
P(A)=mA/n=4/10=0.4
同理,事件B所包含的基本事件数mB=5,即抽得编号为2,4,6,8,10中的任何一个,事件B便发生,故P(B)=mB/n=5/10=0.5。
【例4.2】 在N头奶牛中,有M头曾有流产史,从这群奶牛中任意抽出n头奶牛,试求:
(1)其中恰有m头有流产史奶牛的概率是多少?
(2)若N=30,M =8,n =10,m =2,其概率是多少?
我们把从有M头奶牛曾有流产史的N头奶牛中任意抽出n头奶牛,其中恰有m头有流产史这一事件记为A,因为从N头奶牛中任意抽出n头奶牛的基本事件总数为,事件A 所包含的基本事件数为,因此所求事件A的概率为
=
将N=30,M =8,n =10,m =2代入上式,得
== 0.0695
即在30头奶牛中有8头曾有流产史,从这群奶牛随机抽出10头奶牛其中有2头曾有流产史的概率为6.95%。
(三)概率的性质 根据概率的定义,概率有如下基本性质:
1、对于任何事件A,有0≤P(A)≤1;
2、必然事件的概率为1,即P(Ω)=1;
3、不可能事件的概率为0,即P(ф)=0。
三、小概率事件实际不可能性原理随机事件的概率表示了随机事件在一次试验中出现的可能性大小。若随机事件的概率很小,例如小于0.05、0.01、0.001,称之为小概率事件。小概率事件虽然不是不可能事件,但在一次试验中出现的可能性很小,不出现的可能性很大,以至于实际上可以看成是不可能发生的。在统计学上,把小概率事件在一次试验中看成是实际不可能发生的事件称为小概率事件实际不可能性原理,亦称为小概率原理。小概率事件实际不可能性原理是统计学上进行假设检验(显著性检验)的基本依据。在下一章介绍显著性检验的基本原理时,将详细叙述小概率事件实际不可能性原理的具体应用。
第二节 概率分布
事件的概率表示了一次试验某一个结果发生的可能性大小。若要全面了解试验,则必须知道试验的全部可能结果及各种可能结果发生的概率,即必须知道随机试验的概率分布(probability distribution)。为了深入研究随机试验,我们先引入随机变量(random variable)的概念。
一、随机变量
作一次试验,其结果有多种可能。每一种可能结果都可用一个数来表示,把这些数作为变量x的取值范围,则试验结果可用变量x来表示。
【例4.3】 对100头病畜用某种药物进行治疗,其可能结果是“0头治愈”,“1头治愈”、“2头治愈”、“…”、“100头治愈”。若用x表示治愈头数,则x的取值为0、1、2、…、100。
【例4.4】 孵化一枚种蛋可能结果只有两种,即“孵出小鸡”与“未孵出小鸡”。 若用变量x表示试验的两种结果,则可令x=0表示“未孵出小鸡”,x=1表示“孵出小鸡”。
【例4.5】 测定某品种猪初生重,表示测定结果的变量x所取的值为一个特定范围(a,b),如0.5―1.5kg,x值可以是这个范围内的任何实数。
如果表示试验结果的变量x,其可能取值至多为可列个,且以各种确定的概率取这些不同的值,则称x为离散型随机变量 (discrete random variable);如果表示试验结果的变量x,其可能取值为某范围内的任何数值,且x在其取值范围内的任一区间中取值时,其概率是确定的,则称x为连续型随机变量(continuous random variable)。
引入随机变量的概念后,对随机试验的概率分布的研究就转为对随机变量概率分布的研究了。
二、离散型随机变量的概率分布
要了解离散型随机变量x的统计规律,就必须知道它的一切可能值xi及取每种可能值的概率pi。
如果我们将离散型随机变量x的一切可能取值xi (i=1,2,…),及其对应的概率pi,记作
P(x=xi)=pi i=1,2,… (4—3)
则称(4—3)式为离散型随机变量x的概率分布或分布。常用分布列(distribution series)来表示离散型随机变量:
x1 x2 … xn ….
p1 p2 … pn …
显然离散型随机变量的概率分布具有pi≥0和Σpi=1这两个基本性质。
三、连续型随机变量的概率分布
连续型随机变量(如体长、体重、蛋重)的概率分布不能用分布列来表示,因为其可能取的值是不可数的。我们改用随机变量x在某个区间内取值的概率P(a≤x<b)来表示。 下面通过频率分布密度曲线予以说明。
由表2—7作126头基础母羊体重资料的频率分布直方图,见图4—1,图中纵座标取频率与组距的比值。可以设想,如果样本取得越来越大(n→+∞),组分得越来越细(i→0),某一范围内的频率将趋近于一个稳定值──概率。这时,频率分布直方图各个直方上端中点的联线──频率分布折线将逐渐趋向于一条曲线,换句话说,当n→+∞、i→0时,频率分布折线的极限是一条稳定的函数曲线。 对于样本是取自连续型随机变量的情况,这条函数曲线将是光滑的。 这条曲线排除了抽样和测量的误差,完全反映了基础母羊体重的变动规律。 这条曲线叫概率分布密度曲线,相应的函数叫概率分布密度函数。若记体重概率分布密度函数为f(x),则x取值于区间[a,b)的概率为图中阴影部分的面积,即
P(a≤x<b)= (4-4)
(4—4)式为连续型随机变量x在区间[a,b)上取值概率的表达式。可见,连续型随机变量的概率由概率分布密度函数确定。
此外,连续型随机变量概率分布还具有以下性质:
1、分布密度函数总是大于或等于0,即f(x)≥0;
2、当随机变量x取某一特定值时,其概率等于0;即
(c为任意实数)
因而,对于连续型随机变量,仅研究其在某一个区间内取值的概率,而不去讨论取某一个值的概率。
3、在一次试验中随机变量x之取值必在-∞<x<+∞范围内,为一必然事件。所以
(4-5)
(4—5)式表示分布密度曲线下、横轴上的全部面积为1。
第三节 正态分布
正态分布是一种很重要的连续型随机变量的概率分布。生物现象中有许多变量是服从或近似服从正态分布的,如家畜的体长、体重、产奶量、产毛量、血红蛋白含量、血糖含量等。许多统计分析方法都是以正态分布为基础的。此外,还有不少随机变量的概率分布在一定条件下以正态分布为其极限分布。因此在统计学中,正态分布无论在理论研究上还是实际应用中,均占有重要的地位。
一、正态分布的定义及其特征
(一) 正态分布的定义 若连续型随机变量x的概率分布密度函数为
(4-16)
其中μ为平均数,σ2为方差,则称随机变量x服从正态分布(normal distribution),记为x~N(μ,σ2)。相应的概率分布函数为
(4-17)
分布密度曲线如图4—2所示。
(二) 正态分布的特征 由(4—6)式和图4—2可以看出正态分布具有以下几个重要特征:
1、正态分布密度曲线是单峰、对称的悬钟形曲线,对称轴为x=μ;
2、f(x)在x=μ处达到极大,极大值;
3、f(x)是非负函数,以x轴为渐近线,分布从-∞至+∞;
4、曲线在x=μ±σ处各有一个拐点,即曲线在(-∞,μ-σ)和(μ+σ,+∞) 区间上是下凸的,在[μ-σ,μ+σ]区间内是上凸的;
5、正态分布有两个参数,即平均数μ和标准差σ。μ是位置参数,如图4—3所示。 当σ恒定时,μ愈大,则曲线沿x轴愈向右移动;反之,μ愈小,曲线沿x轴愈向左移动。σ是变异度参数,如图4—4所示。当μ恒定时,σ愈大,表示x的取值愈分散,曲线愈“胖”;σ愈小,x的取值愈集中在μ附近,曲线愈“瘦”。
6、分布密度曲线与横轴所夹的面积为1,即:
二、标准正态分布
由上述正态分布的特征可知,正态分布是依赖于参数μ和σ2(或σ)的一簇分布,正态曲线之位置及形态随μ和σ2的不同而不同。这就给研究具体的正态总体带来困难,需将一般的N(μ,σ2)转换为μ=0,σ2=1的正态分布。我们称μ=0,σ2=1的正态分布为标准正态分布(standard normal distribution)。标准正态分布的概率密度函数及分布函数分别记作ψ(u)和Φ(u),由 (4-6)及(4-7) 式得:
(4-8)
(4-9)
随机变量u服从标准正态分布,记作u~N(0,1),分布密度曲线如图4—5所示。
对于任何一个服从正态分布N(μ,σ2)的随机变量x,都可以通过标准化变换:
u=(x-μ)/σ (4-10)
将其变换为服从标准正态分布的随机变量u。u称为标准正态变量或标准正态离差(standard normal deviate)。
按(4-9)式计算,对不同的u值编成函数表,称为正态分布表,见附表1,从中可查到u在意一个区间内取值的概率。这就给解决不同μ、σ 2的正态分布概率计算问题带来很大方便。
三、正态分布的概率计算
关于正态分布的概率计算,我们先从标准正态分布着手。这是因为,一方面标准正态分布在正态分布中形式最简单,而且任意正态分布都可化为标准正态分布来计算;另一方面,人们已经根据标准正态分布的分布函数编制成正态分布表(附表1)以供直接查用。
(一) 标准正态分布的概率计算 设u服从标准正态分布,则u在[u1,u2]内取值的概率为:
=Φ(u2)-Φ(u1) (4-11)
而Φ(u1)与Φ(u2)可由附表1查得。
附表1只对于-4.99≤u<4.99给出了Φ(u)的数值。 表中,u值列在第一列和第一行,第一列列出u的整数部分及小数点后第一位,第一行为u的小数点后第二位数值 。例如,u=1.75,1.7放在第一列,0.05放在第一行。在附表1中,1.7所在行与0.05 所在列相交处的数值为0.95994,即Φ(1.75)=0.95994。有时会遇到给定Φ(u)值,例如Φ(u)=0.284,反过来查u值。这只要在附表1中找到与0.284最接近的值0.2843,对应行的第一列数-0.5,对应列的第一行数值0.07,即相应的u值为u=-0.57,亦即Φ(-0.57)=0.284。如果要求更精确的u值,可用线性插值法计算。
表中用了象.032336,.937674这种写法,分别是0.0002326和0.9997674的缩写,03表示连续3个0,93表示连续3个9。
由(4-11) 式及正态分布的对称性可推出下列关系式,再借助附表1,便能很方便地计算有关概率:
P(0≤u<u1)=Φ(u1)-0.5
P(u≥u1) =Φ(-u1)
P(|u|≥u1)=2Φ(-u1) (4-12)
P(|u|<u1)=1-2Φ(-u1)
P(u1≤u<u2)=Φ(u2)-Φ(u1)
【例4.6】 已知u~N(0,1),试求,(1) P(u<-1.64)=? (2) P (u≥2.58)=? (3) P (|u|≥2.56)=? (4) P(0.34≤u<1.53) =?
利用(4-12)式,查附表1得:
(1) P(u<-1.64)=0.05050
(2) P (u≥2.58)=Φ(-2.58)=0.024940
(3) P (|u|≥2.56)=2Φ(-2.56)=2×0.005234=0.010468
(4) P (0.34≤u<1.53)=Φ(1.53)-Φ(0.34)=0.93669-0.6331=0.30389
关于标准正态分布,以下几种概率应当熟记:
P(-1≤u<1)=0.6826
P(-2≤u<2)=0.9545
P(-3≤u<3)=0.9973
P(-1.96≤u<1.96)=0.95
P (-2.58≤u<2.58)=0.99
u变量在上述区间以外取值的概率分别为:
P(|u|≥1)=2Φ(-1)=1- P(-1≤u<1)=1-0.6826=0.3174
P(|u|≥2)=2Φ(-2)=1- P(-2≤u<2)=1-0.9545=0.0455
P(|u|≥3)=1-0.9973=0.0027
P(|u|≥1.96)=1-0.95=0.05
P(|u|≥2.58)=1-0.99=0.01
(二) 一般正态分布的概率计算 正态分布密度曲线和横轴围成的一个区域,其面积为1,这实际上表明了“随机变量x取值在-∞与+∞之间”是一个必然事件,其概率为1。若随机变量 x服从正态分布N(μ,σ2),则x的取值落在任意区间[x1,x2)的概率,记作P(x1≤x<x2),等于图4-7中阴影部分曲边梯形面积。即:
(4-13)
对 (4-13)式作变换u=(x-μ)/σ,得dx=σdu,故有
=
其中,
这表明服从正态分布N(μ,σ2)的随机变量x在[x1,x2)内取值的概率,等于服从标准正态分布的随机变量u在[(x1-μ)/σ,(x2-μ)/σ)内取值的概率。因此,计算一般正态分布的概率时,只要将区间的上下限作适当变换(标准化),就可用查标准正态分布的概率表的方法求得概率了。
【例4.7】 设x服从μ=30.26,σ2=5.102的正态分布,试求P(21.64≤x<32.98)。
令,则u服从标准正态分布,故
=P(-1.69≤u<0.53)=Φ(0.53)-Φ(-1.69)
=0.7019-0.04551=0.6564
关于一般正态分布,以下几个概率(即随机变量x落在μ加减不同倍数σ区间的概率)是经常用到的。
P(μ-σ≤x<μ+σ)=0.6826
P(μ-2σ≤x<μ+2σ) =0.9545
P (μ-3σ≤x<μ+3σ) =0.9973
P (μ-1.96σ≤x<μ+1.96σ) =0.95
P (μ-2.58σ≤x<μ+2.58σ)=0.99
上述关于正态分布的结论,可用一实例来印证。从图2-7可以看出,126头基础母羊体重资料的次数分布接近正态分布,现根据其平均数=52.26(kg),标准差S=5.10(kg),算出平均数加减不同倍数标准差区间内所包括的次数与频率,列于表4—2。
表4—2 126头基础母羊体重在±kS 区间内所包括的次数与频率
±kS
数 值
区 间
区间内所包含的次数与频率
次数
频率(%)
±1S
52.26±5.10
47.16―57.36
84
67.46
±2S
52.26±10.20
42.06―62.46
119
94.44
±3S
52.26±15.30
36.96―67.56
126
100.00
±1.96S
52.26±10.00
42.26―62.26
119
94.44
±2.58S
52.26±13.16
39.10―65.42
126
100.00
由表4—2可见,实际频率与理论概率相当接近,说明126头基础母羊体重资料的频率分布接近正态分布,从而可推断基础母羊体重这一随机变量很可能是服从正态分布的。
生物统计中,不仅注意随机变量x落在平均数加减不同倍数标准差区间(μ-kσ,μ+kσ)之内的概率而且也很关心x落在此区间之外的概率。我们把随机变量x落在平均数μ加减不同倍数标准差σ区间之外的概率称为双侧概率(两尾概率),记作α。对应于双侧概率可以求得随机变量x小于μ-kσ或大于μ+kσ的概率,称为单侧概率(一尾概率),记作α/2。例如,x落在(μ-1.96σ,μ+1.96σ)之外的双侧概率为0.05,而单侧概率为0.025。即
P(x<μ-1.96σ)= P(x>μ+1.96σ)=0.025
双侧概率或单侧概率如图4—8所示。x落在(μ-2.58σ,μ+2.58σ)之外的双侧概率为0.01,而单侧概率
P(x<μ-2.58σ)= P(x>μ+2.58σ)=0.005
附表2给出了满足P (|u|>)=α的双侧分位的数值。因此,只要已知双侧概率α的值,由附表2就可直接查出对应的双侧分位数,查法与附表1相同。例如,已知u~N(0,1)试求:
(1) P(u<-)+P(u≥)=0.10的
(2) P(-≤u<﹚=0.86的
因为附表2中的α值是:
所以
(1) P(u<-)+ P(u≥)=1- P(-≤u<﹚=0.10=α
由附表2查得: =1.644854
(2) P (-≤u<)=0.86,α=1- P (-≤u<)=1-0.86=0.14
由附表2查得:=1.475791
对于x~N(μ,σ2),只要将其转换为u~N(0,1),即可求得相应的双侧分位数。
【例4.8】 已知猪血红蛋白含量x服从正态分布N(12.86,),若P(x<) =0.03,P(x≥)=0.03,求,。
由题意可知,α/2=0.03,α=0.06 又因为
P(x≥)=
故 P(x<=+ P(x≥)= P(u<-=+ P(u≥)
=1- P(-≤P<)=0.06=α
由附表2查得:=1.880794,所以
(-12.86)/1.33=-1.880794,(-12.86)/1.33=1.880794
即 ≈10.36,≈15.36。
第四节 二项分布
一、贝努利试验及其概率公式
将某随机试验重复进行n次,若各次试验结果互不影响,即每次试验结果出现的概率都不依赖于其它各次试验的结果,则称这n次试验是独立的。
对于n次独立的试验,如果每次试验结果出现且只出现对立事件A与之一,在每次试验中出现A的概率是常数p(0<p<1),因而出现对立事件的概率是1-p=q,则称这一串重复的独立试验为n重贝努利试验,简称贝努利试验(Bernoulli trials )。
在生物学研究中,我们经常碰到的一类离散型随机变量,如入孵n枚种蛋的出雏数、n头病畜治疗后的治愈数、n 尾鱼苗的成活数等,可用贝努利试验来概括。
在n重贝努利试验中,事件A可能发生0,1,2,…,n次,现在我们来求事件A 恰好发生k(0≤k≤n)次的概率Pn(k)。
先取n=4,k=2来讨论。在4次试验中,事件A发生2次的方式有以下种:
其中Ak(k=1,2,3,4)表示事件A在第k次试验发生;(k=1,2,3,4)表示事件A在第k次试验不发生。由于试验是独立的,按概率的乘法法则,于是有
P()=P()=…= P()
= P()·P()·P()·P()=
又由于以上各种方式中,任何二种方式都是互不相容的,按概率的加法法则,在4 次试验中,事件A恰好发生2次的概率为
= P()+P()+…+ P()=
一般,在n重贝努利试验中,事件A恰好发生k(0≤k≤n)次的概率为
= k=0,1,2…,n (4-14)
若把(4-14)式与二项展开式
相比较就可以发现,在n重贝努利试验中,事件A发生k次的概率恰好等于 展开式中的第k+1项,所以也把(4-14)式称作二项概率公式。
二、二项分布的意义及性质
二项分布定义如下:
设随机变量x所有可能取的值为零和正整数:0,1,2,…,n,且有
= k=0,1,2…,n
其中p>0,q>0,p+q=1,则称随机变量x服从参数为n和p的二项分布 (binomial distribution),记为 x~B(n,p)。
显然,二项分布是一种离散型随机变量的概率分布。参数n称为离散参数,只能取正整数;p是连续参数,它能取0与1之间的任何数值(q由p确定,故不是另一个独立参数)。
容易验证,二项分布具有概率分布的一切性质,即:
1、P(x=k)= Pn(k) (k=0,1,…,n)
2、二项分布的概率之和等于1,即
3、 (4-15)
4、 (4-16)
5、(m1<m2) (4-17)
二项分布由n和p两个参数决定:
1、当p值较小且n不大时,分布是偏倚的。但随着n的增大,分布逐渐趋于对称,如图4—9 所示;
2、当p值趋于0.5时,分布趋于对称,如图4—10所示;
3、对于固定的n及p,当k增加时,Pn(k)先随之增加并达到其极大值,以后又下降。
此外,在n较大,np、nq较接近时,二项分布接近于正态分布;当n→∞时,二项分布的极限分布是正态分布。
三、二项分布的概率计算及应用条件
【例4.9】 纯种白猪与纯种黑猪杂交,根据孟德尔遗传理论,子二代中白猪与黑猪的比率为3∶1。求窝产仔10头,有7头白猪的概率。
根据题意,n=10,p=3/4=0.75,q=1/4=0.25。设10头仔猪中白色的为x头,则x为服从二项分布B(10,0.75)的随机变量。于是窝产10头仔猪中有7头是白色的概率为:
【例4.10】 设在家畜中感染某种疾病的概率为20%,现有两种疫苗,用疫苗A 注射了15头家畜后无一感染,用疫苗B注射15头家畜后有1头感染。设各头家畜没有相互传染疾病的可能,问:应该如何评价这两种疫苗?
假设疫苗A完全无效,那么注射后的家畜感染的概率仍为20%,则15 头家畜中染病头数x=0的概率为
同理,如果疫苗B完全无效,则15头家畜中最多有1头感染的概率为
由计算可知,注射A疫苗无效的概率为0.0352,比B疫苗无效的概率0.1671小得多。因此,可以认为A疫苗是有效的,但不能认为B疫苗也是有效的。
【例4.11】 仔猪黄痢病在常规治疗下死亡率为20%,求5 头病猪治疗后死亡头数各可能值相应的概率。
设5头病猪中死亡头数为x,则x服从二项分布B(5,0.2),其所有可能取值为0,1,…,5,按(4-6)式计算概率用分布列表示如下:
0 1 2 3 4 5
0.3277 0.4096 0.2048 0.0512 0.0064 0.0003
从上面各例可看出二项分布的应用条件有三:(1)各观察单位只具有互相对立的一种结果,如阳性或阴性,生存或死亡等,属于二项分类资料;(2)已知发生某一结果(如死亡) 的概率为p,其对立结果的概率则为1-P=q,实际中要求p 是从大量观察中获得的比较稳定的数值;(3)n个观察单位的观察结果互相独立,即每个观察单位的观察结果不会影响到其它观察单位的观察结果。
四、二项分布的平均数与标准差
前面已经指出二项分布由两个参数n和p决定。统计学证明,服从二项分布B(n,p)的随机变量之平均数μ、标准差σ与参数n、p有如下关系:
当试验结果以事件A发生次数k表示时
μ=np (4-18)
σ= (4-19)
【例4.12】 求【例4.11】平均死亡猪数及死亡数的标准差。
以p=0.2,n=5代入 (4-18)和(4-19) 式得平均死亡猪数 μ=5×0.20=1.0(头)
标准差 σ== =0.894(头)
当试验结果以事件A发生的频率k/n表示时
(4-20)
= (4-21)
也称为总体百分数标准误,当p未知时,常以样本百分数来估计。此时(4-21) 式改写为:
Sp = (4-22)
称为样本百分数标准误。
第五节 波松分布
波松分布是一种可以用来描述和分析随机地发生在单位空间或时间里的稀有事件的概率分布。要观察到这类事件,样本含量n必须很大 。在生物、医学研究中,服从波松分布的随机变量是常见的。如,一定畜群中某种患病率很低的非传染性疾病患病数或死亡数,畜群中遗传的畸形怪胎数,每升饮水中大肠杆菌数,计数器小方格中血球数,单位空间中某些野生动物或昆虫数,医院门诊单位时间内就诊患者数等,都是服从波松分布的。
一、波松分布的意义
若随机变量x(x=k)只取零和正整数值0,1,2,…,且其概率分布为
,k=0,1,…… (4-23)
其中λ>0;e=2.7182…是自然对数的底数,则称x服从参数为λ的波松分布(Poisson's distribution),记为x~P(λ)。
波松分布作为一种离散型随机变量的概率分布有一个重要的特征,这就是它的平均数和方差相等,都等于常数λ,即μ=σ2=λ。利用这一特征,可以初步判断一个离散型随机变量是否服从波松分布。
【例4.13】 调查某种猪场闭锁育种群仔猪畸形数,共记录200窝,畸形仔猪数的分布情况如表4-3所示。试判断畸形仔猪数是否服从波松分布。
表4-3 畸形仔猪数统计分布每窝畸形数k
0
1
3
3
≥4
合计
窝 数 f
120
62
15
2
1
200
根据波松分布的平均数与方差相等这一特征,若畸形仔猪数服从波松分布,则由观察数据计算的平均数和方差就近于相等。样本均数和方差S2计算结果如下:
=Σfk/n=(120×0+62×1+15×2+2×3+1×4)/200=0.51-
=0.51,S2=0.52,这两个数是相当接近的,因此可以认为畸形仔猪数服从波松分布。
λ是波松分布所依赖的唯一参数。λ值愈小分布愈偏倚,随着λ的增大,分布趋于对称(如图4-11所示)。当λ=20时分布接近于正态分布;当λ=50时,可以认为波松分布呈正态分布。所以在实际工作中,当λ≥20时就可以用正态分布来近似地处理波松分布的问题。
二、波松分布的概率计算
由(4-23)式可知,波松分布的概率计算,依赖于参数λ的确定,只要参数λ确定了,把k=0,1,2,…代入(4-23)式即可求得各项的概率。 但是在大多数服从波松分布的实例中,分布参数λ往往是未知的,只能从所观察的随机样本中计算出相应的样本平均数作为λ的估计值,将其代替(4-23)式中的λ,计算出k=0,1,2,…时的各项概率。
如【例4.13】中已判断畸形仔猪数服从波松分布,并已算出样本平均数=0.51。将0.51代替公式(4-23)中的λ得:
(k=0,1,2,…)
因为e-0.51=1.6653,所以畸形仔猪数各项的概率为:
P(x=0)=0.510/(0!×1.6653)=0.6005
P(x=1)=0.511/(1!×1.6653)=0.3063
P(x=2)=0.512/(2!×1.6653)=0.0781
P(x=3)=0.513/(3!×1.6653)=0.0133
P(x=4)=0.514/(4!×1.6653)=0.0017
把上面各项概率乘以总观察窝数(N=200)即得各项按波松分布的理论窝数。 波松分布与相应的频率分布列于表4—7中。
表4—4 畸形仔猪数的波松分布
每窝畸形数 k
0
1
2
3
≥4
合计
窝 数
120
62
15
2
1
200
频 率
0.6000
0.3100
0.0750
0.0100
0.0050
1.00
概 率
0.6005
0.3063
0.0781
0.0133
0.0018
1.00
理论窝数
120.12
61.26
15.62
2.66
0.34
200
将实际计算得的频率与根据λ=0.51的泊松分布计算的概率相比较,发现畸形仔猪的频率分布与λ=0.51的波松分布是吻合得很好的。这进一步说明了畸形仔猪数是服从波松分布的。
【例4.14】 为监测饮用水的污染情况,现检验某社区每毫升饮用水中细菌数,共得400个记录如下:
1ml水中细菌数
0
1
2
≥3
合 计
次数f
243
120
31
6
400
试分析饮用水中细菌数的分布是否服从波松分布。若服从,按波松分布计算每毫升水中细菌数的概率及理论次数并将次数分布与波松分布作直观比较。
经计算得每毫升水中平均细菌数=0.500,方差S2=0.496。两者很接近,故可认为每毫升水中细菌数服从波松分布。以=0.500代替(4-23)式中的λ,得
(k=0,1,2…)
计算结果如表4—5所示。
表4—5 细菌数的波松分布
1ml水中细菌数
0
1
2
≥3
合 计
实际次数
243
120
31
6
400
频 率
0.6075
0.3000
0.0775
0.0150
1.00
概 率
0.6065
0.3033
0.0758
0.0144
1.00
理论次数
242.60
121.32
30.32
5.76
400
可见细菌数的频率分布与λ=0.5的波松分布是相当吻合的,进一步说明用波松分布描述单位容积(或面积)中细菌数的分布是适宜的。
应当注意,二项分布的应用条件也是波松分布的应用条件。比如二项分布要求n 次试验是相互独立的,这也是波松分布的要求。然而一些具有传染性的罕见疾病的发病数,因为首例发生之后可成为传染源,会影响到后续病例的发生,所以不符合波松分布的应用条件。对于在单位时间、单位面积或单位容积内,所观察的事物由于某些原因分布不随机时,如细菌在牛奶中成集落存在时,亦不呈波松分布。
前面讨论的三个重要的概率分布中,前一个属连续型随机变量的概率分布,后两个属离散型随机变量的概率分布。三者间的关系如下:
对于二项分布,在n→∞,p→0,且n p =λ(较小常数)情况下,二项分布趋于波松布。在这种场合,波松分布中的参数λ用二项分布的n p代之;在n→∞,p→0.5时,二项分布趋于正态分布。在这种场合,正态分布中的μ、σ2用二项分布的n p、n p q代之。在实际计算中,当p<0.1且n很大时,二项分布可由波松分布近似;当p>0.1且n很大时,二项分布可由正态分布近似。
对于波松分布,当λ→∞时,波松分布以正态分布为极限。在实际计算中,当λ≥20(也有人认为λ≥6)时,用波松分布中的λ代替正态分布中的μ及σ2,即可由后者对前者进行近似计算。
第六节 样本平均数的抽样分布
研究总体与从中抽取的样本之间的关系是统计学的中心内容。对这种关系的研究可从两方面着手,一是从总体到样本,这就是研究抽样分布(sampling distribution)的问题; 二是从样本到总体,这就是统计推断(statistical inference)问题。 统计推断是以总体分布和样本抽样分布的理论关系为基础的。为了能正确地利用样本去推断总体,并能正确地理解统计推断的结论,须对样本的抽样分布有所了解。
我们知道,由总体中随机地抽取若干个体组成样本,即使每次抽取的样本含量相等,其统计量(如,S)也将随样本的不同而有所不同,因而样本统计量也是随机变量,也有其概率分布。我们把统计量的概率分布称为抽样分布。本节仅就样本平均数的抽样分布加以讨论。
一、样本平均数抽样分布
由总体随机抽样(random sampling)的方法可分为有返置抽样和不返置抽样两种。 前者指每次抽出一个个体后,这个个体应返置回原总体;后者指每次抽出的个体不返置回原总体。对于无限总体,返置与否都可保证各个体被抽到的机会相等。对于有限总体,就应该采取返置抽样,否则各个体被抽到的机会就不相等。
设有一个总体,总体平均数为μ,方差为σ2,总体中各变数为x,将此总体称为原总体。现从这个总体中随机抽取含量为n的样本,样本平均数记为。可以设想,从原总体中可抽出很多甚至无穷多个含量为n的样本。由这些样本算得的平均数有大有小,不尽相同,与原总体平均数μ相比往往表现出不同程度的差异。这种差异是由随机抽样造成的,称为抽样误差(sampling error)。显然,样本平均数也是一个随机变量,其概率分布叫做样本平均数的抽样分布。由样本平均数构成的总体称为样本平均数的抽样总体,其平均数和标准差分别记为和。是样本平均数抽样总体的标准差,简称标准误(standard error),它表示平均数抽样误差的大小。统计学上已证明总体的两个参数与x 总体的两个参数有如下关系:
=μ, (4—24)
为了验证这个结论及了解平均数抽样总体与原总体概率分布间的关系,我们进行一个模拟抽样试验。
设有一个N=4的有限总体,变数为2、3、3、4。根据μ=Σx/N和σ2=Σ(x-μ)2/N求得该总体的μ、σ2、σ为:
μ=3,σ2=1/2,σ= =0.707
从有限总体作返置随机抽样,所有可能的样本数为个,其中n为样本含量。以上述总体而论,如果从中抽取n=2的样本,共可得42=16个样本;如果样本含量n为4,则一共可抽得44=256个样本。分别求这些样本的平均数,其次数分布如表4—6所示。
根据表4—6,在n=2的试验中,样本平均数抽样总体的平均数、方差与标准差分别为:
=4/16=1/4=(1/2)/2=
表4—6 N=4,n=2和n=4时的次数分布
==16
==256
f
f
2.0
1
2.0
4.00
2.00
1
2.00
4.0000
2.5
4
10.0
25.00
2.25
8
18.00
40.5000
3.0
6
18.0
54.00
2.50
28
70.00
175.0000
3.5
4
14.0
49.00
2.75
56
154.00
423.5000
4.0
1
4.0
16.00
3.00
70
210.00
630.0000
3.25
56
182.00
591.5000
3.50
28
98.00
343.0000
3.75
8
30.00
112.5000
4.00
1
4.00
16.0000
Σ
16
48.0
148.00
Σ
256
768.00
2336.0000
同理,可得n=4时:
这就验证了=μ, 的正确性。
若将表4—6中两个样本平均数的抽样总体作次数分布图,则如图4-12所示。
由以上模拟抽样试验可以看出,虽然原总体并非正态分布,但从中随机抽取样本,即使样本含量很小(n=2,n=4),样本平均数的分布却趋向于正态分布形式。随着样本含量n的增大,样本平均数的分布愈来愈从不连续趋向于连续的正态分布。比较图4—12两个分布,在n由2增到4时,这种趋势表现得相当明显。当n>30时,的分布就近似正态分布了。x变量与变量概率分布间的关系可由下列两个定理说明:
1,若随机变量x服从正态分布N(μ,σ2),,,…,是由x总体得来的随机样本,则统计量=Σx/n的概率分布也是正态分布,且有=μ,,即服从正态分布N(μ,σ2/n)。
2,若随机变量x服从平均数是μ,方差是σ2的分布(不是正态分布);,,…,是由此总体得来的随机样本,则统计量=Σx/n的概率分布,当n相当大时逼近正态分布N(μ,σ2/n)。这就是中心极限定理。
上述两个结果保证了样本平均数的抽样分布服从或者逼近正态分布。
中心极限定理告诉我们:不论x变量是连续型还是离散型,也无论x服从何种分布,一般只要n>30,就可认为的分布是正态的。若x的分布不很偏倚,在n>20时,的分布就近似于正态分布了。这就是为什么正态分布较之其它分布应用更为广泛的原因。
二、标 准 误
标准误(平均数抽样总体的标准差) 的大小反映样本平均数的抽样误差的大小,即精确性的高低。标准误大,说明各样本平均数间差异程度大,样本平均数的精确性低。反之,小,说明间的差异程度小,样本平均数的精确性高。的大小与原总体的标准差σ成正比,与样本含量n的平方根成反比。从某特定总体抽样,因为σ是一常数,所以只有增大样本含量才能降低样本平均数的抽样误差。
在实际工作中,总体标准差σ往往是未知的,因而无法求得。此时,可用样本标准差S估计σ。于是,以 估计。记 为,称作样本标准误或均数标准误。样本标准误是平均数抽样误差的估计值。若样本中各观测值为,,…,,则
(4-25)
应当注意,样本标准差与样本标准误是既有联系又有区别的两个统计量,(4—25) 式已表明了二者的联系。二者的区别在于:样本标准差S是反映样本中各观测值,,…,变异程度大小的一个指标,它的大小说明了对该样本代表性的强弱。样本标准误是样本平均数的标准差,它是抽样误差的估计值,其大小说明了样本间变异程度的大小及精确性的高低。
对于大样本资料,常将样本标准差S与样本平均数配合使用,记为±S,用以说明所考察性状或指标的优良性与稳定性。对于小样本资料,常将样本标准误与样本平均数 配合使用,记为±,用以表示所考察性状或指标的优良性与抽样误差的大小。
第七节 t 分 布
由样本平均数抽样分布的性质知道,若x~N(μ,σ2),则~N(μ,σ2/n)。 将随机变量标准化得:,则u~N(0,1)。 当总体标准差σ未知时,以样本标准差S代替σ所得到的统计量记为t。在计算时,由于采用S来代替σ,使得t 变量不再服从标准正态分布,而是服从t分布(t-distribution)。它的概率分布密度函数如下:
(4-26)
式中,t的取值范围是(-∞,+∞);df=n-1为自由度。
t分布的平均数和标准差为:
μt=0 (df>1), (df>2) (4-27)
t分布密度曲线如图4-13所示,其特点是:
1、t分布受自由度的制约,每一个自由度都有一条t分布密度曲线。
2、t分布密度曲线以纵轴为对称轴,左右对称,且在t=0时,分布密度函数取得最大值。
3、与标准正态分布曲线相比,t分布曲线顶部略低,两尾部稍高而平。df越小这种趋势越明显。df越大,t分布越趋近于标准正态分布。当n >30时,t分布与标准正态分布的区别很小;n >100时,t分布基本与标准正态分布相同;n→∞时,t 分布与标准正态分布完全一致。
t分布的概率分布函数为:
(4-28)
因而t在区间(t1,+∞)取值的概率——右尾概率为1-F t (df)。由于t分布左右对称,t在区间(-∞,-t1)取值的概率也为1-F t (df)。于是t分布曲线下由-∞到- t 1和由t 1到+∞两个相等的概率之和——两尾概率为2(1-F t (df))。对于不同自由度下t分布的两尾概率及其对应的临界t值已编制成附表3,即t分布表。该表第一列为自由度df,表头为两尾概率值,表中数字即为临界t值。
例如,当df=15时,查附表3得两尾概率等于0.05的临界t值为 =2.131,其意义是:P(-∞<t<-2.131)= P(2.131<t<+∞)=0.025;P(-∞<t<-2.131)+ P(2.131<t<+∞)=0.05。
由附表3可知,当df一定时,概率P越大,临界t值越小;概率P越小,临界t值越大。 当概率P一定时,随着df的增加,临界t值在减小,当df=∞时,临界t值与标准正态分布的临界u值相等。
习 题
1、什么是随机试验?它具有那三个特征?
2、什么是必然事件、不可能事件、随机事件?
3、概率的统计定义及古典定义分别是什么? 事件的概率具有那些基本性质?
4、什么是小概率事件实际不可能性原理?
5、袋中有10只乒乓球,分别编浩为1到10,从中随机抽取3只记录其编号。
(1) 求最小的号码为5的概率;(1/12)
(2) 求最大的号码为5的概率;(1/20)
6、现有6只雏鸡,其中4只是雌的,2只是雄的,从中抽取两次,每次取一只,在返回抽样情况下求:
(1)取到的两只雏鸡都是雌性的概率;
(2)取到的两只雏鸡性别相同的概率;
(3)取到的两只雏鸡至少有一只是雌性的概率;
[ (1) 0.444; (2) 0.556; (3) 0.889]
7、假设每个人的血清中含有肝炎病毒的概率为0.4%,混和100个人的血清,求此血清中含有肝炎病毒的概率。你认为计算结果会告诉我们一个什么事实?(0.33)
8、离散型随机变量概率分布与连续型随机变量概率分布有何区别?
9、什么是正态分布?标准正态分布?正态分布的密度曲线有何特点?
10、已知随机变量u服从N(0,1),求P(u<-1.4),P(u≥1.49),P(|u|≥2.58),P(-1.21≤u<0.45),并作图示意。(0.0792,0.06811,0.00988,0.5605)
11、已知随机变量u服从N(0,1),求下列各式的。
(1) P(u<-)+P(u≥)=0.1;0.52
(2) P(-≤u<)=0.42;0.95
[(1)1.644854,0.643345;(2)0.553385,1.959964]]
12、猪血红蛋白含量x服从正态分布N(12.86,1.332)
(1) 求猪血红蛋白含量x在11.53—14.19范围内的概率。
(2) 若P(x<)=0.025,P(x>)=0.025,求,。
[(1)0.6826,(2)=10.25,=15.47]
13、设x变量服从正态分布,总体平均数μ=10,P(x≥12)=0.1056,试求x在区间6—16内取值的概率。(0.914948)
14、什么是二项分布?如何计算二项分布的平均数、方差和标准差?
15、已知随机变量x服从二项分布B(100,0.1),求μ及σ。(10,3)
16、记录表明,10头家畜已有3头死于某种疾病,现有5头病畜,试求以下情况的概率:
⑴ 恰有3头死亡; (1323/10000)
⑵ 前面3头死亡,后2头康复; (1323/100000)
⑶ 前面3头死亡; (27/1000)
⑷ 死亡3头以上。 (1539/50000)
17、已知随机变量x服从二项分布B(10,0.6),求P(2≤x≤6),P(x≥7),P(x<3)。
(0.61605,0.38228,0.01229)
18、什么是波松分布?其平均数、方差有何特征?
19、已知随机变量x服从波松分布P(4),求P(x=1),P(x=2),P(x≥4)。
(0.0733,0.1465,0.5665)
20、某种疾病的死亡率为0.005。试问在患有此病的360个病例中,(a)有3例或3例以上死亡的概率;(b)恰有3例死亡的概率。 (0.269,0.160)
21、验收某大批货物时,规定在到货的1000件样品中次品不多于10件时方能接受。如果说整批货物的次品率为0.5%,试求拒收这批货物的概率。(0.014)
22、什么是标准误?标准误与标准差有何联系与区别?
23、样本平均数抽样总体与原始总体的两个参数间有何联系?
24、t分布与标准正态分布有何区别与联系?