第四章 理论分布与抽样分布
第一节 事件和概率的基本概念事件我们把试验作为一个广泛的术语,包括科学试验、调查和观察。例如抛一枚硬币观察落地后哪一面向上和在一袋种子中取出一粒测定其能否发芽等都可看做是一次试验。显然这样的试验可以在相同的条件下重复进行,每次试验可能的结果有多个。
1、随机事件:把一次试验所有可能的结果都称为事件。
一次试验中必然要发生的结果称为必然事件。
一次试验必然不发生的结果称为不可能事件。
一次试验中可能发生也可能不发生的结果则称为随机事件。
虽然在一次试验中随机事件能否出现很难预料,但如果多次重复同一试验,随机事件的出现与否却是有规律的。
2、互斥事件:如果事件A和事件B不同时发生,称A和B互斥事件。
3、对立事件:事件A和事件B是互斥的,但必发生其中一,就称事件B为事件A的对立事件,记B为。
4、独立事件:事件A与事件B的发生与否各自彼此无关,称事件A与事件B是相互独立的。
例:如同时播下两粒种子,第一粒种子的发芽与否与第二粒种子是否发芽是无关的,因此这两粒种子的发芽与否是相互独立的。
概率
1、随机事件的发生规律必须通过大量的试验观察才能得到。试验次数与随机事件A发生次数的比值称为事件A的频率(frequency)。表4.1是一批棉花种子发芽试验的结果,从中可以看出随着种子粒数(试验次数)的增加,发芽的频率稳定在0.60左右。
频率的稳定性揭示了随机事件发生的规律性。频率稳定在较大数值表明该事件发生的可能性较大,稳定在较小数值表明该事件发生的可能性较小。我们定义:设事件A在n次试验中出现了m次,随着n的增加事件A出现的频率所稳定趋近的数值p为事件概记为P(A)=p (4.1)
由于频率总是介于0和1之间,因此概率也必然介于0和1之间,即0≤p≤1。
许多情况下p很难准确获得。通常以n充分大时事件A出现的频率作为它的概率的估计值,即 (4.2)
例如表4.1棉花种子发芽的概率(发芽率)可用n为500时的频率来估计,即。、通过频率计算估计的概率称为统计概率或经验概率。
2、另一些情况下p可以准确求出。第一种情况是试验可能的结果数是有限的,且每一种结果的出现是互斥和等可能的。此时,
p= P(A)=
事件A包含的结果数
(4.3)
试验所有可能的结果数
例如,在0,1,……,9中随机抽取一个数字有10种可能的结果,每个数字被抽取的机会相等且互斥。设A为抽取的数字≤3,则它包含了0,1,2和3四种结果,因此。这样计算求得的概率称为古典概率。
3、另一种情况是根据已知的概率分布理论来计算概率,这样求得的概率称为理论概率。本章后面有关二项分布和正态分布的概率计算均属此类。
概率的计算法则互斥事件的概率法则(加法定理)
如果事件A和事件B互斥,概率各为P(A)和P(B),那么它们的和事件的概率为:
P(A+B)=P(A)+P(B) (4.5)
2、对立事件的概率法则如果事件A的概率为P(A),那么其对立事件的概率为:
P()=1-P(A) (4.6)
对立事件的概率法则乘法定理随机事件A和B的积事件的概率为
P(AB)=P(A)P(B/A) (4.7)
其中P(B/A)称为条件概率,意为在事件A已发生的条件下事件B发生的概率。
特殊地,如果A和B相互独立,那么B的发生与否与A无关,即P(B/A) =P(B),所以,
P(AB)=P(A)P(B) (4.8)
概率的加法定理和乘法定理都适用于多个随机事件的概率计算。
1〕一口袋中装有6个球,其中红球2个,白球4个。从口袋中随机取球2次,每次取1个。考虑两种情况:(1)第一次取球观其颜色后放回袋中,这叫放回抽样;(2)第一次取球后不放回袋中,这叫不放回抽样。试就这两种情况分别求2个都是白球和至少有1个白球的概率。
本题属古典概率计算。设A为第一次是白球,B为第二次是白球。2次都是白球是A和B的积,至少有1个白球是A和B的和。第一次取球有6种等可能且互斥的结果,其中4种是白球,因此,

对于放回抽样,第二次取球与第一次无关,结果与第一次一样,所以

对于不放回抽样,在第一次已取得白球的条件下,第二次有5种等可能且互斥的取法,其中3种是白球,所以

第二节 随机变数及其分布
随机变数许多试验的结果用数值来表示,例如人的身高和作物的产量等,但重复试验得到的数值不完全相同,也就是说试验结果不是一个确定的数值而是一个变数(variable)。每次试验中此变数到底是多少受偶然因素的影响,不能事先确定。这种随偶然因素而变化的变数称为随机变数(random variable)。在试验之前随机变数是一个不确定的量,有许多可能的取值。但在试验中只有其中的一个可能取值得到了实现。这种实现了的取值称为观察值(observed value),观察值是一个确定的数值。
有些试验的结果本身不是数值,但可将其数量化后用数值来表示,因此也是随机变数。例如,一粒种子的发芽试验有发芽和不发芽两种可能的结果,如用1代表发芽,0代表不发芽,试验结果就是一个有0和1两种可能取值的随机变数。
如果随机变数只有有限个可能的取值,并在试验中以确定的概率来取这些数值,就称它为间断性(internal)随机变数。质量性状和计数的数量性状的试验结果常常是间断性随机变数。如果随机变数可能的取值充满一个区间,并且试验结果落在任意区间内的概率是确定的,就称它为连续性(continuous)随机变数。计量性状的试验结果通常是连续性随机变数。
随机变数的概率分布随机变数可能的取值或取值区间的概率反映了随机变数的统计规律性,称为概率分布(probability distribution)。间断性随机变数一般用概率分布列来表示这种规律性。设随机变数X可能的取值为x1,x2,……,xk,每个取值对应的概率P(X=xi)为p1,p2,……,pk,其概率分布列见表4.2。其中F(xi)=P(X≤xi)称间断性随机变数的概率累积函数。
表4.2 间断性随机变数的概率分布列
XI
x1
x2
……
xk
P(X=xi)
p1
p2
……
pk
F(xi)
p1
p1+p2
……
1
连续性随机变数一般用概率密度函数f(x)和概率累积函数F(x)来表示其概率分布规律
 (4.9)
无论间断性还是连续性随机变数的概率累积函数都具有如下性质:
非降性 如果x1<x2,则
F(x1)≤F(x2) (4.10)
因为x不可能小于-∞,所以
F(-∞)=0 (4.11)
因为x必然小于∞,所以
F(∞)=1 (4.12)
随机变数的数字特征反映随机变数分布特点的特征数主要有数学期望和方差。
数学期望随机变数的数学期望(expectation)就是它的总体平均数,记为。对于间断性随机变数
 (4.13)
对于连续性随机变数
 (4.14)
随机变数的数学期望具有下列性质:
常数的数学期望等于常数本身,即
E(c)=c (4.15)
(2) 常数与随机变数乘积的数学期望为该常数与该随机变数数学期望的乘积
E(cX)= c E(X) (4.16)
随机变数之和的数学期望等于各自的数学期望之和,即
E(X+Y)=E(X)+E(Y) (4.17)
独立随机变数之积的数学期望等于各自的数学期望之积,即
E(XY)=E(X)E(Y) (4.18)
离均差的数学期望为零,即
 (4.19)
方差随机变数的方差记为。对于间断性随机变数
 (4.20)
对于连续性随机变数
 (4.21)
随机变数的方差具有如下性质:
常数的方差为零,即
D(c)=0 (4.22)
常数与随机变数之积的方差为
D(cX)=c2D(X) (4.23)
独立随机变数之和或差的方差等于各自的方差之和,即
D(X±Y)=D(X)+D(Y) (4.24)
2〕甲乙两工人一天中出现次品的概率分布列见表4.3。如两人的日产量相同,问谁的技术较好和谁的技术稳定?
表4.3 甲乙两人出现次品的概率分布列工人
甲
乙
xi
0
1
2
3
0
1
2
3
P(X=xi)
0.4
0.3
0.2
0.1
0.3
0.5
0.2
0
技术好坏和稳定与否可由出现次品的数学期望和方差来反映。对于甲和乙分别有
E(甲)=0.4×0+0.3×1+0.2×2+0.1×3=1
D(甲)=0.4×(0-1)2+0.3×(1-1)2+0.2×(2-1)2+0.1×(3-1)2=1
E(乙)=0.3×0+0.5×1+0.2×2+0×3=0.9
D(乙)=0.3×(0-0.9)2+0.5×(1-0.9)2+0.2×(2-0.9)2=0.49
据此得出的结论是乙的技术较好且稳定。
随机变数的数学期望和方差与样本的平均数和方差是不同的概念。前者是根据概率分布计算出来的理论值,与试验实际进行与否无关。后者是根据样本观察值计算出来的统计数,而观察值只有在试验之后才能得到。

第三节 二项分布
二项总体分布质量性状的试验研究中常见所有个体都可根据某事件的发生与不发生而分成两组的情况。例如在大豆花色遗传规律的研究中,所有植株都可根据开紫花还是白花(不开紫花)分为两组。又如在种子的发芽试验中,每粒种子都可根据发芽与否归入发芽或不发芽组。将这类试验的结果数量化,以种子发芽试验为例,设不发芽为0,发芽为1,那么每粒种子的试验结果可用一个只有0和1两个可能取值的间断性随机变数来表示。如果发芽的概率为p,不发芽与发芽对立其概率就是q=1-p,可用表4.4的概率分布列来表示。这种概率分布称为二项总体分布,又称(0,1)二点分布,因为随机变数X只有0和1两个可能的取值。
二项总体分布的数学期望和方差可如下计算。设总体里有N个个体,p为x=1的概率,q为x=0的概率,那么x=1组的理论发生次数应为pN,x=0组的理论发生次数应为qN。因此
 (4.25)
由于q=1-p,所以p是二项总体分布唯一的参数。
表4.4 二项总体的概率分布列 表4.5 种子发芽试验的概率分布列(一)
x
P(X=x)
P(X≤x)
x
P(X=x)
P(X≤x)
0
1
q=1-p
p
q
p+q=1
0
1
2
01
0.18
0.81
01
0.19
1.00
3〕以某试验地的5株蔬菜为总体调查蚜虫危害情况。令x=1代表受害,x=0代表未受害,5株的观察结果为0,1,0,1,0。试求危害率的数学期望和方差。
根据式(4.25)得

说明该试验地蚜虫的平均危害率为0.4,危害率变异的方差为0.24。此例也说明了二项总体的平均数为,方差为,标准差为。
二项分布的概率函数及计算仍以种子发芽试验为例,假定发芽的概率为0.9,每两粒种子为一组统计试验结果。因为每粒种子的发芽与否是相互独立的,所以两粒都不发芽的概率为0.1×0.1=0.01;一粒发芽一粒不发芽(含第一粒发芽第二粒不发芽和第一粒不发芽第二粒发芽两种情况)的概率为0.9×0.1+0.1×0.9=0.18;两粒种子都发芽的概率为0.9×0.9=0.81。以随机变数X代表发芽试验的结果,它有0,1和2三个可能的取值。上述试验结果可列成表4.5的概率分布列。
根据以上分析可以看出,如果以p代表事件A发生的概率且在每次重复试验中都相等,以q=1-p代表其对立事件发生的概率,那么在n次重复试验中事件A出现x次(x=1,2,……,n)的概率表达为概率函数的形式为
f (x) = (4.26)
其中是组合数。式(4.26)称为二项分布(binomial distribution)的概率函数,因为它正是二项式展开后含有px的项。由于p+q=1,所以

意为在n次试验中出现互斥事件x=0,x=1,……,x=n其中之一的概率为1。
4〕在一批发芽率为0.9的种子里取5粒进行发芽试验。以x为发芽粒数,试做出试验结果X的概率分布列。
已知n=5,p=0.9,q=1-0.9=0.1。根据式(4.26)得到如表4.6所示的概率分布列。
计算二项分布的各项概率也可以用递推公式。因为

两者的比值为

所以
 (4.27)
在上例中P(X=0)=0.000 01,用式(4.27)来求P(X=1)为
01=0.000 45
其余各项也可以依此计算。
也可以用图4.2来表示表4.6的概率分布列。从图中可以看出这是一个偏态的概率分布,因为其p≠q且n较小。如果p=q则二项分布是对称的,见图4.3。理论分析和实践结果都表明当n很大时,即使p≠q的二项分布其图形也接近对称,见图4.4。
[例4.5] 某玉米种子发芽率为0.6,今按设计株距穴播,若每穴播4粒,预计田间保苗率是多少?
首先考虑,这里的田间保苗率实际上是每穴有种子发芽的概率,这是一个和事件,可计算为
P(一穴中有种子发芽)= f (1) +f (2) +f (3) +f (4)
或利用完全事件系概率总和等于1的规律简化计算为
1 - f (0) =1-  = 0.9744
可知此时,田间预计保苗率为97.44% 。
泊松分布当n较大,p或q较小,np或nq≤5时,二项分布将为泊松分布(Poisson distribution)所接近。令m=np,则泊松分布的概率分布为
 (4.28)
其中e=2.718 28……是自然对数的底。当n较大时用(4.28)式计算P(X=x)比用(4.26)式简单得多,且有足够的精确度。表4.7给出了一个np=1的计算实例,可说明泊松分布对二项分布的接近程度。
如果试验次数很大,某事件出现的次数很小,那么此事件的出现次数将服从泊松分布。这类现象在农业科学研究中很多,如昆虫与植物种类在一定面积内的分布,病虫侵害作物的分布和溶液中微生物的分布等。
6〕设一批种子中不合格种子占0.005,从中抽取800粒,试求其中不合格种子恰有10粒和不多于5粒的概率。
因为n=800,p=0.005,np=4<5,所以可按泊松分布来计算。
292
132
后者也可以在泊松分布累积函数表中查出。
泊松分布的数学期望、方差和标准差为
 (4.29)
也就是说,泊松分布仅由一个参数m决定。
第四节 正态分布正态总体分布正态分布是连续性随机变数的概率分布形式之一,又称常态分布或高斯分布。许多社会和自然现象,特别是受众多因素影响的农业和生物科学中绝大多数现象都服从正态分布。理论研究还表明即使原数据不服从正态分布甚至是间断性随机变数,只要试验次数(样本容量)n足够大,其样本统计数例如平均数也趋于正态分布。
随机变数X服从正态分布记为X~N(μ,)。其中μ是正态分布的数学期望,是正态分布的方差,它们都是正态分布的参数。正态分布的概率密度函数为
 (4.30)
其图形称正态分布曲线,见图4.5。
正态分布的概率累积函数为
 (4.31)
其图形称正态累积曲线,见图4.6。
正态分布曲线有如下特性:
正态分布曲线以总体平均数μ为中心,向左右两侧对称分布。
正态分布曲线是一单峰曲线,总体平均数μ对应的概率密度最大,左右两侧离μ越远对应的概率密度越小。
总体平均数μ决定曲线的中心位置,标准差σ决定曲线的变化率。μ和σ不同的总体其正态分布曲线的位置和形状各异,因此正态分布曲线是以参数μ和σ的不同而变化的曲线系统。
正态分布曲线在μ±σ处有拐点,两尾向左右无限延伸,以横轴为渐近线,全距为-∞至∞。
5、无论μ和σ为多少,正态分布曲线与横轴间的总面积都等于1,意为随机变数X的取值位于-∞至∞之间的概率为1,即
 (4.32)
无论μ和σ为多少,随机变数的取值落在任意区间(a,b)的概率为直线x=a和x=b与正态分布曲线和横轴间的面积,即
 (4.33)
式(4.33)取开区间是因为连续性随机变数的概率分布中不存在取某个数值的概率。几个常用区间所对应的概率如下:
P(μ-σ<X<μ+σ)=0.682 6
P(μ-2σ<X<μ+2σ)=0.954 5
P(μ-3σ<X<μ+3σ)=0.997 3 (4.34)
P(μ-1.96σ<X<μ+1.96σ)=0.95
P(μ-2.58σ<X<μ+2.58σ)=0.99
可见标准差在正态分布中是一个重要的参数,任意区间以总体平均数加减若干个标准差的形式表示即可确定其对应的概率。
正态分布的标准化总体平均数μ=0,方差=1的正态分布称标准正态分布。
为了简化正态分布的概率计算,通常以一个新变数u代替X,将X离其平均数μ的差数以σ为单位进行标准化。即
 (4.35)
u称为正态离差,是一个服从标准正态分布的随机变数,记为u~N(0,1)。其概率密度函数为
 (4.36)
概率累积函数为
 (4.37)
F(ui)的定义参见图4.7,具体数值可以从本书的附表2中查得。
7〕计算正态离差的随机取值落在区间(-1,1),(-2,2)和(-3,3)的概率。
P(-1<u<1)=P(u<1)-P(u<-1)=F(1)-F(-1)
查附表2,F(1)=0.841 3,F(-1)=0.158 7。因此
P(-1<u<1)=0.841 3-0.158 7=0.682 6
同理
P(-2<u<2)=P(u<2)-P(u<-2)=F(2)-F(-2)
=0.977 3-0.022 8=0.954 5
P(-3<u<3)=P(u<3)-P(u<-3)=F(3)-F(-3)
=0.998 7-0.001 4=0.997 3
以上计算验证了式(4.34),参见图4.8。
 
图4.7 正态累积函数的图示 图4.8 区间(-1,1)、(-2,2)和(-3,3)的概率图示
正态分布的概率计算任意服从正态分布的随机变数X都可通过标准化变换为正态离差u来计算其落于任意区间的概率。
8〕假定X是一个随机变数,服从μ=30,σ=5的正态分布。试求其取值小于26,介于26和40之间和大于40的概率。
本例不是标准正态分布,须经标准化后才能求出落于各区间的概率。

查附表2:F(-0.8)=0.211 9

=F(2)-F(-0.8)=0.977 3-0.211 9= 0.765 4

=1-0.977 3=0.022 7
以上计算参见图4.9。

 
图4.9 〔例4.8〕的区间图示
在应用正态分布时,除了计算随机变数的取值落在一定区间的概率以外,有时还需要计算一定的概率所对应的随机变数的取值区间。这也必须通过标准化变换后根据累积概率函数求出。
9〕试求正态分布曲线对应中间概率为0.95和两尾概率为0.01时随机变数X的取值区间。
设对应中间概率为0.95的取值区间为(x1,x2),即P(x1<X<x2)=0.95。经标准化变换后

因为正态分布曲线左右对称,所以

查附表2,F(-1.96)=0.025,F(1.96)=0.975,于是有u1=-1.96,u2=1.96,即P(-1.96<u<1.96)=0.95,或P(|u|<1.96)=0.95。也即P(u-1.96σ<X<u+1.96σ)=0.95,或P(|X-μ|<1.96σ)= 0.95。
同理可得F(-2.58)=0.005,F(2.58)=0.995,于是有u1=-2.58,u2=2.58,即P(u <-2.58)+P(u>2.58)=0.01,或P(|u|>2.58)=0.01。也即P(X< u-2.58σ)+P(X>u+2.58σ)=0.01,或P(|X-μ|>2.58σ)=0.01。以上计算同样也验证了式(4.34),参见图4.10。
中间概率对应的随机变数的取值区间一般称为肯定区间,两尾或一尾概率对应的取值区间一般称为否定区间,肯定区间与否定区间的界限称为临界值。上述问题的实质在于计算中间概率P(|u|<)为1-α或两尾概率P(|u|>)为α时的临界值,也可利用正态离差表(附表3)很方便地查到。例如,查附表3中当α为0.05时,u0.05=1.959 964,即表示P(|u|<1.959 964)=0.95和P(|u|>1.959 964)=0.05;当α为0.01时,u0.01=2.575 829,表示P(|u|<2.575 829)=0.99和P(|u|>2.575 829)=0.01。
 
图4.10 中间概率和两尾概率的图示
有时需要计算一尾概率(左尾P(u<-)或右尾P(u>))的临界值,这也可利用附表3来查。因为正态分布是左右对称的,所以一尾的值等于附表3中两尾的值。例如,一尾概率为0.05时,u0.05等于附表3中两尾的u0.10=1.644 854;一尾概率为0.01时,u0.01等于附表3中两尾的u0.02=2.326 348。
第五节 抽样分布
统计学的一个主要任务是研究总体和样本间的关系,这种关系可以从两个方向进行研究。第一个方向是从总体到样本的方向,其目的是研究从总体中抽出的所有可能样本统计量的分布及其与原总体的关系。这就是本节所要讨论的抽样分布。第二个方向是从样本到总体的方向,即从总体中随机抽取样本,并用样本对总体参数作出推断。这就是将在第五章讨论的统计推断问题。抽样分布 (sampling distribution) 是统计推断的基础。
一、抽样分布总体参数与原总体参数的关系当我们从具有总体平均数为 μ,总体方差为的总体中随机抽样时,这一我们由之获得样本的总体称之为原总体。在生物学研究中,大多原总体为无限总体,在概率论的古典概型和讨论抽样技术的理论研究领域,经常针对有限总体进行讨论,在本节,我们专就原总体为无限总体的情况进行研究。当原总体为无限总体时抽样过程可以无限止地进行下去,这样,每一次抽样获得的样本统计数(如平均数、总和数等)也就可以构成以该选定的统计数为基本变数的新的无限总体,由于这一由抽样统计数构成的总体来自特定的原总体,因此,统计学上也将其称为原总体的衍生总体或抽样总体。
统计学的中心极限定理告诉我们,对具有总体平均数 μ,总体方差的任一总体,不管其是否服从正态分布,当从这总体中抽取样本的样本容量增大时,样本统计数的分布将趋近于正态分布,可以利用正态分布对其进行研究分析。基于正态分布在理论上和应用上的成熟程度,中心极限定理对抽样分布在统计应用中的重要性,给出了一个重要的说明。
下面我们就各种样本统计数对原总体与抽样总体两个总体参数之间的关系进行讨论。
由样本平均数构成的抽样总体,有
⑴ 抽样总体平均数等于原总体平均数。即:
 = (4.38)

这一推导过程引用了公式(4.16)、(4.17)以及我们人为编码的x1,x 2,…,x n 在随机抽样中具有相互独立的等同地位的认识。
⑵ 抽样总体方差等于原总体方差的1/(为样本容量)。即:
 (4.39A)

这一推导过程引用了公式(4.23)、(4.24)及我们人为编码的x1,x2,… xn在随机抽样中具有相互独立的等同地位的认识。
为了求出抽到一个样本其样本平均数大于或小于某一定值的概率,可对的分布进行标准化  (4.39B)
上式中的一般称为均数标准误

2.由样本总和数构成的抽样总体,有
(1)抽样总体平均数等于原总体平均数的n倍(n为样本容量)。
即  (4.40)
(2)抽样总体方差等于原总体方差的n倍(n为样本容量)。
即  (4.41)
(4.40)和(4.41)的证明与(4.38)、(4.39)同理。
3.如果从一个具有总体参数和的总体中以n1的样本容量随机抽样,同时从一个具有总体参数和的总体中以n2的样本容量随机抽样,这样每次抽样都可以得到两个样本平均数;由于抽样过程可以是无限的,所以由一系列样本平均数的差数可以构成一个来自于两原总体的抽样总体。
我们以和表示这一抽样总体的总体平均数和总体方差,则有
 (4.42)
和  (4.43A)

此推导过程源自公式(4.17)和(4.38)。

此推导过程源自公式(4.24)和(4.39)。
也可以对这个正态分布进行标准化  (4.43B)
其中称为均数差数标准误。
由于上述抽样分布研究的是一般的具有总体平均数和总体方差的任一总体,因此,当然全部适用于正态分布的抽样总体。
二、二项抽样分布总体参数与原总体参数的关系由前面介绍可知,二项分布总体仅有一个参数P(另一个参数q=1-p),其总体平均数与总体方差有不同于其它分布的表述形式。因此,这里对二项抽样分布总体参数与原总体参数的关系作一讨论。
1.二项成数(百分数)分布总体参数。
当我们对二项分布总体进行调查时,赋予调查性状个体数据“1”,并赋予其对立性状个体数据“0”。
在这一概念下,对二项样本调查所得的成数或百分数其本质是样本平均数。例如,当我们抽样调查玉米丝黑穗病的发病率,以10株为一个样本,得到的发病率P=0.4或40%时,这实际是下面计算的结果。

因此,依照前面所述的,抽样平均数总体参数与原总体参数的关系,可知这一成数(百分数)分布总体有
 (4.44)
 (4.45)
2.二项次数分布总体参数仿前面的分析、二项抽样结果以次数表达时,其本质是二项样本的样本总和数,因此,参照公式(4.40)和(4.41)可得到这一抽样总体参数与原总体参数的关系:
 (4.46)
 (4.47)
[例4.10] 棉田盲椿象为害棉株在田间可区分为受害株与未受害株,今在田间大量调查基础上得到田间受害株率的统计概率为,以此作为本地区盲椿象为害株率的概率估计值,试计算,当以100株为调查的样本容量时,此时,预期抽样成数分布的总体平均值与方差各是多少?抽样次数分布总体平均值与方差各是多少?
按公式(4.44)和(4.45),抽样成数有

按公式(4.46)和(4.47),抽样次数有

三、其它若干总体的抽样分布
1,分布在总体方差已知的正态总体中随机地抽取容量为n的样本,对各观察值x1,x 2,……,x n做标准化,得u1,u2,……,un,定义其平方和为,即
 (4.48)
服从自由度ν=n的分布。此分布的概率密度函数为
 (4.49)
其中是伽玛函数在处的值。分布的总体平均数和方差分别为
 (4.50)
因此,分布的图形是一组由自由度ν确定的曲线。当ν较小时曲线是不对称的,参见图4.11。
当自由度较大时曲线接近对称,而服从正态分布,其总体平均数和方差分别为
 (4.51)

图4.11 不同ν下的χ2分布曲线
由于样本方差

故有
 (4.52)
因此样本平方和与总体方差的比值服从自由度为ν=n-1的分布。
分布的概率累积函数F(i)为
 (4.53)
其右尾从临界值到∞的概率为
 (4.54)
参见图4.12。
 
图4.12 χ2分布的概率累积函数和右尾概率 图4.13 P(χ2>7.78)=0.10的图示
由于分布的曲线形状受自由度ν的制约,所以在ν不同时,同样的右尾概率值α对应的临界值是不相同的。附表4列出了各种自由度下分布的右尾概率为α时的临界值。例如,查附表4,当α=0.10和ν=4时,=7.78,意为P(>7.78)=0.10,简记为0.10,4=7.78,参见图4.13。
2,t分布如果u服从标准正态分布,服从自由度为ν的分布,那么
 (4.55)
服从自由度为ν的t分布。t分布也称学生氏分布,其概率密度函数为
 (4.56)
总体平均数和方差分别为
μt=0, (4.57)
t分布曲线是以μt=0为中心的对称单峰曲线,其形状与自由度ν有关。当ν较小时,t分布与标准正态分布相比峰顶要矮一些,两侧的尾部要高一些;当ν较大时,t分布与标准正态分布很接近;当ν趋于∞时,t分布就与标准正态分布完全重合了,参见图4.14。
 
图4.14 t分布曲线与标准正态分布曲线的比较
在一个总体平均数μ已知,总体方差未知的正态总体中随机地抽取容量为n的样本(n<30),在对其进行标准化时,由于总体方差未知而只能用自由度ν=n-1的样本方差s2来估计。于是有
 (4.58)
服从自由度为ν的t分布,其中称为样本标准误。
t分布的概率累积函数为
 (4.59)
因而t分布右尾从ti到∞的概率为
 (4.60)
由于t分布的对称性,故相应的两尾概率为
 (4.61)
生物统计中常用两尾概率为0.05的图形见图4.15,其中t0.05称为两尾概率为0.05的临界值。由于t分布受自由度ν的制约,ν不同时曲线形状也不同,所以t0.05不是固定的常数。附表5列出了各种自由度下t分布两尾概率为α时的临界值。由于t分布是对称的,所以表中的临界值为绝对值,不加正负号。例如,查附表5,当α=0.05和ν=10时,t0.05,10=2.228,即表明P(|t|>2.228)=0.05,参见图4.15。
附表5是两尾表,当需要应用一尾表时也可以从中查出。因为t分布是左右对称的,所以一尾的=两尾的。例如,当ν=10时,右尾概率为0.05的临界值t0.05,10等于两尾概率为0.10时的临界值t0.10,10=1.812,也即P(t>1.812)=0.05。同理,左尾的t0.05=-1.812,意为P(t<-1.812)=0.05,参见图4.16。
 
图4.15 ν=10时t分布两尾概率0.05的图示 图4.16 ν=10时t分布右尾概率0.05的图示
3,F分布如果1服从自由度为ν1的分布,2服从自由度为ν2的分布,那么
 (4.62)
服从第一自由度为ν1,第二自由度为ν2的F分布,其概率密度函数为
 (4.63)
F分布的曲线形状由第一自由度ν1和第二自由度ν2共同决定。当ν1和ν2都较小时,曲线严重不对称;当ν1和ν2都较大时,曲线呈偏态。F分布的取值区间为〔0,∞〕,参见图4.17。

图4.17 不同ν1和ν2下的F分布曲线
如果在一个正态总体中独立地随机抽取两个样本,其样本方差和自由度分别为s12,s22和ν1,ν2,那么
 (4.64)
因此,样本方差的比值服从第一自由度为ν1,第二自由度为ν2的F分布。
F分布的概率累积函数为
 (4.65)
因而右尾从Fi到∞的概率为
 (4.66)
参见图4.18。
由于F分布的曲线形状是由第一自由度ν1和第二自由度ν2共同决定的,所以当ν1和ν2不同时,同样的右尾概率值α所对应的临界值是不同的。附表6列出了当α=0.05和α=0.01时不同的ν1和ν2所对应的临界值。例如,查附表6,当ν1=8,ν2=20和α=0.05时,F8,20,0.05=2.45,即表示P(F>2.45)=0.05,参见图4.19。
 
图4.18 F分布的概率累积函数和右尾概率 图4.19 F0.05,8,20的图示
四、中心极限定理设X1,X2,……,Xn为相互独立的同分布随机变数,无论其属于哪种分布,只要E(X)=μ和D(X)=,则对于任意x有
 (4.67)
成立,称为中心极限定理。它说明只要n足够大,随机变数
 (4.68)
就近似地服从标准正态分布。u也可以改写为
 (4.69)
这说明只要n足够大,样本平均数就近似地服从正态分布,而不管其总体的分布如何。
例如,在μ=p,=pq的二项总体中随机抽样,只要符合表4.8中的条件,其样本平均数p就近似地服从正态分布,因此可按正态分布来处理。
表4.8 二项总体近似正态分布的抽样条件样本平均数p
0.5
0.4
0.3
0.2
0.1
0.05
样本容量n
30
50
80
200
600
1400
样本总和数np
15
20
24
40
60
70
中心极限定理奠定了正态分布及其抽样分布在生物统计学中的地位,绝大多数农业科学试验都采用基于正态分布理论的方法来设计和分析的原因即在于此。