第三章 统计推断
§3.1 统计学的基本概念。
前面两章中我们介绍了概率论的基本内容,包括古典概型的一些计算方法以及研究随机现象的有力工具——随机变量。从本章起,我们开始讨论统计学的核心内容,即如何从一些包含有随机误差,又并不完全的信息中得出科学的、尽可能正确的结论。在一般情况下,所谓信息就是从实验或调查中得到的数据,这些数据显然带有一些我们既无法控制、也无法避免的误差。换句话说,即使我们尽可能保持所有条件都不改变,当你把实验重做一遍时,所得到的结果总会或多或少有所不同,这就是随机误差的影响。至于信息的不完全性,这主要是因为在一般情况下我们不可能把所有感兴趣的东西都拿来进行测定。例如要研究中国人的体型或某种病的流行程度,我们不可能把全中国每个人都测量一番,或对每个人进行体检,只能是按照某种事先确定好实验方案挑选一些人进行体检或测量。再比如希望对一批产品是否合格作出判断时,常常也不能对每个产品均做检验,只能是抽查少数产品。在这些情况下,我们获得的信息显然是不够完整的。如何从这些不完整的信息出发,对我们感兴趣的事物整体作出尽可能正确的判断呢?这就是统计学要解决的主要问题。
一般来说,我们获得的信息所包含的不确定性,主要来自以下几个方面:(1)测量过程引入的随机误差;(2)取样随机性所带来的变化,即由于只取少数样品测量,那么取这一批样品的测量结果与取另外一批当然会有差别;(3)我们所关心的性质确实发生了某种变化。显然只有第三种改变才是我们所要检测的。统计学的任务就是在前两种干挠存在的情况下,对第三种改变是否存在给出一个科学的结论。
另外需要注意的一点是统计学是可能发生错误的。由于据以作出统计判断的信息是不完全的,有误差的,我们也就无法保证统计学结论是百分之一百地正确。这与它的科学性并不矛盾,我们所面对的就是这样一个并不完美的世界,我们对这个世界的认识也只能是一种相对正确的真理,我们只能在此基础上作出尽可能正确的结论。同时,统计学一般不仅给出结论,而且给出这一结论的可靠性,即它是正确的可能性有多大。这样,我们就可以对一旦犯错误所造成的损害进行某种控制。总之,对于需要从有误差的实验数据中得出结论的科学工作者来说,统计学是一种不可或缺的工具。
一、统计推断的两种途径:假设检验与参数估计
作出统计判断的主要工具就是假设检验。它的基本思路是这样的:首先,根据需要判断的目标建立一个统计假设,它的主要要求是一但我们对这一假设是否成立作出了结论,就应该能够对所要判断的目标作出明确的回答;其次,根据所建立的统计假设,利用统计学知识建立起一个理论分布,根据这一理论分布必须能计算出我们观察到的实验结果出现的可能性有多大;第三步,是算出实验结果出现的可能性后,把这可能性与人为规定的一个标准(一般取为0.05,称为显著性水平)进行比较,如果可能性大于这一标准,则认为统计假设很可能是对的,即接受统计假设;若可能性小于这一标准,说明在统计假设成立的条件下,观测到这一实验结果的可能性很小。一般来说,一个小概率事件在一次观测中是不应出现的,而现在它竟然出现了,一个合理的解释就是它实际上不是一个小概率事件,我们把它当作一个小概率事件是因为我们的统计假设不对,因此所算出来的它出现的概率也不对。在这种情况下,我们就应拒绝统计假设。这样,我们就根据实验结果对统计假设是否成立作出了判断,从而也对我们要解决的目标作出了明确的回答。根据统计假设的类型,我们可以把假设检验进一步分为参数检验和非参数检验。
统计的另一个重要功能就是作出参数估计。在实践中,我们常常希望对某些参数给出估计值,例如农作物的产量,产品的合格率或使用寿命,人群中某种疾病的发病率,等等。统计学也可根据抽样结果对这一类问题作出回答。答案一般有两种类型,一种是给出该参数可能性最大的取值,这叫做点估计;另一种是给出一个区间,并给出指定参数落入这一区间的概率,这叫做区间估计。参数估计与假设检验所依据的统计学理论其实是一样的,它们的区别只是以不同形式给出结果而已。本章主要介绍统计推断的一般原理及对总体均值和方差进行统计推断的方法。
二、统计学常用术语:
个体:可以单独观测和研究的一个物体,一定量的材料或服务。也指表示上述物体,材料或服务的一个定量或定性的特性值。
总体:一个统计问题中所涉及的个体的全体。
特性:所考查的定性或定量的性质或指标。
总体分布:当个体理解为定量特性值时,总体中的每一个个体可看成是某一确定的随机变量的一个观测值,称这个随机变量的分布为总体分布。
样本:按一定程序从总体中抽取的一组(一个或多个)个体。
样本量:样本中所包含的个体数目。
观测值:作为一次观测结果而确定的特性值。
统计量:样本观测值的函数,它不依赖于未知参数。例如:
样本均值:
样本方差:
样本协方差:
样本k阶原点矩:
样本k阶中心矩:
分位数:对随机变量X,满足条件P(X≤xp)≥p的最小实数xp称为X或其分布的P分位数。
几点说明:
1°对每次观察来说,样本是确定的一组数。但在不同的观察中,它会取不同的值。因此作为一个整体,应把样本视为随机变量,也有自己的分布。样本全部可能值的集合称为样本空间。
2°样本的任何函数,只要不含有未知参数,都可称为统计量。例如都是统计量,而不是统计量,因为μ,σ是总体参数,一般是未知数。构造统计量的目的是把样本中我们关心的信息集中起来以便加以检验,因此针对不同的问题需要构造不同的统计量。
3°为了使样本能真正反映总体的特性,我们要求它有代表性和随机性。即要求样本中的每个个体都具有与总体相同的分布,且每个个体相互独立。这样的样本称为简单随机样本。有限总体无放回抽样的样本不是相互独立的。但若总体个数N很大,且样本含量n<0.1N,则可近似认为是简单随机样本。
三、抽样分布
前已述及,统计检验过程中要构造统计量把样本中我们关心的信息集中起来,以便加以检验;而这种检验主要是通过计算统计量取到观测值的可能性大小,并把这种可能性与指定标准(即显著性水平)比较来进行的。为了计算这种可能性,我们就需要知道统计量所服从的理论分布。由于这些理论分布的推导需要较多的数学知识,同时它们的分布函数和密度函数的数学表达式也很复杂,对于生物系的同学来说,掌握推导过程和这些表达式也没有什么实际用途,因此本书略去了这一部分,有兴趣的同学可参考概率论或数理统计的教科书,例如复旦大学编写的教材《概率论》。
下面我们就介绍一些常用统计量的理论分布。如无特别说明,假设所有样本均抽自正态总体。
样本线性函数的分布:
若X1,X2,……Xn为一简单随机样本,其总体分布为N(μ,σ2), 统计量u为:
u=a1X1+a2X2+…+anXn ,
其中a1,a2,…,an 为常数,则u也为正态随机变量,且
(3.1)
显然若取ai=, i=1,2,…,n,则u=为样本均值。此时。
2. χ2分布:
设X1,X2…Xn相互独立,且同服从N(0,1),则称随机变量
(3.2)
所服从的分布为χ2分布,记为Y~χ2(n), n称为它的自由度。
3. t分布:
设X~N(0,1),Y~χ2(n),且X,Y互相独立,则称随机变量
(3.3)
所服从的分布为t分布,记为T~t(n)。n称为它的自由度。
4. F分布
设X~χ2(m),Y~χ2(n),且互相独立,则称随机变量
(3.4)
所服从的分布为F分布,记为F~F(m,n), (m,n)称为它的自由度。
5. 正态总体样本均值与方差的分布。
这一定理及它的推论构成了本章主要内容的理论基础。
定理:若X1,X2…Xn为抽自总体N(μ,σ2)的简单随机样本,定义样本均值为:,样本方差为:,则有:
(1)与S2相互独立;
(2)~N() (3.5)
(3)(n-1)S2/σ2~χ2 (n-1)。 (3.6)
推论1:统计量
(3.7)
推论2:若X1,X2,…,Xm为取自总体N的样本,Y1,Y2…Yn为取自总体N()的样本,且它们互相独立,则:
(3.8)
其中S12, S22 分别为X1,…,Xm,Y1,…,Yn的样本方差。
推论3:在推论2的条件下,若σ1=σ2,则:
(3.9)
几点说明:
1°有些书上样本方差定义为:
我们的定义为:
这是因为可证明E(S2)=σ2,而E()=。
2°E(S2)=σ2,但E(S)≠σ。这可用反证法证明如下:
若E(S)=σ,由方差定义,有:
D(S)=E(S2)-(E(S))2 =σ2 -σ2 = 0
这意味着S是一个常量,永不改变。这显然不可能。所以假设E(S)=σ不成立。
3°(3.3)式和(3.7)式中的n有不同的统计学意义。(3.3)式中的n是Y的自由度,而(3.7)式中S2表达式已将它的自由度n-1除掉了,此地除以是因为S2是总体方差估计值,而的方差为总体方差的1/n倍,因此使用(3.7)式才能将标准化。
§3.2 假设检验的基本方法与两种类型的错误
现在我们从一道例题入手,看看假设检验的基本做法和其中所涉及的一些理论性问题。
例3.1 某地区10年前普查时,13岁男孩子平均身高为1.51m,现抽查200个12.5岁到13.5岁男孩,身高平均值为1.53m,标准差0.073m,问10年来该地区男孩身高是否有明显增长?
分析:从题目知10年前总体均值μ1=1.51m。现在抽取200个个体,得样本均值m,样本标准差S=0.073m。现在总体均值μ未知。题目要求判断μ>μ1是否成立。
解决方法:先假设μ=μ1=1.51m。再看从这样一个总体中抽出一个n=200, ,S=0.073的样本的可能性有多大?如果这可能性很大,我们只能认为μ与μ1差别不大,即μ=μ1很可能成立。反之若可能性很小,则说明在假设μ=μ1成立的条件下,抽出这样一个样本的事件是一个小概率事件。小概率事件在一次观察中是不应发生的,但它现在发生了,一个合理的解释就是它本不是小概率事件,是我们把概率算错了。而算错的原因就是我们在一开始就做了一个错误的假设μ=μ1。换句话说,此时我们应该认为μ>μ1,即男孩身高有明显增长。这就是假设检验的基本思路。
按这一思路解题,首先需要明确以下几个问题:
1°假设的建立。
零假设:记为H0,针对要考查的内容提出。本例中可为:H0: μ=151。它通常为一个数值,或一个半开半闭区间(例如可能为H0:u≤151)。原则为:a)通过统计检验决定接受或拒绝H0后,可对问题作出明确回答;b)要能根据H0建立统计量的理论分布。
备择假设:记为HA,是除H0外的一切可能值的集合。这里强调一切可能值是因为检验只能判断H0是否成立,若不成立则必须是HA。HA通常是一个区间。例如当H0取为 μ=151时,HA应取为μ≠151。此时若有理由认为μ>151或μ<151不可能出现,也可只取HA为可能出现的一半,即μ<151或μ>151,这样可提高检验精度(原因参见单侧与双侧检验)。当H0取为μ≥151或μ≤151时,HA则应相应取为μ<151或μ>151。原则为:a)应包括除H0外的一切可能值;b)如有可能,应缩小备择假设范围以提高检验精度。
2°小概率原理:小概率事件在一次观察中不应出现。这是一切统计检验的理论基础。
注意:小概率事件不是不可能事件。观察次数多了,它迟早会出现。因此“一次”这个词是重要的。
3°两种类型的错误:统计量是随机变量,它的取值受随机误差等因素的影响,是可以变化的。我们根据它作出的决定也完全可能犯错误。这一点无法绝对避免。统计上犯的错误可分为以下两类:
第一类错误:H0正确,却被拒绝。又称弃真。犯这种错误的概率记为α。
第二类错误:H0错误,却被接受。又称存伪。犯这种错误的概率记为β。
两类错误的关系可用图3.1说明:
I II
μ0 uα μ1
图3.1 两类错误及其关系
设所检验的参数为总体均值,统计量服从正态分布,单侧检验。
μ0:H0中的参数值;μ1:总体参数真值;uα:查表所得分位数。
若H0正确,即μ0=μ1,图中两曲线应重合为曲线I。由于统计量u>uα时我们拒绝H0,因此犯第一类错误的概率α=P(u>uα), 即图中uα竖线右边阴影部分面积。若H0错误,即μ0≠μ1,统计量u的真正密度函数曲线为II。由于u<uα时我们接受H0,所以犯第二类错误的概率β=P(u<uα),为uα线左侧曲线II下的面积。
从图中可见:
α与uα是一一对应的。α也称为显著水平,因为它也可理解为真值与H0中值的差异达到什么水平才拒绝H0。
若μ0与μ1位置不变,uα右移,则α减小,β加大;若uα左移,则α增大,β减小。因此应根据犯了两类错误后的危害大小来选取适当的α值。
β不仅依赖于uα,也依赖于。若很小,则即使α不小,β也会迅速增大。即若μ0与μ1差异不大,则弄假成真的可能就很大。但由于μ1接近μ0,犯了第二类错误也关系不大。
d) 若已确定,又希望同时减小α和β,则只能增加样本含量n。此时由于统计量的方差减小,曲线变尖,因此α,β可同时减小。
4°单侧与双侧检验
单侧检验:拒绝域为μ>151(或μ<151)。
-uα/2 uα/2 uα
双侧 单侧
双侧检验:拒绝域为μ≠151。
图3.2 双侧与单侧检验
双侧检验时拒绝域分为两块,但阴影部分总面积是与单侧检验相同的,因此,从而使β增大(参见3°)。这样在α相同时,单侧检验的β值小于双侧检验, 即单侧检验优于双侧检验。这是因为我们使用了额外的知识排除了一种可能性。
5°显著性水平的选择。
α的选择有很大任意性。选择的主要依据是犯了两类错误后的危害性大小。例如,若问题为药品出厂检验,H0:合格,HA:不合格。第一类错误为实际合格,判为不合格,药厂承受经济损失;第二类错误为实际不合格,判为合格,出厂后可能引起严重的索赔问题。权衡利弊,第二类错误危害大。因此应取较大的α,以减小β。反之,若检验对象是钮扣,则即使有些废品率稍高的产品进入市场也不会有多大关系,而报废一批产品损失就很大,因此应减小α。
α的常用值为:0.05, 0.01。个别情况下使用0.1。
§3.3 正态总体的假设检验
本节开始介绍对正态总体进行假设检验的具体方法。从正态分布的密度函数可知,正态总体只有两个参数,这就是期望μ和方差σ2。因此我们的检验主要也是针对这两个参数进行。
本节只讨论两种类型的假设检验,那就是单样本检验和双样本检验。所谓单样本检验就是全部样品都抽自一个总体,检验的目的通常是μ或σ是否等于某一数值;双样本检验则是有分别抽自不同总体的两个样本,检验的目的是看这两个总体的μ或σ是否相等。双样本检验的最大优点是我们不必知道总体的参数究竟应该等于什么数值,而只要看看它是否有变化就可以了。在生物学实验中我们常常采取设置对照的方法,如检验某种药物是否比安慰剂有更好的疗效;或新品种农作物是否比旧品种产量更高等等,此时都应该采用双样本检验的方法。如果我们需要考虑三个以上总体,则应采用第四章介绍的方差分析的方法。
单样本检验步骤
1°建立假设,包括H0与HA。
一般来说,H0取值有三种可能:μ=μ0,μ≤μ0,或μ≥μ0。这里μ0是一个具体数值。注意H0的表达式中必须包含等号,因为我们实际上就是根据这个等号建立理论分布的。μ0数值的确定一般有三种可能的来源:a)凭经验我们知道μ0应等于多少;b)根据某种理论可以计算出μ0应等于多少;c)实际问题要求它等于多少,例如市场要求产品寿命不得小于1000小时等。至于H0中是否包含大于或小于号则主要看实际问题的要求。
对应于H0的三种可能取值,HA也有相应三种:μ≠μ0,μ<μ0,或μ>μ0。当H0取为μ=μ0,但我们由专业知识可知μ>μ0,或μ<μ0中有一种不可能出现时,也可选择另一种为HA。此时也相当于单侧检验。注意HA应包括除H0外的一切可能值。在有专业知识可依据的情况下,应优先选取单侧检验,因为这样可提高检验精度。需要强调的是选择单尾的依据必须来自数据以外的专业知识或实践要求,而不能来自数据本身。换句话说,不能看数据偏大就取上单尾检验,偏小就取下单尾检验。这是因为即使观测数据偏大,它们也可能来自一个均值偏小的总体。
2°选择显著性水平α。
α最常用的数值是0.05。当我们计算出统计量的观测值出现的概率大于0.05时,我们称之为“没有显著差异”,并接受H0;当小于0.05时,我们称之为“差异显著”,并拒绝H0。一般情况下,此时我们应进一步与0.01比较,若算出的概率也小于0.01,则称“差异极显著”,此时我们拒绝H0就有了更大把握。在个别情况下,例如犯第二类错误后后果十分严重时,也可选用0.1或其他数值。需要特别强调的是我们一般都取α=0.05,这只是一种约定俗成,理论上并没有任何特殊意义。从这个角度看,当我们算出的概率等于0.051时就接受H0,等于0.049时就拒绝H0,这是没有什么道理的。在实际工作中,如果我们算出的概率十分接近0.05,一般不应轻易下结论,而应增加样本含量后再次进行检验。
3°选择统计量及其分布。
检验均值一般选择为统计量,检验方差则选择S2为统计量。统计量服从什么分布则要由§3.1中的抽样分布来决定。各种情况下的统计量理论分布如下:
检验均值:可根据是否知道总体方差分为以下两种情况:
总体方差σ2已知:根据§3.1(3.5)式应使用u检验,统计量服从正态分布。
(3.10)
注意这里分母上要除以,这是因为σ是总体标准差,统计量的标准差应为总体标准差的,因此用上述公式才能将标准化。
b) 总体方差σ2未知:根据§3.1(3.7)式,应使用t检验,统计量服从t分布。
~t(n-1) (3.11)
注意这里分母上除以的原因与u检验相同,n不是S2的自由度。S2的自由度n-1已在它的表达式中除去了。参见§3.1最后的说明。
检验方差:根据§3.1(3.6)式,使用(2检验,统计量服从(2分布。
(3.12)
上述各式中为样本均值,S2为样本方差,n为样本容量,μ0与为H0中总体均值与方差取值。
4°建立拒绝域。
根据统计假设确定是单侧检验还是双侧检验,根据统计量的分布选取适当的表,再根据选定的α值查出分位数取值,从而建立拒绝域。注意正态分布和t分布的密度函数关于y轴对称,如果是双侧检验可取绝对值与分位数比;如果是单侧检验则应区分下单尾是小于负分位数拒绝H0,上单尾则是大于正分位数拒绝H0。(2分布则没有对称性,必须分别查下侧分位数和上侧分位数。
5°计算统计量,并对结果作出解释。
把样本观测值代入统计量公式,求得统计量取值,检查是否落入拒绝域。若没落入则认为“无显著差异”,接受H0;若落入α=0.05的拒绝域,则应进一步与α=0.01的拒绝域比较,若未落入,则认为“有显著差异,但未达极显著水平”,拒绝H0;若也落入α=0.01拒绝域,则认为“有极显著差异”,拒绝H0。最后,根据上述检验结果对原问题作出明确回答。
例3.1 某地区10年前普查时,13岁男孩平均身高为1.51m。现抽查200个12.5岁至13.5岁男孩,身高平均值为1.53m,标准差S=0.073m,问10年来该地区男孩身高是否有明显增长?
解:分析:由于生活水平提高,孩子身高只会增加,不会减少。同时,题目也是问身高是否有增长,因此可用单侧检验。
H0:μ=151;HA:μ>151
查表,得df=199, α=0.05的t单侧分位数为:t0.95(199)≈t0.95(180)=1.653;α=0.01的单侧分位数为:t0.99(199)≈t0.99(180)= 2.347
t > t0.99 ,∴有极显著差异,拒绝H0,即:应认为10年来该地区男孩高有明显增长。
当分布表中不能找到恰好相同的自由度时,可选取表中最接近的值代替,也可以取接近的几个值进行插值计算得出近似值。
例3.2 已知某种玉米平均穗重μ0=300g,标准差σ=9.5g,喷药后,随机抽取9个果穗,重量分别为(单位为g):308,305,311,298,315,300,321, 294,320。问这种药对果穗重量是否有影响?
解法1:先检验方差是否变化,再决定是采用U检验还是T检验。
1°检验穗重标准差是否改变:
H0:σ=9.5; HA:σ≠9.5
取α=0.05,查df=8的χ2分布表,得:
,∴ 无显著差异,接受H0,可认为喷药不影响穗重标准差,σ仍为9.5。因此可采用u检验。
2°检验穗重均值是否有变化:
H0:μ=300; HA:μ≠300
查正态分布表,得:U0.975=1.96, U0.995=2.58。U > U0.975,但U < U0.995,∴差异显著,但未达极显著水平,应拒绝H0,可认为药物对穗重有影响。
解法2:直接使用T检验:
H0:μ=300; HA:μ≠300
查t分布表,得:t0.975(8) = 2.306, t0.995(8) = 5.841, ∴t0.975 <t < t0.995, 差异显著,但未达极显著水平,拒绝H0,药物对果穗重量有影响。
这道题虽然两种解法结果都是差异显著但未达极显著,但比较它们的分位数可知,u检验统计量已接近极显著水平,而t检验则是接近显著水平。这说明两种解法间还是有一定差异的。这样就马上引出一个问题:哪种解法更好?如果它们的结果不同,应采用哪一种?
这个问题问得很简洁,也很直截了当,但却没有一个同样简洁,同样直截了当的回答。仔细看一下t分布的分位数表,就可以发现正态分布其实就是t分布自由度趋于∞的极限。再比较一下u检验和t检验的表达式,可见它们的差异就是用总体标准差σ还是用样本标准差S作分母。t分布的分位数比正态分布大,说明t检验不如u检验精确,原因就是t检验中的S是根据一个小样本估计的,它本身也有误差;而u检验中的σ是已知的总体参数,它是准确的,不再包含任何其他误差了。考虑到S中误差的影响,t检验的精度确实会有所下降,因此它的分位数才会比正态分布大,而且自由度越小与正态分布的差别就越大。从上述讨论看,解法1似乎优于解法2,但实际情况却不那么简单。上述讨论的前提是喷药后果穗重量的方差确实没有改变,因此我们才有一个现成的σ可以用。这一点并不是由什么专业知识来判断,而是解法1中第一步检验的结果。在本题中,这似乎问题不大,因为χ2统计量几乎是在两个分位数构成的接受域的中点,说明方差可能确实没有改变;但如果情况不是这样,而是χ2统计量接近于某个分位数,我们又该如何判断呢?此时若我们仍用方法1,虽然u检验比较精确,但它的基础却有点不可靠,因为统计检验的原则就是一般情况下都接受H0,只有差异实在是相当显著,无法忽略了才拒绝。这样虽然χ2检验通过了,但实际情况很可能是方差有所改变,只是变得不大而已。如果这是真的,那就相当于在u检验中引入了一个额外误差,大大降低了它的可靠性。
总结上述的讨论,关于这两种方法哪种好的回答应当是:如果象本题这样σ2没有改变的可能性很大,最好用第一种方法;如果χ2检验就拒绝了H0,即σ2已有改变,那当然应用第二种方法;如果介于这二者之间,即χ2检验的统计量接近某一侧分位数,那就不太好说了,理论上使用哪种方法都可以,都不能说错,不过我自己倾向于使用第二种方法。
二、双样本检验步骤
双样本检验步骤与单样本基本相同。只是H0中的μ=μ0要改为μ1=μ2,即现在不再是检验总体参数是否等于某一数值,而是检验两个总体参数是否相等。再有就是统计量和分布都有所变化。下面我们着重介绍统计量及分布的变化,相同或变化不大的部分,如建立统计假设、选择显著性水平、建立拒绝域、计算统计量并解释结果等不再重复。
统计量的选择方法如下:
检验两个方差是否相等:F检验。在H0: σ1=σ2成立的条件下,根据§3.1的(3.8)式,有:
(3.13)
其中分别为两样本子样方差,m, n分别为样本含量。
请注意以下几点:
1°在多数情况下,我们检验的主要目标是均值是否相等。但除非两总体方差已知,否则F检验为双样本检验中的第一步,应根据这一步检验的结果来选择下一步t检验的统计量。
2°检验方差是否相等的F检验一般为双侧检验,原因是我们常常可根据专业知识或实际要求判断均值应向大或小某一方向偏,而很少有机会能对方差作出类似的判断。
3°F分布表上一般只有上侧分位数,即F > 1的临界值。因此计算F统计量时应把较大的S2放在分子位置,并相应地把它的自由度也放在前边。这样只需要用上侧分位数就够了。若是双侧检验查,单侧查。注意表中分子分母自由度的位置,分子分母自由度颠倒后F的分位数值是不同的。
检验两个均值是否相等:可分为以下三种情况:
两总体方差已知:u检验。根据正态分布性质,有:
在H0:μ1=μ2成立的条件下,上式化为:
(3.14)
两总体方差未知,但它们相等(相当于第一步F检验已通过的情况):t检验。在H0:μ1=μ2成立的条件下,根据(3.9)式,有:
(3.15)
n = m时,可简化为:
(3.16)
两总体方差未知,且不等(相当于第一步F检验未通过的情况):近似t检验。
此时上述统计量不再严格服从t分布,只能采用近似公式。最常用的为Aspin-Welch检验法。即统计量
(3.17)
近似服从t分布,其自由度为:
df = , 其中 。
例3.3 两发酵法生产青毒素的工厂,其产品收率的方差分别为,现甲工厂测得25个数据,,乙工厂测得30个数据,,问它们的收率是否相同?
解:分析:由于方差已知,应采用 u检验。根据题意,应进行双侧检验。
H0: μx=μy; HA:μx≠μy
查正态分布表,得:u0.975=1.960 > u。∴ 差异不显著,接受H0,应认为两工厂收率相同。
例3.4 新旧两个小麦品系进行对比试验,旧品系共收获25个小区,平均产量为,样本标准差S1=2.77kg; 新品系收获20个小区,平均产量=40.35kg, S2=1.56kg,问新品系是否值得推广?
解:由于方差未知,为了选择统计量首先须检验方差是否相等:
查F分布表,得:F0.975(24, 19)=2.45, F0.995(24, 19)=2.92;F > F0.995,∴差异极显著,拒绝H0,两总体方差不相等。
再检验均值是否相等:由于方差不等,应使用近似t检验,且新品系必须优于旧品系才值得推广,因此应进行单侧检验。
再求t的自由度:
查表:t0.05(39) ≈ t0.05(40) = -1.684
t0.01(39) ≈ t0.01(40) = -2.423
t < t0.01, ∴差异极显著,拒绝H0,新品系平均产量明显高于旧品系,值得推广。
例3.5 用两种不同的配合饲料饲养肉鸡,56日龄后体重分别为(单位:kg):
饲料A:2.56, 2.73, 3.05, 2.87, 2.46, 2.93, 2.41, 2.58, 2.89, 2.76;
饲料B:3.12, 3.03, 2.86, 2.53, 2.79, 2.80, 2.96, 2.68, 2.89。
问这二种饲料效果是否有差异?
解:代入公式后,得:,Sx=0.2147,ni=10; , SY=0.1791, n2=9
检验方差是否相等:H0:σx=σy; HA:σx≠σy
查表,得F0.975(9, 8) = 4.357 > F, ∴接受H0,可认为方差相等。
检验均值是否相等:
H0:μx=μy; HA:μx≠μy
查表,得t0.975(17) = 2.110 > t, ∴接受H0,两种饲料效果无明显差异。
三、配对数据检验步骤
以上介绍的双样本检验又称为成组数据检验,两个样本间是相互独立的。有时为提高检验准确度,把试验材料分成一些对子,每对材料各种条件尽可能一致,然后分别作不同处理,以检验处理的效果。这样的数据称为配对数据。例如:同一个人服药前后的数据,同一窝动物的不同处理,同样体重、性别、年龄的一对对动物,等等。此时的检验方法为取每对材料测量值的差为统计对象,进行单样本检验。即:令di = x1i – x2i, i = 1, 2, … n, 然后对di作单样本检验。H0取为μd = 0。配对法与成组法的比较:
由于
所以有:
其中为差值的子样方差, 分别为每对中作第一处理与第二处理材料的测量值的子样方差, 是两种处理测量值的子样协方差,r是它们的相关系数。
显然若r > 0,则有,即差值的方差小于两组数据方差的和,此时采用配对检验可提高检验精度;反之若r < 0,则有,即差值的方差反而大于两组数据方差的和,此时采用配对检验会降低检验精度。因此采用配对检验时必须保证各对数据的正相关性。
需要特别注意的是我们实际要求的是总体间的正相关性,这就意味着要求我们可以从专业知识保证这一点。例如同一个人服药前后的某种指标测量值,精心挑选的一对对各方面都尽量相同的实验动物,等等;要末就要经过相关性检验,证实总体相关系数ρ确实大于0。因此,如果实验设计时未做任何特殊考虑,只是两样本含量相等,那么即使计算出的样本相关系数r > 0也不能轻易使用配对检验,因为此时r > 0完全可能是个偶然事件。
例3.6 10名病人服药前后血红蛋白含量如下:
病人号
1
2
3
4
5
6
7
8
9
10
服药前(x)
11.3
15.0
15.0
13.5
12.8
10.0
11.0
12.0
13.0
12.3
服药后(y)
14.0
13.8
14.0
13.5
13.5
12.0
14.7
11.4
13.8
12.0
d = (x-y)
-2.7
1.2
1.0
0
-0.7
-2.0
-3.7
0.6
-0.8
0.3
问该药是否引起血红蛋白含量变化?
分析:由于是同一名病人服药前后的血红蛋白含量测定值,它们应是正相关的。因此应使用配对检验。题目中未说明是何药物,也未说明这种药物的作用是增加血红蛋白含量还是减低含量,因此只能做双侧检验。
解:算得
H0:μd = 0; HA:μd≠ 0
查表,得t0.975(9) = 2.262
∵ (9), ∴接受H0,该药对血红蛋白含量无明显影响。
一般来说,若测量的数据是同一病人服药前后的变化,则数据都应是正相关,也就都可以采用配对法进行统计检验。但有时也会有例外的情况,例如现在有些药物特别是一些中药常常号称能调节血压或血脂等指标。如果这是真的,那就意味着血压或血脂低的病人服药后升高,而高的服后会降低。若病人中原来偏高偏低的都有,则服药后的数据就不应是正相关,也就不能采用配对法检验了。如果待测药物真有这样的调节作用,显然就应把病人按偏低偏高分为两组分别检验,只有这样才能确定药物是否有效。当然另一种可能的检验方法是检验服药后血压或血脂值的方差是否缩小。如果效果真是低的升高高的降低,显然服药后测量值的方差应减小。注意此时应要求病人中偏高偏低的都要有。总之,希望同学们要抓住各种检验方法所要求的核心条件(例如配对检验最关键的就是要求数据正相关), 然后结合所研究的具体问题进行细致的分析,这样才能保证正确地使用统计学这一有力工具。如果只是记住象“同一人服药前后就应配对检验”这一类例子而生搬硬套,很可能就会由于误用方法而得不到正确结论。
四、百分数的检验
实际工作中常常碰到这样一些问题:检验两批种子发芽率是否相同;检验两种杀虫剂造成的死亡率是否相同;检验两批产品合格率是否相同,等等。这一类问题的数学背景是相同的,实际都是检验两点分布总体中概率p是否相同。在生物学实验中,象发芽率,死亡率等常不难得到大样本,对这一类大样本我们可以进行如下的近似检验。
前已证明,对两点分布来说,E(x) = p, D(x) = pq。若从两个总体中各抽取容量为n1, n2的样本,其中有指定特性的个数为x1, x2, 则有:(见§3.4例3.9)。现欲检验H0: p1 = p2。
由于实际是样本均值,若n1, n2足够大,则由中心极限定理,它们均应近似服从正态分布。若H0成立,它们总体的期望方差都相等,实际可视为同一总体。因此有
近似服从N,且。因此在大样本下有统计量
(3.18)
近似服从N(0,1)。
例3.7 杀虫剂A在600头虫子中杀死465头,杀虫剂B在500头中杀死374头,问它们的效果是否相同?
解:设p为死亡率。H0: PA= PB; HA: PA≠PB
∵ , ∴差异不显著,接受H0,两种杀虫剂效果相同。
§3.4 参量估计
本节中我们进一步介绍对总体分布中某些重要参数进行统计估计的方法。参数估计的方法主要适用于我们知道总体分布的类型,但其中一个或几个重要参数未知的情况。这样,只要我们通过抽取样本得到了这几个参数的估计值,也就确定了总体的分布。例如血球计数或水样中细菌计数,我们知道它的分布应是泊松分布,因此问题就是要通过样本确定其参数λ;再比如我们要研究某一人群的身高,一般来说身高服从正态分布,因此我们就需要从样本中确定两个参数μ和σ2。当然也有些情况我们对总体究竟服从什么分布不感兴趣,只要知道它的一两个重要参数如均值,方差就可以了,此时当然也可使用参数估计。
参数估计主要可分为两种,一种叫点估计,也就是利用样本构造一个统计量,用它来作为总体参数的估计值。这样,只要测定了一组样本的取值,代入统计量公式中就可得到总体参数的估计值。另一种方法叫区间估计,它是给出一个取值范围,并给出我们所关心的总体参数落入这一范围中的概率。这一取值范围就称为置信区间,而总体参数落入这一区间中的概率称为置信水平。区间估计与上一节的假设检验有密切的关系。
点估计:用统计量对总体参数进行估计。
1. 估计量所需满足的条件:
为进行参数估计所构造的统计量也可称为估计量。显然为了估计同一个参数我们可能构造出许多各不相同的估计量,例如估计平均数,就可能有算术平均,几何平均,加权平均,调和平均……等许多算法。为了能从其中选出一种应用,我们必须对估计量建立一些评价的标准,这样才能说我们的选择是有道理的。这种标准主要有以下几个:
1°无偏性。即要求估计量的数学期望应等于所求的总体参数。
2°有效性。当样本含量n相同时,方差小的估计量称为更有效。
3°一致性。设Tn(x1, x2, …xn)为参数θ的估计量,若对任意ε> 0, 有
,
则称Tn为θ的一致估计量。
前两条标准都容易理解,第三条标准实际是说随着样本含量n的增大,绝大多数Tn都要离θ越来越近,剩下的不以θ为极限的Tn可以忽略不计(因为其出现概率为0)。有时还会提出第4条标准,那就是均方误差要小。均方误差就是估计量对真值的偏离程度,定义为:E(Tn-θ)2。一般来说,在所有标准下都表现最优的估计量是很少的,常常是在这个标准下这个估计量好,在另一个标准下又是另一个估计量好。就拿前边介绍过的以估计μ,以S2估计σ2来说,它们在前三条标准下都是最优的,但S2的均方误差就大于估计量,而Sn2又不是无偏估计(见§3.1)。
2.点估计常用方法:矩估计与最大似然估计。
a) 矩估计:在§2.4中,我们曾介绍过随机变量的K阶原点矩定义为:。在§3.1中,又介绍过样本的K阶原点矩为:,这样得到一个样本x1,x2,…xn后就可以计算各个ak。一个自然的想法就是我们可以用ak来估计mk,从而可得到各参数的估计值。这种方法就称为矩估计。具体方法为:如果我们知道随机变量的分布类型,那末就可把视为参数θ1,θ2,…θr的函数。设有r个要估计的参数,我们用前r阶样本原点矩作为相应的总体原点矩的估计值,则有:
(3.19)
这样就得到了r个方程组成一个方程组,它的解就可以作为所求的r个总体参数的估计值。以上是对连续型分布进行推导,如果是离散型分布,只需将积分换为求和即可。另外,上述推导使用的是原点矩,全部换成中心矩也是可以的。这种方法就称为矩法。所得估计值称为矩估计值。
例3.8设总体X的期望μ和方差σ2存在,X1,X2,…Xn为从这总体中抽取的简单随机样本,求μ和σ2的矩估计值。
解:由于μ就是总体的一阶原点矩,显然有:
由方差的性质,有:
σ2 = E(X2)-[E(X)]2 = m2-μ2。∴ m2=σ2+μ2。
根据矩法,有:
,
即:
把的表达式代入,得:
∴ 总体期望的矩估计值为,方差的矩估计值为。
例3.9 设x1, x2, …xn为抽自均匀分布
的简单随机子样,试求θ1,θ2的矩估计。
解:由原点矩定义,有:
令分别代表子样一,二阶原点矩。由矩法,有:
解上述方程组,由(1): (3)
把(3)代入(2):
注意 ,则有:
即: (4)
把(4)代入(3):
由题意, 且Sn > 0,
∴ 矩法估计值为:
区间长度的估计值为:
b) 极大似然估计。
所谓“极大似然”,从字面上看,应该是“看起来最像”“最可能”之类的意思。那么,从数学上又是怎样来定义这个极大似然估计呢?我们可以这样分析:
设总体X的分布密度为f (X, θ),其中θ是需要估计的未知参数。对于从这个总体中抽取的样本X1, X2,… Xn来说,f (xi, θ)代表了样本中一个子样取值为xi的相对可能性。定义函数:
L(x1 , x2 ,… xn ;θ)= f (x1 ,θ) f (x2 ,θ) … f (xn ,θ)
称为样本似然函数,显然它是x1 , x2 ,… xn和θ的函数。对于一组固定的样本观测值x1 , x2 ,… xn来说,L就变成了θ的函数。这样一组观测值最可能来自哪个总体呢?显然可能来自那个能使L取值达到最大的总体,即选取这样的一个作为θ的估计值,它所决定的总体分布使我们所观察到的这组样本取值x1 , x2 ,… xn出现的可能性达到极大。这就是极大似然估计的基本思想。
要选择使L达到极大的θ在数学上不难做到,这样的θ一定会满足方程
(3.21)
自然对数Ln(x)是x的单调函数,这就保证了LnL(θ)的极大值一定也是L(θ)的极大值。由于L是连乘的形式,取对数后就变成了相加,有时会简化计算。因此求θ的极大似然估计常常可求解下述似然方程:
(3.22)
如果要估计的参数不只一个,例如r个,则似然方程变为如下的方程组:
(3.23)
它的解就是我们所要求的极大似然估计。
以上讨论是针对连续型分布,若为离散分布需解决求L(θ)极大值的问题,因为离散型可能不能微分。但从整体上说,只要能求出L(θ)的极大值,极大似然估计的思想就仍可用。
例3.90 取n粒种子作发芽试验,其中有m粒发芽,求发芽率p的极大似然估计。
解:每粒种子发芽与否可视为两点分布:
发芽,则 X=1, 其概率为 p
不发芽,则 X=0, 其概率为1-p
由似然函数的构造,有:
L(p)=P(X=x1, p)·P(X=x2, p)…P(X=xn, p)
由于共有m粒发芽,(n-m)粒不发芽,∴ L(p)=pm(1-p)n-m
令上式等于0,由于,有:
即:发芽率p的极大似然估计为
例3.11 设x1 ,x2 ,… xn是取自正态总体N(μ,σ2)的简单随机子样,μ与σ2是未知参数,求μ和σ的极大似然估计。
解:由于
故有似然函数
取对数,有:
∴ 似然方程为:
由(1)解得:
代入(2),得:
即:μ和σ2的极大似然估计分别为和。
例3.12 设x1 , x2 , … xn为抽自均匀分布
的简单随机子样,求θ1,θ2的极大似然估计。
解:此时每个取值为xi之点的概率密度函数均为,因此似然函数为:
其中θ1,θ2的取值范围为:
显然当θ1,θ2取任何有限值时,都不可能使L(θ1,θ2)的导数为0,这说明L(θ1,θ2),没有数学意义上的极值。但同样明显的是,θ2越小,θ1越大,则L(θ1,θ2)的值也就越大。由于它们的取值范围为,,因此在它们可能的取值范围内当时,L(θ1,θ2)有最大值。这也就是θ1,θ2的极大似然估计。
从这几道例题可见,当我们采用不同的估计方法时,有时能得到相同的估计量(如正态分布的μ,σ2的估计),有时得到不同的估计量(如均匀分布中θ1,θ2的估计)。总的来说,矩估计是一种古老的方法,它使用较方便,但当样本含量n较大时,它的估计精度一般不如极大似然估计高。极大似然估计法则较新,在大样本的情况下,极大似然估计量一般是一致的,而且是有效的。因此从理论上看极大似然估计优于矩法估计。常用的点估计除已介绍的几种外,还有标记一重捕法中以来估计N等(N:种群总数;M:标记个体数;n:重捕数; m:重捕样本中有标记个体数)。