第五章 t检验
前面讲了样本平均数抽样分布的问题。抽样研究的目的是用样本信息来推断总体特征。所谓统计推断是根据样本和假定模型对总体作出的以概率形式表述的推断,它主要包括假设检验(test of hypothesis)和参数估计(parametric estimation)二个内容。由一个样本平均数可以对总体平均数作出估计,但样本平均数包含有抽样误差,用包含有抽样误差的样本平均数来推断总体,其结论并不是绝对正确的。因而要对样本平均数进行统计假设检验。
假设检验又叫显著性检验(test of significance),是统计学中一个很重要的内容。显著性检验的方法很多,常用的有t检验、F检验和(2检验等。尽管这些检验方法的用途及使用条件不同,但其检验的基本原理是相同的。本章以两个平均数的差异显著性检验为例来阐明显著检验的原理,介绍几种t检验的方法,然后介绍总体参数的区间估计(interval estimation)。
显著性检验的基本原理
一、显著性检验的意义
为了便于理解,我们结合一个具体例子来说明显著性检验的意义。随机抽测10头长白猪和10头大白猪经产母猪的产仔数,资料如下:
长白:11,11,9,12,10,13,13,8,10,13
大白:8,11,12,10,9,8,8,9,10,7
经计算,得长白猪10头经产母猪产仔平均数=11头,标准差S1=1.76头;大白猪10头经产母猪产仔平均数=9.2头,标准差S2=1.549头。能否仅凭这两个平均数的差值-=1.8头,立即得出长白与大白两品种经产母猪产仔数不同的结论呢?统计学认为,这样得出的结论是不可靠的。这是因为如果我们再分别随机抽测10头长白猪和10头大白猪经产母猪的产仔数,又可得到两个样本资料。由于抽样误差的随机性,两样本平均数就不一定是11头和9.2头,其差值也不一定是1.8头。造成这种差异可能有两种原因,一是品种造成的差异,即是长白猪与大白猪本质不同所致,另一可能是试验误差(或抽样误差)。对两个样本进行比较时,必须判断样本间差异是抽样误差造成的,还是本质不同引起的。如何区分两类性质的差异?怎样通过样本来推断总体?这正是显著性检验要解决的问题。
两个总体间的差异如何比较?一种方法是研究整个总体,即由总体中的所有个体数据计算出总体参数进行比较。这种研究整个总体的方法是很准确的,但常常是不可能进行的,因为总体往往是无限总体,或者是包含个体很多的有限总体。因此,不得不采用另一种方法,即研究样本,通过样本研究其所代表的总体。例如,设长白猪经产母猪产仔数的总体平均数为,大白猪经产母猪产仔数的总体平均数为,试验研究的目的,就是要给、是否相同做出推断。由于总体平均数 、未知,在进行显著性检验时只能以样本平均数 、作为检验对象,更确切地说,是以(-)作为检验对象。
为什么以样本平均数作为检验对象呢?这是因为样本平均数具有下述特征:
1、离均差的平方和∑(-)2最小。说明样本平均数与样本各个观测值最接近,平均数是资料的代表数。
2、样本平均数是总体平均数的无偏估计值,即E()=μ。
3、根据统计学中心极限定理,样本平均数服从或逼近正态分布。
所以,以样本平均数作为检验对象,由两个样本平均数差异的大小去推断样本所属总体平均数是否相同是有其依据的。
由上所述,一方面我们有依据由样本平均数和的差异来推断总体平均数 、相同与否,另一方面又不能仅据样本平均数表面上的差异直接作出结论,其根本原因在于试验误差(或抽样误差)的不可避免性。若对样本观测值的数据结构作一简单剖析,就可更清楚地看到这一点。
通过试验测定得到的每个观测值,既由被测个体所属总体的特征决定,又受个体差异和诸多无法控制的随机因素的影响。所以观测值由两部分组成,即=+。总体平均数反映了总体特征,表示误差。若样本含量为,则可得到个观测值:,,,。于是样本平均数===+。说明样本平均数并非总体平均数,它还包含试验误差的成分。
对于接受不同处理的两个样本来说,则有:=+, =+。
这说明两个样本平均数之差(-)也包括了两部分:一部分是两个总体平均数的差(-),叫做试验的处理效应(treatment effect);另一部分是试验误差(-)。也就是说样本平均数的差(-)包含有试验误差,它只是试验的表面效应。因此,仅凭(-)就对总体平均数、是否相同下结论是不可靠的。只有通过显著性检验才能从(-)中提取结论。对(-)进行显著性检验就是要分析:试验的表面效应(-)主要由处理效应(-)引起的,还是主要由试验误差所造成。虽然处理效应(-)未知,但试验的表面效应是可以计算的,借助数理统计方法可以对试验误差作出估计。所以,可从试验的表面效应与试验误差的权衡比较中间接地推断处理效应是否存在,这就是显著性检验的基本思想。
为了通过样本对其所在的总体作出符合实际的推断,要求合理进行试验设计,准确地进行试验与观察记载,尽量降低试验误差,避免系统误差,使样本尽可能代表总体。只有从正确、完整而又足够的资料中才能获得可靠的结论。若资料中包含有较大的试验误差与系统误差,有许多遗漏、缺失甚至错误,再好的统计方法也无济于事。因此,收集到正确、完整而又足够的资料是通过显著性检验获得可靠结论的基本前提。
二、显著性检验的基本步骤
仍以前面所举实例说明显著性检验的基本步骤。
(一)首先对试验样本所在的总体作假设 这里假设=或-=0,即假设长白猪和大白猪两品种经产母猪产仔数的总体平均数相等,其意义是试验的表面效应:-=1.8头是试验误差,处理无效,这种假设称为无效假设(null hypothesis), 记作:=或-=0。无效假设是被检验的假设,通过检验可能被接受,也可能被否定。提出:=或-=0的同时,相应地提出一对应假设,称为备择假设(alternative hypothesis),记作。备择假设是在无效假设被否定时准备接受的假设。本例的备择假设是:≠或-≠0,即假设长白猪与大白猪两品种经产母猪产仔数的总体平均数与不相等或与之差不等于零,亦即存在处理效应,其意义是指试验的表面效应,除包含试验误差外,还含有处理效应在内。
(二)在无效假设成立的前提下,构造合适的统计量,并研究试验所得统计量的抽样分布,计算无效假设正确的概率 对于上述例子,研究在无效假设:=成立的前提下,统计量(-)的抽样分布。经统计学研究,得到一个统计量t:
其中 =
叫做均数差异标准误;、为两样本的含量。
所得的统计量t服从自由度df =(-1)+(-1)的分布。
根据两个样本的数据,计算得:-=11-9.2=1.8;
=
==0.742
==2.426
我们需进一步估计出|t|≥2.426的两尾概率,即估计P(| t|≥2.426)是多少?查附表3,在df =(-1)+(-1)=(10-1)+(10-1)=18时,两尾概率为0.05的临界值: =2.101,两尾概率为0.01的临界t值: =2.878,即:
P(| t|>2.101)= P(t>2.101)+ P(t <-2.101)=0.05
P(| t|>2.878)= P(t>2.878)+ P(t<-2.878)=0.01
由于根据两样本数据计算所得的t值为2.426,介于两个临界t值之间,即:
t0.05<2.426<t0.01
所以,| t|≥2.426的概率P介于0.01和0.05之间,即:0.01 <P< 0.05。
如图5-1所示,说明无效假设成立的可能性,即试验的表面效应为试验误差的可能性在0.01─0.05之间。
(三)根据“小概率事件实际不可能性原理”否定或接受无效假设 上章曾论及:若随机事件的概率很小,例如小于0.05,0.01,0.001,称之为小概率事件;在统计学上,把小概率事件在一次试验中看成是实际上不可能发生的事件,称为小概率事件实际不可能原理。根据这一原理,当试验的表面效应是试验误差的概率小于0.05时,可以认为在一次试验中试验表面效应是试验误差实际上是不可能的,因而否定原先所作的无效假设:=,接受备择假设:≠,即认为:试验的处理效应是存在的。当试验的表面效应是试验误差的概率大于0.05时,则说明无效假设:=成立的可能性大,不能被否定,因而也就不能接受备择假设:≠。
本例中,按所建立的:=,试验的表面效应是试验误差的概率在0.01─0.05之间,小于0.05,故有理由否定:=,从而接受:≠。可以认为长白猪与大白猪两品种经产母猪产仔数总体平均数和不相同。
综上所述,显著性检验,从提出无效假设与备择假设到根据小概率事件实际不可能性原理来否定或接受无效假设,这一过程实际上是应用所谓“概率性质的反证法”对试验样本所属总体所作的无效假设的统计推断。对于各种显著性检验的方法,除明确其应用条件,掌握有关统计运算方法外,正确的统计推断是不可忽视的。
三、显著水平与两种类型的错误
在显著性检验中,否定或接受无效假设的依据是“小概率事件实际不可能性原理”。用来确定否定或接受无效假设的概率标准叫显著水平(significance level),记作。在生物学研究中常取=0.05或=0.01。对于上述例子所用的检验方法(t检验)来说,若|t|< ,则说明试验的表面效应属于试验误差的概率P>0.05,即表面效应属于试验误差的可能性大,不能否定:=,统计学上把这一检验结果表述为:“两个总体平均数与差异不显著”,在计算所得的t值的右上方标记“”或不标记符号;若≤|t|< ,则说明试验的表面效应属于试验误差的概率P在0.01—0.05之间,即0.01 <P0.05,表面效应属于试验误差的可能性较小,应否定:=,接受:≠,统计学上把这一检验结果表述为:“两个总体平均数与差异显著”,在计算所得的t值的右上方标记“*”;若|t|≥,则说明试验的表面效应属于试验误差的概率P不超过0.01,即P ≤0.01,表面效应属于试验误差的可能性更小,应否定:=,接受:≠,统计学上把这一检验结果表述为:“两个总体平均数与差异极显著”,在计算所得的t值的右上方标记“* *”。
这里可以看到,是否否定无效假设:=,是用实际计算出的检验统计量t的绝对值与显著水平对应的临界t值比较。若|t|≥,则在水平上否定:=;若|t| < ,则不能在水平上否定:=。区间和称为水平上的否定域,而区间(-,)则称为水平上的接受域。
假设检验时选用的显著水平,除=0.05和0.01为常用外,也可选=0.10或=0.001等等。到底选哪种显著水平,应根据试验的要求或试验结论的重要性而定。如果试验中难以控制的因素较多,试验误差可能较大,则显著水平可选低些,即值取大些。反之,如试验耗费较大,对精确度的要求较高,不容许反复,或者试验结论的应用事关重大,则所选显著水平应高些,即值应该小些。显著水平对假设检验的结论是有直接影响的,所以它应在试验开始前即确定下来。
因为显著性检验是根据“小概率事件实际不可能性原理”来否定或接受无效假设的,所以不论是接受还是否定无效假设,都没有100%的把握。也就是说,在检验无效假设时可能犯两类错误。第一类错误是真实情况为成立,却否定了它,犯了“弃真”错误,也叫Ⅰ型错误(type Ⅰ error)。Ⅰ型错误,就是把非真实差异错判为真实差异,即:=为真,却接受了:≠。第二类错误是不成立,却接受了它,犯了“纳伪”错误,也叫Ⅱ型错误(type Ⅱ error)。Ⅱ型错误,就是把真实差异错判为非真实差异,即:≠为真,却未能否定:=。
我们是基于“小概率事件实际不可能性原理”来否定,但在一次试验中小概率事件并不是绝对不会发生的。如果我们抽得一个样本,它虽然来自与对应的抽样总体,但计算所得的统计量t却落入了否定域中,因而否定了,于是犯了Ⅰ型错误。但犯这类错误的概率不会超过。
Ⅱ型错误发生的原因可以用图5-2来说明。图中左边曲线是:=为真时,
(-)的分布密度曲线;右边曲线是:≠为真时,(-)的分布密度曲线;右边曲线是:≠为真时,(-)的分布密度曲线(>),它们构成的抽样
分布相叠加。有时我们从-≠0抽样总体抽取一个(-)恰恰在成立时的接受域内(如图中横线阴影部分),这样,实际是从-≠0总体抽的样本,经显著性检验却不能否定,因而犯了Ⅱ型错误。犯Ⅱ型错误的概率用表示。 误概率值的大小较难确切估计,它只有与特定的结合起来才有意义。一般与显著水平、原总体的标准差σ、样本含量、以及相互比较的两样本所属总体平均数之差-等因素有关。在其它因素确定时,值越小,值越大;反之,值越大,值越小;样本含量及-越大、σ越小,值越小。
由于值的大小与值的大小有关,所以在选用检验的显著水平时应考虑到犯Ⅰ、Ⅱ型错误所产生后果严重性的大小,还应考虑到试验的难易及试验结果的重要程度。若一个试验耗费大,可靠性要求高,不允许反复,那么值应取小些;当一个试验结论的使用事关重大,容易产生严重后果,如药物的毒性试验,值亦应取小些。对于一些试验条件不易控制,试验误差较大的试验,可将值放宽到0.1,甚至放宽到0.25。
在提高显著水平,即减小值时,为了减小犯Ⅱ型错误的概率,可适当增大样本含量。因为增大样本含量可使(-)分布的方差σ2(1/+1/)变小,使图5-2左右两曲线变得比较“高”、“瘦”,叠加部分减少,即值变小。我们的愿望是值不越过某个给定值,比如=0.05或0.01的前提下,值越小越好。因为在具体问题中-和σ相对不变,所以值的大小主要取决于样本含量的大小。
图5-2中的1-称为检验功效或检验力(power of test),也叫把握度。其意义是当两总体确有差别(即成立)时,按水平能发现它们有差别的能力。例如1-=0.9,意味着若两总体确有差别,则理论上平均100次抽样比较中有90次能得出有差别的结论。
两类错误的关系可归纳如下:
表5-1 两类错误的关系
客观实际
否定
接受
成立
Ⅰ型错误()
推断正确(1-)
不成立
推断正确(1-)
Ⅱ型错误()
四、双侧检验与单侧检验
在上述显著性检验中,无效假设:=与备择假设:≠。此时,备择假设中包括了>或<两种可能。这个假设的目的在于判断与有无差异,而不考虑谁大谁小。如比较长白猪与大白猪两品种猪经产母猪的产仔数,长白猪可能高于大白猪,也可能低于大白猪。
此时,在水平上否定域为和,对称地分配在t分布曲线的两侧尾部,每侧的概率为/2,如图5-3所示。这种利用两尾概率进行的检验叫双侧检验(two-sided test),也叫双尾检验(two-tailed test), 为双侧检验的临界t值。但在有些情况下,双侧检验不一定符合实际情况。如采用某种新的配套技术措施以期提高鸡的产蛋量,已知此种配套技术的实施不会降低产蛋量。此时,若进行新技术与常规技术的比较试验,则无效假设应为:=,即假设新技术与常规技术产蛋量是相同的,备择假设应为:>,即新配套技术的实施使产蛋量有所提高。检验的目的在于推断实施新技术是否提高了产蛋量,这时的否定域在t分布曲线的右尾。在水平上否定域为,右侧的概率为,如图5-4A所示。若无效假设为=,备择假设为<,此时的否定域在t分布曲线的左尾。在水平上,的否定域为,左侧的概率为。如图5-4B所示。这种利用一尾概率进行的检验叫单侧检验(one-sided test)也叫单尾检验(one-tailed test)。此时为单侧检验的临界t值。显然,单侧检验的=双侧检验的。
由上可以看出,若对同一资料进行双侧检验也进行单侧检验,那么在水平上单侧检验显著,只相当于双侧检验在2水平上显著。所以,同一资料双侧检验与单侧检验所得的结论不一定相同。双侧检验显著,单侧检验一定显著;但单侧检验显著,双侧检验未必显著。
选用单侧检验还是双侧检验应根据专业知识及问题的要求在试验设计时就确定。一般若事先不知道所比较的两个处理效果谁好谁坏,分析的目的在于推断两个处理效果有无差别,则选用双侧检验;若根据理论知识或实践经验判断甲处理的效果不会比乙处理的效果差(或相反),分析的目的在于推断甲处理是否比乙处理好(或差),则用单侧检验。一般情况下,如不作特殊说明均指双侧检验。
五、显著性检验中应注意的问题
上面我们已详细阐明了显著性检验的意义及原理。进行显著性检验还应注意以下几个问题:
(一)为了保证试验结果的可靠及正确,要有严密合理的试验或抽样设计,保证各样本是从相应同质总体中随机抽取的。并且处理间要有可比性,即除比较的处理外,其它影响因素应尽可能控制相同或基本相近。否则,任何显著性检验的方法都不能保证结果的正确。
(二)选用的显著性检验方法应符合其应用条件。上面我们所举的例子属于“非配对设计两样本平均数差异显著性检验”。由于研究变量的类型、问题的性质、条件、试验设计方法、样本大小等的不同,所用的显著性检验方法也不同,因而在选用检验方法时,应认真考虑其适用条件,不能滥用。
(三)要正确理解差异显著或极显著的统计意义。显著性检验结论中的“差异显著”或“差异极显著”不应该误解为相差很大或非常大,也不能认为在专业上一定就有重要或很重要的价值。“显著”或“极显著”是指表面上如此差别的不同样本来自同一总体的可能性小于0.05或0.01,已达到了可以认为它们有实质性差异的显著水平。有些试验结果虽然差别大,但由于试验误差大,也许还不能得出“差异显著”的结论,而有些试验的结果间的差异虽小,但由于试验误差小,反而可能推断为“差异显著”。
显著水平的高低只表示下结论的可靠程度的高低,即在0.01水平下否定无效假设的可靠程度为99%,而在0.05水平下否定无效假设的可靠程度为95%。
“差异不显著”是指表面上的这种差异在同一总体中出现的可能性大于统计上公认的概率水平0.05,不能理解为试验结果间没有差异。下“差异不显著”的结论时,客观上存在两种可能:一是本质上有差异,但被试验误差所掩盖,表现不出差异的显著性来。如果减小试验误差或增大样本含量,则可能表现出差异显著性;二是可能确无本质上差异。显著性检验只是用来确定无效假设能否被推翻,而不能证明无效假设是正确的。
(四)合理建立统计假设,正确计算检验统计量。就两个样本平均数差异显著性检验来说,无效假设与备择假设的建立,一般如前所述,但也有时也例外。如经收益与成本的综合经济分析知道,饲喂畜禽以高质量的Ⅰ号饲料比饲喂Ⅱ号饲料提高的成本需用畜禽生产性能提高个单位获得的收益来相抵,那么在检验喂Ⅰ号饲料与Ⅱ号饲料在收益上是否有差异时,无效假设应为:-=,备择假设为:-≠(双侧检验);或:->(单侧检验);t检验计算公式为:
(5-1)
如果不能否定无效假设,可以认为喂高质量的Ⅰ号饲料得失相抵,只有当(-)>达到一定程度而否定了,才能认为喂Ⅰ号饲料可获得更多的收益。
(五)结论不能绝对化。经过显著性检验最终是否否定无效假设则由被研究事物有无本质差异、试验误差的大小及选用显著水平的高低决定的。同样一种试验,试验本身差异程度的不同,样本含量大小的不同,显著水平高低的不同,统计推断的结论可能不同。否定时可能犯Ⅰ型错误,接受时可能犯Ⅱ型错误。尤其在P接近时,下结论应慎重,有时应用重复试验来证明。总之,具有实用意义的结论要从多方面综合考虑,不能单纯依靠统计结论。
此外,报告结论时应列出,由样本算得的检验统计量值(如t值),注明是单侧检验还是双侧检验,并写出P值的确切范围,如0.01<P<0.05,以便读者结合有关资料进行对比分析。
样本平均数与总体平均数差异显著性检验
在实际工作中我们往往需要检验一个样本平均数与已知的总体平均数是否有显著差异,即检验该样本是否来自某一总体。已知的总体平均数一般为一些公认的理论数值、经验数值或期望数值。如畜禽正常生理指标、怀孕期、家禽出雏日龄以及生产性能指标等,都可以用样本平均数与之比较,检验差异显著性。检验的基本步骤是:
(一)提出无效假设与备择假设 := ,:≠,其中为样本所在总体平均数,为已知总体平均数;
(二)计算值 计算公式为:
(5-2)
式中,为样本含量,为样本标准误。
(三)查临界t值,作出统计推断 由查附表3得临界值,。将计算所得值的绝对值与其比较,若|t|<,则P>0.05,不能否定:=,表明样本平均数与总体平均数差异不显著,可以认为样本是取自该总体;若≤|t|<,则0.01<P≤0.05,否定:=,接受:≠,表明样本平均数与总体平均数差异显著,有95%的把握认为样本不是取自该总体;若|t|≥,则P≤0.01,表明样本平均数与总体平均数差异极显著,有99%的把握认为样本不是取自该总体。
若在0.05水平上进行单侧检验,只要将计算所得t值的绝对值|t|与由附表3查得=0.10的临界t值比较,即可作出统计推断。
【例5.1】 母猪的怀孕期为114天,今抽测10头母猪的怀孕期分别为116、115、113、112、114、117、115、116、114、113(天),试检验所得样本的平均数与总体平均数114天有无显著差异?
根据题意,本例应进行双侧t检验。
提出无效假设与备择假设 :=114 ,:≠114
2、计算值
经计算得:=114.5,S=1.581
所以 ===1.000
=10-1=9
3、查临界值,作出统计推断 由=9,查值表(附表3)得 =2.262,因为|t|<,P>0.05,故不能否定:=114,表明样本平均数与总体平均数差异不显著,可以认为该样本取自母猪怀孕期为114天的总体。
【例5.2】 按饲料配方规定,每1000kg某种饲料中维生素C不得少于246g,现从工厂的产品中随机抽测12个样品,测得维生素C含量如下:255、260、262、248、244、245、250、238、246、248、258、270g/1000kg,若样品的维生素C含量服从正态分布,问此产品是否符合规定要求?
按题意,此例应采用单侧检验。
1、提出无效假设与备择假设 :=246,:>250
2、计算值
经计算得:=252,S=9.115
所以===2.281
=12-1=11
3、查临界值,作出统计推断 因为单侧 =双侧=1.796,|t|> 单侧t0.05(11),P<0.05,否定:=246,接受:>246,表明样本平均数与总体平均数差异显著,可以认为该批饲料维生素C含量符合规定要求。
第三节 两个样本平均数的差异显著性检验
在实际工作中还经常会遇到推断两个样本平均数差异是否显著的问题,以了解两样本所属总体的平均数是否相同。对于两样本平均数差异显著性检验,因试验设计不同,一般可分为两种情况:一是非配对设计或成组设计两样本平均数的差异显著性检;二是配对设计两样本平均数的差异显著性检。
一、非配对设计两样本平均数的差异显著性检验
非配对设计或成组设计是指当进行只有两个处理的试验时,将试验单位完全随机地分成两个组,然后对两组随机施加一个处理。在这种设计中两组的试验单位相互独立,所得的二个样本相互独立,其含量不一定相等。非配对设计资料的一般形式见表5-2。
表5-2 非配对设计资料的一般形式
处理
观测值xij
样本含量ni
平均数
总体平均数
1
x11 x12 …
n1
=Σx1j/ n1
2
x21 x22 …
n2
=Σx2j/ n2
非配对设计两样本平均数差异显著性检验的基本步骤如下:
(一)提出无效假设与备择假设 := ,:≠
(二)计算值 计算公式为:
(5-3)
其中: (5-4)
=
=
当时,
== (5-5)
为均数差异标准误,、,、,、分别为两样本含量、平均数、均方。
(三)根据df=(n1-1)+(n2-1),查临界值:、,将计算所得t值的绝对值与其比较,作出统计推断
【例5.3】 某种猪场分别测定长白后备种猪和蓝塘后备种猪90kg时的背膘厚度,测定结果如表5-3所示。设两品种后备种猪90kg时的背膘厚度值服从正态分布,且方差相等,问该两品种后备种猪90kg时的背膘厚度有无显著差异?
表5-3 长白与蓝塘后备种猪背膘厚度
品种
头数
背膘厚度(cm)
长白
12
1.20、1.32、1.10、1.28、1.35、1.08、1.18、1.25、1.30、1.12、1.19、1.05
蓝塘
11
2.00、1.85、1.60、1.78、1.96、1.88、1.82、1.70、1.68、1.92、1.80
1、提出无效假设与备择假设 :=,:≠
2、计算值 此例=12、=11,经计算得=1.202、=0.0998、 =0.1096,=1.817、=0.123、=0.1508
、分别为两样本离均差平方和。
=
=
=0.0465
=**
=(12-1)+(11-1)=21
查临界t值,作出统计推断 当df=21时,查临界值得: =2.831,|t|>2.831,P<0.01,否定:=,接受:≠,表明长白后备种猪与蓝塘后备种猪90kg背膘厚度差异极显著,这里表现为长白后备种猪的背膘厚度极显著地低于蓝塘后备种猪的背膘厚度。
【例5.4】 某家禽研究所对粤黄鸡进行饲养对比试验,试验时间为60天,增重结果如表5-4,问两种饲料对粤黄鸡的增重效果有无显著差异?
表5-4 粤黄鸡饲养试验增重
饲料
增 重(g)
A
8
720、710、735、680、690、705、700、705
B
8
680、695、700、715、708、685、698、688
此例,经计算得=705.625、=288.839,=696.125、=138.125
1、提出无效假设与备择假设 :=,:≠
2、计算值,
因为 =7.306
于是 = =1.300
=(8-1)+(8-1)=14
查临界值,作出统计推断 当df=14时,查临界值得: =2.145,|t|<2.145,P>0.05,故不能否定无效假设:= ,表明两种饲料饲喂粤黄鸡的增重效果差异不显著,可以认为两种饲料的质量是相同的。
在非配对设计两样本平均数的差异显著性检验中,若总的试验单位数()不变,则两样本含量相等比两样本含量不等有较高检验效率,因为此时使最小,从而使的绝对值最大。所以在进行非配对设计时,两样本含量以相同为好。
二、配对设计两样本平均数的差异显著性检验
非配对设计要求试验单位尽可能一致。如果试验单位变异较大,如试验动物的年龄、体重相差较大,若采用上述方法就有可能使处理效应受到系统误差的影响而降低试验的准确性与精确性。为了消除试验单位不一致对试验结果的影响,正确地估计处理效应,减少系统误差,降低试验误差,提高试验的准确性与精确性,可以利用局部控制的原则,采用配对设计。
配对设计是指先根据配对的要求将试验单位两两配对,然后将配成对子的两个试验单位随机地分配到两个处理组中。配对的要求是,配成对子的两个试验单位的初始条件尽量一致,不同对子间试验单位的初始条件允许有差异,每一个对子就是试验处理的一个重复。配对的方式有两种:自身配对与同源配对。
1、自身配对 指同一试验单位在二个不同时间上分别接受前后两次处理,用其前后两次的观测值进行自身对照比较;或同一试验单位的不同部位的观测值或不同方法的观测值进行自身对照比较。如观测某种病畜治疗前后临床检查结果的变化;观测用两种不同方法对畜产品中毒物或药物残留量的测定结果变化等。
2、同源配对 指将来源相同、性质相同的两个个体配成一对,如将畜别、品种、窝别、性别、年龄、体重相同的两个试验动物配成一对,然后对配对的两个个体随机地实施不同处理。
在配对设计中,由于各对试验单位间存在系统误差,对内两个试验单位存在相似性,其资料的显著性检验不同于非配对设计。配对设计试验资料的一般形式见表5-5。
表5-5 配对设计试验资料的一般形式
处理
观测值xij
样本含量
样本平均数
总体平均数
1
x11
x12
…
x1n
n
=Σx1j/ n
2
x21
x22
…
x2n
n
=Σx2j/ n
dj=x1j-x2j
d1
d2
…
dn
n
配对设计两样本平均数差异显著性检验的基本步骤如下:
(一)提出无效假设与备择假设 :=0,:≠0,其中为两样本配对数据差值总体平均数,它等于两样本所属总体平均数与之差,即=-。所设无效假设、备择假设相当于:=,:≠。
(二)计算值 计算公式为:
, (5-6)
式中,为差异标准误,计算公式为:
(5-7)
为两样本各对数据之差:,;;为的标准差;为配对的对子数,即试验的重复数。
(三)查临界值,作出统计推断 根据查临界值:和,将计算所得值的绝对值与其比较,作出推断。
【例5.5】 用家兔10只试验某批注射液对体温的影响,测定每只家兔注射前后的体温,见表5-6。设体温服从正态分布,问注射前后体温有无显著差异?
表5-6 10只家兔注射前后的体温
兔号
1
2
3
4
5
6
7
8
9
10
注射前体温
37.8
38.2
38.0
37.6
37.9
38.1
38.2
37.5
38.5
37.9
注射后体温
37.9
39.0
38.9
38.4
37.9
39.0
39.5
38.6
38.8
39.0
-0.1
-0.8
-0.9
-0.8
0
-0.9
-1.3
-1.1
-0.3
-1.1
1、提出无效假设与备择假设
:=0,即假定注射前后体温无差异
:≠0,即假定注射前后体温有差异
2、计算值 经过计算得=-0.73,
故
且 =10-1=9
3、查临界值,作出统计推断 由=9,查值表得:=3.250,|t|>,P<0.01,否定:=0,接受:≠0,表明家兔注射该批注射液前后体温差异极显著,注射该批注射液可使体温极显著升高。
【例5.6】 现从8窝仔猪中每窝选出性别相同、体重接近的仔猪两头进行饲料对比试验,将每窝两头仔猪随机分配到两个饲料组中,时间30天,试验结果见表5-7。问两种饲料喂饲仔猪增重有无显著差异?
表5-7 仔猪饲料对比试验 单位:kg
窝号
1
2
3
4
5
6
7
8
甲饲料()
10.0
11.2
11.0
12.1
10.5
9.8
11.5
10.8
乙饲料()
9.8
10.6
9.0
10.5
9.6
9.0
10.8
9.8
0.2
0.6
2.0
1.6
0.9
0.8
0.7
1.0
1、提出无效假设与备择假设
:=0,即假定两种饲料喂饲仔猪平均增重无差异
:≠0,即假定两种饲料喂饲仔猪平均增重有差异
2、计算值 计算得 =0.975,
故
且 =8-1=7
3、查临界值,作出统计推断 由df=7,查值表得:=3.499,|t|>3.499,P<0.01,表明甲种饲料与乙种饲料喂饲仔猪平均增重差异极显著,这里表现为甲种饲料喂饲仔猪的平均增重极显著高于乙种饲料喂饲的仔猪平均增重。
一般说来,相对于非配对设计,配对设计能够提高试验的精确性。两种方法估计误差的公式为:
非配对设计()
配对设计
两式中被开方表达式的分母相同。
因为
=
在配对设计中,和有同时为正和同时为负的倾向,故常大于0,常小于,这样常小于。但并非所有恒大于零,故有时大于,也就是说并非所有的配对设计的试验误差都小于非配对设计的试验误差。这就要求我们在进行配对设计时,配成对子的两个试验单位必须真正符合配对条件,若试验单位不具备配对条件,不要勉强采用配对设计。
此外,还须指出,因为配对设计误差自由度为非配对设计(n1=n2=n)误差自由度的一半,使得配对设计的临界值大于非配对设计的临界值,于是配对设计只有因的减小而使计算的的绝对值增大的程度超过因自由度减小而使临界值增大的程度,才能比非配对设计更有效地发现两样本间的真实差异。
在进行两样本平均数差异显著性检验时,亦有双侧与单侧检验之分。关于单侧检验,只要注意问题的性质、备择假设的建立和临界值的查取就行了,具体计算与双侧检验相同。
百分数资料差异显著性检验
在第四章介绍二项分布时曾指出:由具有两个属性类别的质量性状利用统计次数法得来的次数资料进而计算出的百分数资料,如成活率、死亡率、孵化率、感染率、阳性率等是服从二项分布的。这类百分数的假设检验应按二项分布进行。当样本含量n较大,p不过小,且np和nq均大于5时,二项分布接近于正态分布。所以,对于服从二项分布的百分数资料,当n足够大时,可以近似地用u检验法,即自由度为无穷大时(df=∞)的t检验法,进行差异显著性检验。适用于近似地采用u检验所需的二项分布百分数资料的样本含量n见表5-8。
表5-8 适用于近似地采用u检验所需要的二项分布百分数资料的样本含量n
(样本百分数)
(较小百分数的次数)
(样本含量)
0.5
0.4
0.3
0.2
0.1
0.05
15
20
24
40
60
70
30
50
80
200
600
1,400
与平均数差异显著性检验类似,百分数差异显著性检验分为样本百分数与总体百分数差异显著性检验及两样本百分数差异显著性检验两种。
样本百分数与总体百分数差异显著性检验
在实际工作中,有时需要检验一个服从二项分布的样本百分数与已知的二项总体百分数差异是否显著,其目的在于检验一个样本百分数所在二项总体百分数p是否与已知二项总体百分数p0相同,换句话说,检验该样本百分数是否来自总体百分数为p0的二项总体。这里所讨论的百分数是服从二项分布的,但n足够大,p不过小,np和nq均大于5,可近似地采用u检验法来进行显著性检验;若np或nq小于或等于30时,应对u进行连续性矫正。检验的基本步骤是:
(一)提出无效假设与备择假设
,
(二)计算u值或值 u值的计算公式为:
(5-8)
矫正u值uc的计算公式为:
(5-9)
其中为样本百分数,为总体百分数,为样本百分数标准误,计算公式为:
(5-10)
(三)将计算所得的u或的绝对值与1.96、2.58比较,作出统计推断 若(或)<1.96,p>0.05,不能否定,表明样本百分数与总体百分数差异不显著;若<2.58,0.01<p≤0.05,否定,接受,表明样本百分数与总体百分数差异显著;若,,否定,接受,表明样本百分数与总体百分数差异极显著。
【例5.7】 据往年调查某地区的乳牛隐性乳房炎一般为30%,现对某牛场500头乳牛进行检测,结果有175头乳牛凝集反应阳性,问该牛场的隐性乳房炎是否比往年严重?
此例总体百分数=30%,样本百分数=175/500=35%,因为 =150>30,不须进行连续性矫正。
1、提出无效假设与备择假设 ,
2、计算u值
因为 =
于是 =
3、作出统计推断 因为1.96<u<2.58,0.01<p<0.05,表明样本百分数=35%与总体百分数=30%差异显著,该奶牛场的隐性乳房炎比往年严重。
两个样本百分数差异显著性检验
在实际工作中,有时需要检验服从二项分布的两个样本百分数差异是否显著。其目的在于检验两个样本百分数、所在的两个二项总体百分数、是否相同。当两样本的np、nq均大于5时,可以近似地采用u检验法进行检验,但在np和(或)nq小于或等于30时,需作连续性矫正。检验的基本步骤是:
(一)提出无效假设与备择假设
,
(二)计算u值或值
(5-11)
(5-12)
其中,为两个样本百分数,为样本百分数差异标准误,计算公式为:
为合并样本百分数:
(三)将u或的绝对值与1.96、2.58比较,作出统计推断 若(或)<1.96,p>0.05,不能否定,表明两个样本百分数、差异不显著;若<2.58,0.01<p≤0.05,否定,接受,表明两个样本百分数、差异显著;若,,否定,接受,表明两个样本百分数、差异极显著。
【例5.8】 某养猪场第一年饲养杜长大商品仔猪9800头,死亡980头;第二年饲养杜长大商品仔猪10000头,死亡950头,试检验第一年仔猪死亡率与第二年仔猪死亡率是否有显著差异?
此例,两样本死亡率分别为:
合并的样本死亡率为:
因为
即、、、均大于5,并且都大于30,可利用u检验法,不需作连续矫正。检验基本步骤是:
提出无效假设与备择假设 ,
2、计算u值
因为
=
=0.00422
于是 =
3、作出统计推断 由于u<1.96,p>0.05,不能否定,表明第一年仔猪死亡率与第二年仔猪死亡率差异不显著。
总体参数的区间估计
参数估计是统计推断的另一重要内容。所谓参数估计就是用样本统计量来估计总体参数,有点估计(point estimation)和区间估计(interval estimation)之分。将样本统计量直接作为总体相应参数的估计值叫点估计。点估计只给出了未知参数估计值的大小,没有考虑试验误差的影响,也没有指出估计的可靠程度。区间估计是在一定概率保证下指出总体参数的可能范围,所给出的可能范围叫置信区间(confidence interval),给出的概率保证称为置信度或置信概率(confidence probability)。本节介绍正态总体平均数和二项总体百分数P的区间估计。
一、正态总体平均数的置信区间
设有一来自正态总体的样本,包含个观测值,样本平均数,标准误。总体平均数为。
因为服从自由度为-1的分布。双侧概率为时,有:
P(,也就是说在区间内取值的可能性为1-,即:
对变形得:
(5-13)
亦即
(5-13)式称为总体平均数置信度为1-的置信区间。其中称为置信半径;和分别称为置信下限和置信上限;置信上、下限之差称为置信距,置信距越小,估计的精确度就越高。
常用的置信度为95%和99%,故由(5-13)式可得总体平均数的95%和99%的置信区间如下:
(5-14)
(5-15)
【例5.9】 某品种猪10头仔猪的初生重为1.5、1.2、1.3、1.4、1.8、0.9、1.0、1.1、1.6、1.2(kg),求该品种猪仔猪初生重总体平均数的置信区间。
经计算得,,由,查值表得,,因此
95%置信半径为
95%置信下限为
95%置信上限为
所以该品种仔猪初生重总体平均数的95%置信区间为
又因为
99%置信半径为
99%置信下限为
99%置信上限为
所以该品种仔猪初生重总体平均数的99%置信区间为
二、二项总体百分数P的置信区间
样本百分数只是总体百分数P的点估计值。百分数的置信区间则是在一定置信度下对总体百分数作出区间估计。求总体数的置信区间有两种方法:正态近似法和查表法,这里仅介绍正态近似法。
当,P时,总体P的95%、99%置信区间为:
(5-16)
(5-17)
其中,为样本百分数,为样本百分数标准误,的计算公式为:
(5-18)
【例5.10】 调查某地1500头奶牛,患结核病的有150头,求该地区奶牛结核病患病率的95%、99%置信区间。
由于>1000,>1%,采用正态分布近似法求置信区间。
因为
==0.0077
所以该地区奶牛结核病患病率P的95%、99%置信区间为:
即
习 题
1、为什么在分析试验结果时需要进行显著性检验?检验的目的是什么?
2、什么是统计假设?统计假设有哪几种?各有何含义?
3、显著性检验的基本步骤是什么?什么是显著水平?根据什么确定显著水平?
4、什么是统计推断?为什么统计推断的结论有可能发生错误?有哪两类错误?如何降低两类错误?
5、什么是双侧检验、单侧检验?各在什么条件下应用?二者有何关系?
6、进行显著性检验应注意什么问题?如何理解显著性检验结论中的“差异不显著”、“差异显著”、“差异极显著”?
7、什么是配对试验设计、非配对试验设计?两种设计有何区别?
8、什么是总体平均数、总体百分数P的点估计与区间估计?与P的95%、99%的置信区间为何?
9、随机抽测了10只兔的直肠温度,其数据为:38.7、39.0、38.9、39.6、39.1、39.8、38.5、39.7、39.2、38.4(℃),已知该品种兔直肠温度的总体平均数=39.5(℃),试检验该样本平均温度与是否存在显著差异?
(2.641 0.01<P<0.05)
10、11只60日龄的雄鼠在x射线照射前后之体重数据见下表(单位:g):检验雄鼠在照射射线前后体重差异是否显著?
编 号
1
2
3
4
5
6
7
8
9
10
11
照射前
25.7
24.4
21.1
25.2
26.4
23.8
21.5
22.9
23.1
25.1
29.5
照射后
22.5
23.2
20.6
23.4
25.4
20.4
20.6
21.9
22.6
23.5
24.3
(4.132 P<0.01)
11、某猪场从10窝大白猪的仔猪中,每窝抽出性别相同、体重接近的仔猪2头,将每窝两头仔猪随机地分配到两个饲料组,进行饲料对比试验,试验时间30天,增重结果见下表。试检验两种饲料喂饲的仔猪平均增重差异是否显著?
窝号
1
2
3
4
5
6
7
8
9
10
饲料Ⅰ
10.0
11.2
12.1
10.5
11.1
9.8
10.8
12.5
12.0
9.9
饲料Ⅱ
9.5
10.5
11.8
9.5
12.0
8.8
9.7
11.2
11.0
9.0
(3.455 P<0.01)
12、分别测定了10只大耳白家兔、11只青紫蓝家兔在停食18小时后正常血糖值如下,问该两个品种家兔的正常血糖值是否有显著差异?(单位:kg)
大耳白
57
120
101
137
119
117
104
73
53
68
青紫蓝
89
36
82
50
39
32
57
82
96
31
88
(12.455 P<0.01)
13、有人曾对公雏鸡作了性激素效应试验。将22只公雏鸡完全随机地分为两组,每组11只。一组接受性激素A(睾丸激素)处理;另一组接受激素C(雄甾烯醇酮)处理。在第15天取它们的鸡冠个别称重,所得数据如下:
激素
鸡冠重量(mg)
A
57
120
101
137
119
117
104
73
53
68
118
C
89
30
82
50
39
22
57
32
96
31
88
问激素A与激素C对公雏鸡鸡冠重量的影响差异是否显著。并分别求出接受激素A与激素C的公雏鸡鸡冠重总体平均数的95%、99%置信区间。
(3.376 P<0.01;77.447116.553,69.189124.811;(37.30174.699,29.40482.596)
14、某鸡场种蛋常年孵化率为85%,现有100枚种蛋进行孵化,得小鸡89只,问该批种蛋的孵化结果与常年孵化率有无显著差异?
(=0.980 P>0.05)
15、研究甲、乙两药对某病的治疗效果,甲药治疗病畜70例,治愈53例;乙药治疗75例,治愈62例,问两药的治愈率是否有显著差异?并计算两种药物治愈率总体百分率的95%、99%置信区间。(=0.829 P>0.05;(64.95%85.76%,62.48%88.94%);(74.10%91.84%,71.34%93.94%)