第七章 方差分析
方差分析的意义
在第五章里介绍了一个或两个样本平均数的假设测验方法,即t测验或u测验的方法,但在农业科学试验中,更多见的是研究多个样本(处理)之间的差异。当对多个平均数作差异显著性测验时,如果采用t测验或u测验的方法分别作出测验存在着以下三个缺陷。首先,对于一个多样本资料采用两两平均数间分别作差异显著性测验非常麻烦,会使统计工作量加大。因为对k个样本平均数进行两两平均数间分别作差异显著性测验,所有可能的平均数差值为k(k-1)∕2个,当k较大时,统计工作量将骤然加大,甚至无法承受。其次,从统计上夸大了样本间的差异,增加了犯第一类错误(否定正确的假设H0)的概率。这是因为,当假设两个样本随机抽自同一正态总体时,其样本平均数的差数()落到抽样分布总体N(,)否定区间的概率(事先规定的显著水平)被扩大了。若对每两个样本测验的显著水平都取,实际上的显著水平已不是,而是>0.05。例如,对于一个均数差值()犯第一类错误的概率为0.05,两个均数差值时则为1-0.952=0.0975;而10个均数差值时犯第一类错误的概率则将达到1-0.9510=0.4013了。再次,对于一个多样本的试验资料,样本间是属于内在关联(尤其是试验误差)的信息整体,这时若对两两平均数间单独进行假设测验,就等于将这一整体割裂开来。从统计的大数定律可知,这将带来误差自由度的损失,并影响对误差估计的精度。因此,对多样本平均数的假设测验,需采用一种更为合适的统计方法―差分析。
方差分析的统计方法是由英国著名统计学家R.A.Fisher于1923年提出来的。方差分析的基本原理是将总变异分裂为各个因素的相应变异,作出其数量估计,从而发现各个因素在变异中所占的重要程度;除了可控因素所引起的变异外,用其他剩余变异来准确而无偏的估计试验误差,作为统计假设测验的依据;再通过显著性检验 F测验,发现各个因素在变异中所占的重要程度,进而对无效假设 (各样本的总体平均数相等)作出统计推断。
方差分析在农业试验资料的统计分析中占有十分重要的地位,是最常用的一种统计分析方法。特别是在多因素试验和各种田间设计的试验中,方差分析可以帮助我们发现起主要作用的因素,从而抓住主要矛盾或关键措施。
第二节 方差分析的步骤
一、自由度与平方和的分解
在第三章中已介绍过,样本方差也称为均方,即样本标准差的平方,它是一个表示变异的量,是平方和除以自由度的商。因此,要将一个试验资料的总变异分裂成各个变异来源的相应变异,首先必须将总的自由度与平方和分解为各个变异来源的相应部分,即自由度与平方和的分解是方差分析的第一个步骤。
现以具有k个处理,每个处理含有n个重复观察值,共有nk个观察值的试验资料为例,来说明自由度与平方和分解的过程。这种类型的资料常来自于盆栽试验等完全随机试验设计,资料的整理方法见表7.1。
表7.1 各处理重复观察值数目相等的完全随机试验数据符号表处 理
重 复
观 察
值
Ti.
.
1
…
…
T1.
.
┇
┇
┇
┇
┇
┇
i
…
…
Ti.
,
┇
┇
┇
┇
┇
┇
k
…
…
Tk.
.
总 和
T..
..
1.平方和的分解
在方差分析中,经常用线性模型来表示观察值的变异来源构成,表7.1资料的线性模型可表达为
xij = μ+ τi +εij (7.1)
式中:μ为在假设全部数据都随机抽自同一正态分布总体时的总体平均数;τi为第i处理对xij的效应;εij为xij的随机误差,以上各参数的样本估计值分别为
.,=(.-..) =( -.)
因此,上述线性模型由样本估计时的表达式为
=..+(.- ..)+( - .) (7.2)
如将上述表达式(7.2)中的..项移至等式左边,可得到离均差形式
(- ..)=(.-..)+(-.) (7.3)
(7.3)式表明任一观察值与总平均数..之差都可分解为处理效应和误差效应两部分。如果我们用离均差平方总和(即平方和)这一表示数据变异程度大小的统计量来表示这些变异,则得到关系式
(-..)2 = (.- ..)2 +(-.)2 (7.4)
式中(-..)2为总变异平方和,用表示;n(.- ..)2 为处理平方和,用表示;(-.)2为误差平方和,用表示。即
(7.5)
在实际应用计算中各公式分别为
(7.6)
其中称为矫正数,记为,即
(7.7)
(7.8)
(7.9)
2.自由度的分解
总变异自由度也可分解为两部分,即总变异自由度=处理间自由度+误差自由度。总变异自由度用表示;处理间自由度用表示;误差自由度用表示。
由于计算总平方和时,资料中的各数据要受到(- ) =0条件的约束,所以,总自由度为
(7.10)
由于用计算处理间平方和时,要受到(-)=0条件的约束,所以,处理间自由度为
(7.11)
由于计算处理内(误差)平方和时,要受到.)=0(i=1,2,…,k) k个条件的约束,所以,误差自由度为
(7.12-1)
实际应用公式可用
(7.12-2)
3.方差
将各变异来源的平方和除以相应的自由度,即得各变异来源的方差,有总变异 (7.13)
处理间 (7.14)
误差 (7.15)
通过计算各部分方差值的大小,可了解各变异原因所引起的变异程度的大小。
4.实例分析
[例7.1]以A、B、C、D 4种药剂处理水稻种子,其中A为对照,每处理得4个苗高观察值(cm),其结果如表7.2。
表7.2 不同药剂处理水稻的苗高(cm)
药 剂
A(.)
B(.)
C(.)
D(.)
A
19
21
20
22
B
23
24
18
25
C
21
27
19
27
D
13
20
15
22
总和
76
92
72
96
T=336
平均
19
23
18
24
=21
已知,,,则
(1).总变异平方和与总自由度
(1).总变异平方和与总自由度
(2).处理间平方和与自由度
(3).误差平方和与自由度
(4).各变异来源的方差总变异
处理间
误差
以上药剂内方差系4种药剂内变异的合并方差,它是表7.2资料的试验误差的估计;而药剂间方差则是试验误差加上不同药剂对苗高的效应。
二、方差分析的假设测验 — F测验
F测验是方差分析的第个二步骤。在第五章里对两个样本方差相比较的差异显著性测验(F测验)曾作过介绍。为测验假设H0:σ12≤σ22;对HA,σ12>σ22,我们以被测验项的方差s12作分子,以误差的方差s22作分母,计算F=s12/s22,若实得F>F0.05或F0.01,则推断否定H0,接受HA;若实得F<F0.05,则推断接受H0。例如,对表7.1类型的资料有处理间方差st2=SSt/,误差方差se2=SSe/,若要测验处理间是否有本质的差异,即测验处理间的方差是否显著大于误差方差时,有F=st2/se2,当实得F≥F0.05,但F<F0.01时,我们可以推断处理间差异显著;当实得F≥F0.01时,则推断处理间差异极显著;当实得F<F0.05时,则推断处理间差异未达显著水平。
如对例7.1中的药剂处理间作F测验药剂间方差
误差方差
则
查附表6,υ1=3,υ2=12,F0.05=3.49,F0.01=5.95。由于F=3.53>F0.05=3.49,故推断否定H0:σt2=σe2;接受HA,σt2>σe2;即4种药剂间变异显著大于药剂内变异,不同药剂处理水稻后苗高是不同的。将结果列于表7.3,即方差分析表。
表7.3 4种药剂处理水稻苗高的方差分析变异来源
DF
SS
MS
F
F0.05
F0.01
药剂间
3
104
34.67
3.53*
3.49
5.95
误 差
12
118
9.38
总变异
15
222
14.80
* 为在5%水平上显著,若**为在1%水平上极显著。
三、多重比较
F测验是一个整体概念,F测验结果显著或极显著仅表明各处理间存在显著的差异,但无法具体说明哪些处理间差异达到显著或极显著,哪些处理间差异不显著。如例7.1,F测验结果达到显著,仅说明4种药剂处理后水稻苗高差异显著,但在这4种药剂之间,究竟哪两个比较差异显著,哪两个比较差异不显著,F测验没有提供任何信息。要进一步明确这个问题,还需要对处理平均数间作两两相比较的假设测验—多重比较。因此,多重比较是方差分析的第三个步骤。多重比较的方法有多种,在此仅介绍其中应用较广的3种。
1.Fisher氏保护最小显著差数(PLSD)法
这种测验的实质是t测验。在第五章,我们对两个样本平均数作差异显著性测验时,是用计算得到的t值与从t值表中查到的tα临界值相比较,从而推断其差异显著性的,即
而PLSD法是将||与相比较,而作出与之间差异显著性的推断。这里称之为最小显著差数,记为PLSDα,即
PLSDα (7.16)
与二者之间的区别仅在于前者的 式中的合并均方是由两个样本计算而来的,即;而后者的 式中的合并均方se2是由k个样本计算而来的,即。
在例7.1中误差自由度,查tα临界值表(附表5)t0.05,12=2.179和t0.01,12=3.012,则
(cm)
进而得 PLSD0.05= t0.05?(cm)
PLSD0.01= t0.01?(cm)
用任两个平均数的差数绝对值∣∣与PLSD0.05和PLSD0.01进行比较,如果
∣∣≥PLSD0.05而小于PLSD0.01,说明两个样本平均数之间差异显著,则在差数的右上角打一个“*”号;如果∣∣≥PLSD0.01,说明两个样本平均数之间差异极显著,则在差数的右上角打两个“*”号;如果∣∣<PLSD0.05,说明两个样本平均数差异不显著,则不标记。例7.1的4种药剂处理水稻苗高试验的多重比较结果列于表7.4。
表7.4 4种药剂处理水稻苗高的多重比较(列梯形表法)
处理
水稻苗高(cm)
(xi)
差 异
–18
-19
-23
D
24
6*
5
1
B
23
5
4
A
19
1
C
18
从表7.4可得出结论:使用4种药剂后,水稻苗高由高至低依次为D、B、A、C,其中,D显著高于C,其他药剂间水稻苗高差异未达显著水平。
PLSD法计算方法简单,在过去一个时期曾得到比较广泛的应用。但由于其本质仍然是t测验,所以,犯第一类错误的缺陷依然存在。为了减少这种错误的发生,Fisher提出,仅当F测验确认各处理间差异显著后,方可用它来作多重比较,也就是必须在使用前加以F测验的保护。因此,统计界称此法为保护最小显著差数法。
2.新复极差(LSR)法
新复极差法又称为最小显著极差法。这一方法是D.B.Duncan于1955年提出的,是当前应用最广泛的一种多重比较方法。最小显著极差临界值为
LSRα=SE?SSRα (7.17)
其中:SE=称之为平均数标准误;se2为误差项方差;SSRα为在自由度下对于不同p值的SSRα值(见附表8),这里的p为被比较的两个平均数间在顺序排列的平均数序列中所涵盖的平均数个数。
在例7.1 资料中,平均数标准误SE= (cm),在误差自由度=12 下,查p=2,3,4的SSR0.05和SSR0.01值,并进一步计算LSR0.05和LSR0.01值(见表7.5)。计算出LSRα后,用字母标记法将各处理平均数间的差异显著性表示出来(表7.6)。
标记字母法的作法为先将全部平均数按从大到小依次排序,在=0.05显著水平比较时,先在最大的平均数后面标英文小写字母,并将该平均数与以下各平均数相比,凡差数小于LSR0.05值的(与相应p值下的LSR0.05值相比)为差异不显著,均标字母,直到某一个差数大于LSR0.05值时则标以字母b;再以标有字母b的这个平均数与其上各平均数依次相比,凡差数不显著的标以字母b;显著的则不标记;然后以标有字母b的最大平均数为标准,与以下未标记的平均数相比,凡不显著的也标以字母b,直至与某一个平均数相差显著时标以字母c,…,如此往复进行下去,按英文字母表顺序标记字母,直到所有的平均数都标上字母为止。显著水平=0.01的标记方法同于=0.05的标记方法,只是均用英文大写字母标记。这样各平均数后面凡有一个以上相同字母的为差异不显著;凡是一个相同字母都没有的为差异显著或极显著。
从表7.6可得到例7.1多重比较的结论为:水稻苗高以药剂D处理为最高,显著高于C药剂处理;其它药剂间的水稻苗高无显著差异。
3.Dunnett氏最小显著差数(DLSD)法
在试验中若设有指定对照,则参试处理就有了一个共同的比较标准。C.W.Dunnett于1955年对这类试验提出了用DLSD法进行多重比较。在这一方法中,任一处理平均数都与对照平均数相比较,其临界值为
DLSDα=Dtα? (7.18)
式中:Dtα为Dunnett氏两尾显著临界值(附表7),查表时参照误差项自由度υe和处理数k(不包括对照),当各处理观察值数目相等时
(7.19)
在例7.1中,设A 药剂为对照,则有
(cm)
在误差项自由度=12,k=3时,查附表7,Dt0.05=2.76,Dt0.01=3.61,进而得到
DLSD0.05=2.72×2.22 =6.04(cm)
DLSD0.01=3.61×2.22 =7.35(cm)
凡是与对照比较差数的绝对值大于6.04(cm),而小于7.35(cm)的为差异显著,在差数的右上角打一个星号“*”;如大于7.35(cm)为差异极显著,在差数的右上角打两个“**”号;如小于6.04(cm)为差异不显著,不标记。
第三节 方差分析的线性模型和期望均方
方差分析的线性模型
方差分析是建立在一定的线性可加模型的基础上的。所谓线性可加模型是指每一个观察值可以划分成若干个线性组成部分,它是分解自由度与平方和的理论依据。下面我们以单个随机样本为例说明这一问题。
设在一平均数为、方差为的正态总体中随机抽取容量为n的一组样本。由于随机误差的存在,每一个都和总体平均数有差别,这个差量就是随机误差。因而,每一个观察值都具有线性可加模型
=+
其中是遵循N(0,σ2)的,故为的无偏估计;而=(-)则由样本离差估计。由于,故样本均方亦为总体方差的无偏估计。
如果对上述总体施加了某种处理,而处理效应为,则总体平均数为(+),而方差仍为σ2。因而从该总体中得到的任一观察值的线性可加模型便成为
这时样本平均数是总体平均数(+τ)的无偏估计,而s2仍为σ2的无偏估计。
假如,将上述总体分成k个组,使每组成为该总体的一个亚总体,分别给予不同的处理,处理效应为,则各个亚总体的平均数为。当每个亚总体中皆随机抽取容量为的n一组样本时,则共得k组样本,其资料模式如表7.1。而任一亚总体的任一观察值(i=1,2,…,k,表示组别;j=1,2…,n,表示所属组的观察值次序)所具有的线性模型为
(7.20)
上式中,,并满足;而相互独立,并具有分布N(0,σ2)。上式说明,象表7.1类型的资料,其每一观察值皆由共同的原总体平均数μ、处理效应和随机误差三个部分相加而成。
在以样本符号表示时,令全试验平均数为,各处理平均数为,各处理效应为,则μ由估计,处理效应由估计,随机误差由估计。所以,样本估计值的线性模型为
并且是的无偏估计量,是的无偏估计量,为其所属亚总体的方差σi2的无偏估计量。由于测验假设H0:时,假定
所以也是的无偏估计量。
对于部分,每一样本的平方和是,故k个样本的平方和是,而处理间方差为
是受到随机误差影响的处理效应方差,故它估计着。这一部分因试验模型的不同而又有固定模型和随机模型之分。在固定模型时,估计着,其中,并满足;在随机模型时,估计着,其中,系正态总体N(0,)的方差。通常,将以上称为固定模型处理效应方差,称为随机模型处理效应方差。所以测验
对于固定模型来说,实质上是测验H0:对HA:(因为,故亦即测验H0:对HA:不相等);对于随机模型来说,是测验H0:对HA:。当或时,F的期望值。
试验模型属固定模型或随机模型的区别仅在于F测验和统计推断上,而与自由度、平方和的分解无关。
方差分析的期望均方线性可加模型将每一观察值看作是几个分量的总和。最简单的情况是平均数加随机误差。但平均数又可以是另一些分量的总和,对于完全随机设计,各处理观察值数目相等资料而言,即有
(;)
对于部分的假定已于上节说明,即它是彼此独立的,以零为平均数的正态分布,且不同处理内具有同质的方差。本节要说明的是关于部分的假定。固定模型(模型Ⅰ)和随机模型(模型Ⅱ)是由于对效应τ有不同的解释而产生的。
从理论上讲,固定模型是指各个处理的平均效应是固定的一个常量,且满足 (或)。随机模型是指各个处理效应不是一个常量,而是从平均数为零、方差为的正态总体中得到的一个随机样本的结果。在实际工作中,我们可以这样理解这两种模型的区别。例如在田间试验中,若我们的目的仅在于了解某几个特定处理的效应,如要了解水稻新品种的产量或几种密度、几种肥料、几种农药的效应等,则处理效应为固定的处理效应。换言之,固定模型仅在于了解供试处理范围内处理间的不同效应,其结论是不能推广应用于范围以外的其他处理的。如果我们的目的不是研究选出供试的那几个处理的效应,而是要对这些处理所属的总体作出推断,例如,为研究东北地区大豆地方品种的生态类型和特性,我们从大量地方品种中随机抽取一部分品种作为代表进行试验,以便通过这部分供试品种的试验结果推论整个东北地区大豆地方品种的情况,这种处理效应便是随机模型的处理效应。在随机模型中,因为各处理仅是所属总体的随机样本,故总体方差是重要的研究对象。
由上可知,固定模型和随机模型,在设计思想和统计推断上是明显不同的。对于固定模型,如进行重复试验,则一定包括同样组别的τ在新试验里,我们的注意力是集中于研究这些τ(效应)的大小上。对于随机模型,如进行重复试验,则必然是要从τ的总体中随机抽取新的一组τ;而我们的注意力则在于τ的变异度方面,并不继续特别地去注意某一个特殊组的τ。因此,在固定模型中,我们所得的结论仅在于推断特定的处理;在随机模型中,试验结论则将用于推断处理的总体。
在估计期望均方的一些参数和F测验方面,固定模型和随机模型也是有明显不同的。这些概念对于方差分析的应用,尤其对于遗传育种方面的研究颇为重要。以下通过实例予以说明。
1.固定模型试验
[例7.2]以5个水稻品种作大区比较试验,每品种作3次取样,测定其产量,所得数据为单向分组资料。本试验需明确各品种的效应,故为固定模型,其方差分析和期望均方的参数估计列于表7.8。
表7.8 5个水稻品种产量的方差分析和期望均方表变 异 来 源
DF
SS
MS
固定模型:EMS
品 种 间
4
87.6
21.90
品种内(试验误差)
10
24.0
2.40
,,
为的估计值,表示的估计值。
本例5个品种试验可看作是具有3个重复观察值的5个品种总体的一个样本。方差分析表上的期望均方,乃是在试验重复无数次时将一定得到的平均均方;现在仅有一个试验,所以,其实际均方值仅为表上相应的期望均方的估计值,即
,
也就是说,试验误差是的估计值,即;而品种间方差则是估计和误差,即估计误差变异数。这是由于此处为品种间方差,由估计;但因是样本结果,其变异还会受到试验误差的影响。更确切地说,由于品种间变异是以品种平均数计算的,其变异中还包括着部分,所以
估计着()
又由于是以小区为单位计算的,故
估计着
因此 (或记为)
固定模型的假设可由F测验看出,由于
(7.21)
故如,则F值将等于1。所以,固定模型是测验假设H0,(),对HA:,亦即测验H0:的假设。因而,一般比较处理效应的试验,都是应当采用固定模型的。
2.随机模型试验
[例7.3]研究籼粳稻杂交F5代系统间单株干草重的遗传变异,随机抽取76个系统进行试验,每系统随机取二个样品测定干草重(g/株)。由于这76个系统是随机抽取的样本,要从这些样本来估计F5代系统间单株干草重的遗传变异,所以,这是一个随机模型。将这152个观察值的分析结果列于表7.9。
表7.9 籼粳杂种F5代干草重的方差分析和期望均方变 异 来 源
DF
MS
随机模型:EMS
系 统 间
75
72.79
σ2+nστ2
系统内(试验误差)
76
17.77
σ2
=17.77,=27.51,=40.11g
随机模型的期望均方估计方法与上述固定模型相同,其结果写于表7.9下方。但需注意,由于这里的τ已不是一个常量,而是从正态总体N(0,στ2)中随机抽取的样本,因而处理平均数间的期望均方是(σ2+nστ2)。
在F测验时,随机模型的F为
(7.22)
所以,若假设στ2=0,则F=1。因而,随机模型的假设为H0, =0对HA:στ2≠0,显然,这是测验处理效应的变异度(方差),而不是测验处理效应本身。如果F测验显著则表示处理间的变异是显著的。本例>F0.05,说明στ2是存在的,所以,进一步估计得
(7.23)
数量遗传学的研究指出:(或记为)为系统间的遗传型变异,称遗传型方差;则称遗传型标准差。而则为环境条件影响的变异,称环境方差(一般记作)。遗传型方差加上环境方差组成了表现型方差(),因此
(7.24)
遗传型方差对表现型方差的比值,则称为遗传力,记作h2,即
(7.25)
h2乃遗传型变异占表现型变异的百分率,因而可作为由表现型估计遗传型的可靠程度的测度。如在本例可求得
或60.76%
必须注意,这里的σe 2用的是σ2,即单次测定的误差估计;而(σg2+σe2)表示的是单次测定的表现型方差。所以,此h2指出了样本单位为一次测定时的遗传力值,即由一次测定值以估计遗传型优劣的可靠程度。如果能够以n次测定的平均数作为遗传型优劣的估计,则环境方差,于是
(7.26)
如本例,当以n=2的样本平均数为单位时,h2为
或=75.58%
比较上述两个h2值,可见以平均数为选择单位时,遗传力较大。这里由二次测定的表现型平均值以估计遗传型的优劣,其百分数为75.58%,比一次测定值的估计百分数60.76%高出14.82%。这是由于平均值比单个观察值减小了环境误差。
除遗传力h2外,遗传型的相对变异度也可作出估计,它称为遗传变异系数(记作gcv),是遗传型标准差与总平均数的比值,即
(7.27)
如本例,在表7.9可算得,(μ的估计值)= 40.11,故
(%)
gcv的大小说明该性状遗传型变异的相对大小。gcv愈大,选得优良遗传型的潜力愈大;反之,如gcv = 0,则选择将无效果。本例籼粳杂交F5代系统间单株干草重的gcv=12.81(%),因而,对该性状的选择是会有一定效果的。
在育种上,从试验数据估计出遗传型方差g2、环境方差e2、遗传力h2和遗传变异系数gcv等遗传参数,能对群体某个性状的遗传变异有了一个清晰的概念。因而,可预期选择的进度和效果,从而避免盲目性。
以上介绍的试验属完全随机设计,期望均方和估算遗传参数的方法是比较简单的。更复杂的情况可在熟悉期望均方的基础上类推。有关随机区组和其他设计的期望均方将在以后章节中介绍,从而可按不同模型进行正确的方差分析和假设测验以及估计遗传参数。
当试验因素在二个或二个以上时,可以在固定模型和随机模型的基础上产生第三种模型:混合模型(或记作模型Ⅲ)。混合模型是既包括有固定模型的试验因素,又包括随机模型的试验因素的模型,这类模型凡随机因素仍用τ2表示,而固定模型则用表示;根据其期望均方同样可作出正确的假设和F测验以及参数估计。
第四节 方差分析的基本假定和数据转换
方差分析的基本假定
方差分析的合理性和所得结果的可靠性是建立在以下三个基本假定之上的,即:(1)对试验所考察性状有影响的各变异来源的效应(包括环境效应)应满足“可加性”;(2)试验误差应是随机的、彼此独立的,而且作正态分布,即满足“正态性”;(3)所有试验处理必须具有共同的误差方差,即满足误差的“同质性”。下面分别叙述之。
1.效应的“可加性”
这一基本假定可由方差分析的线性可加模型加以说明,如表7.1资料有线性可加模型
(7.28)
或
将其写成样本估计值表达式为
(7.29)
当将所有随机变数代入上述方程式,两边分别取平方并累加时,由于等式右边乘积项为零的原因,即可得到其平方和分解式SST=SSt+SSe(7.5式)。因此,这种可加性实际上是平方和分解的数学依据。
误差的“正态性”
方差分析是在如下无效假设的基础上进行的,各项被测验的效应方差都是随机抽自同一个正态分布总体的样本方差,同时,这一正态总体方差是以试验误差方差来估计的。若各试验数据的试验误差不服从正态分布,则依据这一假设正态总体进行的F测验自然也就失去了合理性。各试验数据的随机误差可依其线性模型的样本估计值表达式求出,试验误差的正态性可用分布来测验。以表7.1类型资料为例,任一观察值的试验误差可用来估计。表7.10是不同pH值下盆栽大豆根瘤的鲜重资料,该资料误差的概率分布情况列于表7.11,以此为例做误差正态性检验。
表7.10 不同pH值下盆栽大豆根瘤鲜重 (单位:g)
序号
pH
鲜重
= 1
误差
pH
鲜重
= 2
误差
pH
鲜重
= 3
误差
pH
鲜重
= 4
误差
pH
鲜重
= 5
误差
1
10
2
8
4
8
3
7
1
12
1
2
11
3
7
3
6
1
6
0
19
8
3
9
1
1
-3
3
-2
6
0
9
-2
4
8
0
1
-3
3
-2
6
0
12
1
5
7
-1
3
-1
3
-2
6
0
9
-2
6
3
-5
4
0
7
2
5
-1
5
-6
8
4
5
6
11
8→1
8.8→1
5.2→1
0.4→1
22→1
误差标准差se=2.7668
表7.11 表7.10资料误差的概率分布组限值
频数
标准化组下限值
理论频率
理论频数
-8.5~-6.5
0
-3.07
0.0094
0.282
-6.5~-4.5
2
-2.35
0.0432
1.296
-4.5~-2.5
2
-1.63
0.1315
3.945
-2.5~-0.5
8
-0.90
0.2445
7.335
-0.5~1.5
11
-0.18
0.2768
8.304
1.5~3.5
5
0.54
0.1908
5.724
3.5~5.5
1
1.26
0.0805
2.415
5.5~7.5
0
1.99
0.0199
0.597
7.5~9.5
1
2.71
0.0033
0.099
在表7.11中,标准化组限值由式(组限值-)/求得,其中,;各标准化组限区间的理论频率由累积正态分布表(附表2)中查得,进而用各组理论频率乘以总次数得各区间理论频数。这样可在无效假设H0:试验误差服从正态分布N(0,2.76682)之下作关于误差正态性的适合性测验。
由于所得理论次数受到三个条件的限制(;;理论总次数等于实际总次数),故,查,因为<,故推断接受无效假设H0,说明本资料试验误差服从正态分布。
3.误差方差的“同质性”
按照方差分析的无效假设,各项变异来源的方差都来自于假设总体N(0,e2),总体方差e2是由各处理内误差合并方差s e2来估计的。若各处理内误差方差不同质,则方差分析就失去了其所依据的假设总体的存在基础。各处理误差方差的同质性检验的无效假设H0:12=22=…=k2用Bartlett氏(1937)测验法进行。对表7.11资料由第五章给出的公式算得
由于>,推断各处理的误差方差有显著差异。
二、方差分析的数据转换
在进行科学研究工作的过程中,试验工作者所得的各种数据要全部准确地符合上述三个假定往往是不容易的;因而采用方差分析所得的结果,只能认为是近似的结果。但是,在设计试验和收集资料的过程中,如果能够充分考虑这些假定,则在应用方差分析时,可获得更受信任的结论。对于一些不符合方差分析基本假设的试验资料,在进行分析之前,一般可采用以下补救方法:
1.剔除某些表现“特殊”的观察值、处理或重复。
2.将总的试验的方差分裂为几个较为同质的试验误差的方差。
3.针对数据的主要缺陷,采用相应的数据转换;再用转换后的数据作方差分析。
常用的转换方法有:
(1).平方根转换:如果样本平均数与其方差有比例关系,采用平方根转换可获得一个同质的方差,同时也可减小非可加性的影响。一般将原观察值转换成。这种转换常用于稀有现象的计数资料,例如1㎡面积上某种昆虫的头数或某种杂草的株数等资料。如果有些观察值甚小,甚至有零出现,则可用转换。
(2).对数转换:如果数据表现的效应为非可加性,而成倍加性或可乘性,同时样本平均数与其极差或标准差成比例关系,采用对数转换可获得一个同质的方差。对于改进非可加性的影响,这一转换比之平方根转换更为有效。一般将转换为;如观察值中有零,而各数值皆不大于10,则可用转换。
(3).反正弦转换:如果资料为成数或百分数,则它将作二项分布。已知这一分布的方差是决定于其平均数p的,所以,在理论上如果p<0.3和p>0.7皆需作反正弦转换,以获得一个比较一致的方差。反正弦转换是将百分数的平方根值取反正弦值,即将p转换成,从而成为角度。附表10为百分数的反正弦转换表,查附表10可直接得到p的反正弦值。
(4).采用几个观察值的平均数作方差分析:因为平均数比之单个观察值更易作正态分布,故如抽取小样本求得其平均数,再以这些平均数作方差分析,可减小各种不符合基本假定的因素的影响。
下面以一个百分数的反正弦转换为例,说明观察值经转换后的方差分析方法。
测验结果为3个处理的生活力都低于对照。将各反正弦平均数转换为百分数(表7.15第4列)可以看出处理①比对照降低12.7%,处理②降低9.2%,处理③降低23.9%,只有处理③与对照存在显著差异。
习 题
7.1 方差分析的基本原理是什么?如何进行自由度与平方和的分解?如何进行F测验和多重比较?数据的线性模型对于方差分析有何意义?
7.2 方差分析有哪些基本假定?为什么有些数据需经过转换才能作方差分析?有哪几种转换方法?
7.3 处理效应的两种模型有哪些区别?它和期望均方的估计及假设测验有何关系?
7.4 测定4种密度下金皇后玉米的千粒重(g)各4次得结果如表7-1。试对4种密度下的千粒重作相互比较,并作出差异显著性结论。
7.5 对A、B、C、D 4个小麦品种各抽取5个样本,统计其黑穗病率得表7-2结果。试对该资料作方差分析;再将该资料进行反正弦转换,然后作方差分析。比较这两种分析方法的差别,以明了资料转换的作用。