第六章 方差分析第五章所介绍的t检验法适用于样本平均数与总体平均数及两样本平均数间的差异显著性检验,但在生产和科学研究中经常会遇到比较多个处理优劣的问题,即需进行多个平均数间的差异显著性检验。这时,若仍采用t检验法就不适宜了。这是因为:
1、检验过程烦琐 例如,一试验包含5个处理,采用t检验法要进行=10次两两平均数的差异显著性检验;若有k个处理,则要作k(k-1)/2次类似的检验。
2、无统一的试验误差,误差估计的精确性和检验的灵敏性低 对同一试验的多个处理进行比较时,应该有一个统一的试验误差的估计值。若用t检验法作两两比较,由于每次比较需计算一个,故使得各次比较误差的估计不统一,同时没有充分利用资料所提供的信息而使误差估计的精确性降低,从而降低检验的灵敏性。例如,试验有5个处理,每个处理重复6次,共有30个观测值。进行t检验时,每次只能利用两个处理共12个观测值估计试验误差,误差自由度为2(6-1)=10;若利用整个试验的30个观测值估计试验误差,显然估计的精确性高,且误差自由度为5(6-1)=25。可见,在用t检法进行检验时,由于估计误差的精确性低,误差自由度小,使检验的灵敏性降低,容易掩盖差异的显著性。
3、推断的可靠性低,检验的I型错误率大 即使利用资料所提供的全部信息估计了试验误差,若用t检验法进行多个处理平均数间的差异显著性检验,由于没有考虑相互比较的两个平均数的秩次问题,因而会增大犯I型错误的概率,降低推断的可靠性。
由于上述原因,多个平均数的差异显著性检验不宜用t检验,须采用方差分析法。
方差分析(analysis of variance)是由英国统计学家R.A.Fisher于1923年提出的。这种方法是将k个处理的观测值作为一个整体看待,把观测值总变异的平方和及自由度分解为相应于不同变异来源的平方和及自由度,进而获得不同变异来源总体方差估计值;通过计算这些总体方差的估计值的适当比值,就能检验各样本所属总体平均数是否相等。方差分析实质上是关于观测值变异原因的数量分析,它在科学研究中应用十分广泛。
本章在讨论方差分析基本原理的基础上,重点介绍单因素试验资料及两因素试验资料的方差分析法。在此之前,先介绍几个常用术语。
1、试验指标(experimental index) 为衡量试验结果的好坏或处理效应的高低,在试验中具体测定的性状或观测的项目称为试验指标。由于试验目的不同,选择的试验指标也不相同。在畜禽、水产试验中常用的试验指标有:日增重、产仔数、产奶量、产蛋率、瘦肉率、某些生理生化和体型指标(如血糖含量、体高、体重)等。
2、试验因素(experimental factor) 试验中所研究的影响试验指标的因素叫试验因素。如研究如何提高猪的日增重时,饲料的配方、猪的品种、饲养方式、环境温湿度等都对日增重有影响,均可作为试验因素来考虑。当试验中考察的因素只有一个时,称为单因素试验;若同时研究两个或两个以上的因素对试验指标的影响时,则称为两因素或多因素试验。试验因素常用大写字母A、B、C、…等表示。
3、因素水平(level of factor) 试验因素所处的某种特定状态或数量等级称为因素水平,简称水平。如比较3个品种奶牛产奶量的高低,这3个品种就是奶牛品种这个试验因素的3个水平;研究某种饲料中4种不同能量水平对肥育猪瘦肉率的影响,这4种特定的能量水平就是饲料能量这一试验因素的4个水平。因素水平用代表该因素的字母加添足标1,2,…,来表示。如A1、A2、…,B1、B2、…,等。
4、试验处理(treatment) 事先设计好的实施在试验单位上的具体项目叫试验处理,简称处理。在单因素试验中,实施在试验单位上的具体项目就是试验因素的某一水平。例如进行饲料的比较试验时,实施在试验单位(某种畜禽)上的具体项目就是喂饲某一种饲料。所以进行单因素试验时,试验因素的一个水平就是一个处理。在多因素试验中,实施在试验单位上的具体项目是各因素的某一水平组合。例如进行3种饲料和3个品种对猪日增重影响的两因素试验,整个试验共有3×3=9个水平组合,实施在试验单位(试验猪)上的具体项目就是某品种与某种饲料的结合。所以,在多因素试验时,试验因素的一个水平组合就是一个处理。
5、试验单位(experimental unit) 在试验中能接受不同试验处理的独立的试验载体叫试验单位。在畜禽、水产试验中,一只家禽、一头家畜、一只小白鼠、一尾鱼,即一个动物;或几只家禽、几头家畜、几只小白鼠、几尾鱼,即一组动物都可作为试验单位。试验单位往往也是观测数据的单位。
6、重复(repetition) 在试验中,将一个处理实施在两个或两个以上的试验单位上,称为处理有重复;一处理实施的试验单位数称为处理的重复数。例如,用某种饲料喂4头猪,就说这个处理(饲料)有4次重复。
第一节 方差分析的基本原理与步骤
方差分析有很多类型,无论简单与否,其基本原理与步骤是相同的。本节结合单因素试验结果的方差分析介绍其原理与步骤。
一、线性模型与基本假定假设某单因素试验有k个处理,每个处理有n次重复,共有nk个观测值。这类试验资料的数据模式如表6-1所示。
表6-1 k个处理每个处理有n个观测值的数据模式处理
观 测 值
合计
平均
A1
x11
x12
…
x1j
…
x1n
A2
x21
x22
…
x2j
…
x2n
…
…
Ai
xi1
xi2
…
xij
…
xin
…
…
Ak
xk1
xk2
…
xkj
…
xkn
xk.
合计
表中表示第i个处理的第j个观测值(i=1,2,…,k;j=1,2,…,n);表示第i个处理n个观测值的和;表示全部观测值的总和;表示第i个处理的平均数;表示全部观测值的总平均数;可以分解为
(6-1)
表示第i个处理观测值总体的平均数。为了看出各处理的影响大小,将再进行分解,令
(6-2)
(6-3)
则
(6-4)
其中μ表示全试验观测值总体的平均数,是第i个处理的效应(treatment effects)表示处理i对试验结果产生的影响。显然有
(6-5)
εij是试验误差,相互独立,且服从正态分布N(0,σ2)。
(6-4)式叫做单因素试验的线性模型(linear model)亦称数学模型。在这个模型中表示为总平均数μ、处理效应αi、试验误差εij之和。由εij相互独立且服从正态分布N(0,σ2),可知各处理Ai(i=1,2,…,k)所属总体亦应具正态性,即服从正态分布N(μi,σ2)。尽管各总体的均数可以不等或相等,σ2则必须是相等的。所以,单因素试验的数学模型可归纳为:效应的可加性(additivity)、分布的正态性(normality)、方差的同质性(homogeneity)。这也是进行其它类型方差分析的前提或基本假定。
若将表(6-1)中的观测值xij(i=1,2,…,k;j=1,2,…,n)的数据结构(模型)用样本符号来表示,则
(6-6)
与(6-4)式比较可知,、、分别是μ、(μi-μ)=、(xij-)=的估计值。
(6-4)、(6-6)两式告诉我们:每个观测值都包含处理效应(μi-μ或),与误差(或),故kn个观测值的总变异可分解为处理间的变异和处理内的变异两部分。
二、平方和与自由度的剖分
我们知道,方差与标准差都可以用来度量样本的变异程度。因为方差在统计分析上有许多优点,而且不用开方,所以在方差分析中是用样本方差即均方(mean squares)来度量资料的变异程度的。表6-1中全部观测值的总变异可以用总均方来度量。将总变异分解为处理间变异和处理内变异,就是要将总均方分解为处理间均方和处理内均方。但这种分解是通过将总均方的分子──称为总离均差平方和,简称为总平方和,剖分成处理间平方和与处理内平方和两部分;将总均方的分母──称为总自由度,剖分成处理间自由度与处理内自由度两部分来实现的。
(一)总平方和的剖分 在表6-1中,反映全部观测值总变异的总平方和是各观测值xij与总平均数的离均差平方和,记为SST。即
因为
其中
所以 (6-7)
(6-7)式中,为各处理平均数与总平均数的离均差平方和与重复数n的乘积,反映了重复n次的处理间变异,称为处理间平方和,记为SSt,即
(6-7)式中,为各处理内离均差平方和之和,反映了各处理内的变异即误差,称为处理内平方和或误差平方和,记为SSe,即
于是有
SST =SSt+SSe (6-8)
(6-7),(6-8)两式是单因素试验结果总平方和、处理间平方和、处理内平方和的关系式。这个关系式中三种平方和的简便计算公式如下:
(6-9)
其中,C=x2··/kn称为矫正数。
(二)总自由度的剖分 在计算总平方和时,资料中的各个观测值要受这一条件的约束,故总自由度等于资料中观测值的总个数减一,即kn-1。总自由度记为dfT,即dfT=kn-1。
在计算处理间平方和时,各处理均数要受这一条件的约束,故处理间自由度为处理数减一,即k-1。处理间自由度记为dft,即dft=k-1。
在计算处理内平方和时,要受k个条件的约束,即(i=1,2,…,k)。故处理内自由度为资料中观测值的总个数减k,即kn-k 。处理内自由度记为dfe,即dfe=kn-k=k(n-1)。
因为
所以
(6-10)
综合以上各式得:
(6-11)
各部分平方和除以各自的自由度便得到总均方、处理间均方和处理内均方,分别记为(MST或)、MSt(或)和MSe(或)。即
(6-12)
总均方一般不等于处理间均方加处理内均方。
【例6.1】 某水产研究所为了比较四种不同配合饲料对鱼的饲喂效果,选取了条件基本相同的鱼20尾,随机分成四组,投喂不同饲料,经一个月试验以后,各组鱼的增重结果列于下表。
表6-2 饲喂不同饲料的鱼的增重 (单位:10g)
饲料
鱼的增重(xij)
合计
平均
A1
31.9
27.9
31.8
28.4
35.9
155.9
31.18
A2
24.8
25.7
26.8
27.9
26.2
131.4
26.28
A3
22.1
23.6
27.3
24.9
25.8
123.7
24.74
A4
27.0
30.8
29.0
24.5
28.5
139.8
27.96
合计
=550.8
这是一个单因素试验,处理数k=4,重复数n=5。各项平方和及自由度计算如下:
矫正数
总平方和
处理间平方和
处理内平方和
总自由度
处理间自由度
处理内自由度
用SSt、SSe分别除以dft和dfe便得到处理间均方MSt及处理内均方MSe。
因为方差分析中不涉及总均方的数值,所以不必计算之。
三、期望均方
如前所述,方差分析的一个基本假定是要求各处理观测值总体的方差相等,即(i=1,2,…,k)表示第i个处理观测值总体的方差。如果所分析的资料满足这个方差同质性的要求,那么各处理的样本方差S21,S22,…,S2k都是σ2的无偏估计(unbiased estimate)量。 (i=1,2,…,k)是由试验资料中第i个处理的n个观测值算得的方差。
显然,各的合并方差(以各处理内的自由度n-1为权的加权平均数)也是σ2的无偏估计量,且估计的精确度更高。很容易推证处理内均方MSe就是各的合并。
其中SSi、dfi(i=1,2,…,k)分别表示由试验资料中第i个 处理的n个观测值算得的平方和与自由度。这就是说,处理内均方MSe是误差方差σ2的无偏估计量。
试验中各处理所属总体的本质差异体现在处理效应的差异上。我们把称为效应方差,它也反映了各处理观测值总体平均数的变异程度,记为。
(6-13)
因为各未知,所以无法求得的确切值,只能通过试验结果中各处理均数的差异去估计。然而,并非的无偏估计量。这是因为处理观测值的均数间的差异实际上包含了两方面的内容:一是各处理本质上的差异即αi(或μi)间的差异,二是本身的抽样误差。统计学上已经证明,是+σ2/n的无偏估计量。因而,我们前面所计算的处理间均方MSt实际上是n+σ2的无偏估计量。
因为MSe是σ2的无偏估计量,MSt是n+σ2的无偏估计量,所以σ2为MSe的数学期望(mathematical expectation),n+σ2为MSt的数学期望。又因为它们是均方的期望值(expected value),故又称期望均方,简记为EMS(expected mean squares)。
当处理效应的方差=0,亦即各处理观测值总体平均数(i=1,2,…,k)相等时,处理间均方MSt与处理内均方一样,也是误差方差σ2的估计值,方差分析就是通过MSt 与MSe的比较来推断是否为零即是否相等的。
四、F分布与F检验
(一)F分布 设想我们作这样的抽样试验,即在一正态总体N(μ,σ2)中随机抽取样本含量为n的样本k个,将各样本观测值整理成表6-1的形式。此时所谓的各处理没有真实差异,各处理只是随机分的组。因此,由(6-12)式算出的和都是误差方差的估计量。以为分母,为分子,求其比值。统计学上把两个均方之比值称为F值。即
(6-14)
F具有两个自由度:。
若在给定的k和n的条件下,继续从该总体进行一系列抽样,则可获得一系列的F值。这些F值所具有的概率分布称为F分布(F distribution)。F分布密度曲线是随自由度df1、df2的变化而变化的一簇偏态曲线,其形态随着df1、df2的增大逐渐趋于对称,如图6-1所示。
F分布的取值范围是(0,+∞),其平均值=1。
用表示F分布的概率密度函数,则其分布函数为:
(6-15)
因而F分布右尾从到+∞的概率为:
(6-16)
附表4列出的是不同df1和df2下,P(F≥)=0.05和P(F≥)=0.01时的F值,即右尾概率α=0.05和α=0.01时的临界F值,一般记作,。如查附表4,当df1=3,df2=18时,F0.05(3,18)=3.16,F0.01(3,18)=5.09,表示如以df1=dft=3,df2=dfe=18在同一正态总体中连续抽样,则所得F值大于3.16的仅为5%,而大于5.09的仅为1%。
(二)F检验 附表4是专门为检验代表的总体方差是否比代表的总体方差大而设计的。若实际计算的F值大于,则F值在α=0.05的水平上显著,我们以95%的可靠性(即冒5%的风险)推断代表的总体方差大于代表的总体方差。这种用F值出现概率的大小推断两个总体方差是否相等的方法称为F检验(F-test)。
在方差分析中所进行的F检验目的在于推断处理间的差异是否存在,检验某项变异因素的效应方差是否为零。因此,在计算F值时总是以被检验因素的均方作分子,以误差均方作分母。应当注意,分母项的正确选择是由方差分析的模型和各项变异原因的期望均方决定的。
在单因素试验结果的方差分析中,无效假设为H0:μ1=μ2=…=μk,备择假设为HA:各
μi不全相等,或H0, =0,HA,≠0;F=MSt/MSe,也就是要判断处理间均方是否显著大于处理内(误差)均方。如果结论是肯定的,我们将否定H0;反之,不否定H0。反过来理解:如果H0是正确的,那么MSt与MSe都是总体误差σ2的估计值,理论上讲F值等于1;如果H0是不正确的,那么MSt之期望均方中的就不等于零,理论上讲F值就必大于1。但是由于抽样的原因,即使H0正确,F值也会出现大于1的情况。所以,只有F值大于1达到一定程度时,才有理由否定H0。
实际进行F检验时,是将由试验资料所算得的F值与根据df1=dft(大均方,即分子均方的自由度)、df2=dfe(小均方,即分母均方的自由度)查附表4所得的临界F值,相比较作出统计推断的。
若F<,即P>0.05,不能否定H0,统计学上,把这一检验结果表述为:各处理间差异不显著,在F值的右上方标记“ns”,或不标记符号;若≤F<,即0.01<P≤0.05,否定H0,接受HA,统计学上,把这一检验结果表述为:各处理间差异显著,在F值的右上方标记“*”;若F≥,即P≤0.01,否定H0,接受HA,统计学上,把这一检验结果表述为:各处理间差异极显著,在F值的右上方标记“**”。
对于【例6.1】,因为F=MSt/MSe=38.09/5.34=7.13**;根据df1=dft=3,df2=dfe=16查附表4,得F>F0.01(3,16) =5.29,P<0.01,表明四种不同饲料对鱼的增重效果差异极显著,用不同的饲料饲喂,增重是不同的。
在方差分析中,通常将变异来源、平方和、自由度、均方和F值归纳成一张方差分析表,见表6-3。
表6-3 表6-2资料方差分析表变异来源
平方和
自由度
均方
F值
处理间
114.27
3
38.09
7.13**
处理内
85.40
16
5.34
总变异
199.67
19
表中的F值应与相应的被检验因素齐行。因为经F检验差异极显著,故在F值7.13右上方标记“**”。
在实际进行方差分析时,只须计算出各项平方和与自由度,各项均方的计算及F值检验可在方差分析表上进行。
五、多重比较
F值显著或极显著,否定了无效假设HO,表明试验的总变异主要来源于处理间的变异,试验中各处理平均数间存在显著或极显著差异,但并不意味着每两个处理平均数间的差异都显著或极显著,也不能具体说明哪些处理平均数间有显著或极显著差异,哪些差异不显著。
因而,有必要进行两两处理平均数间的比较,以具体判断两两处理平均数间的差异显著性。
统计上把多个平均数两两间的相互比较称为多重比较(multiple comparisons)。
多重比较的方法甚多,常用的有最小显著差数法(LSD法)和最小显著极差法(LSR法),现分别介绍如下。
(一)最小显著差数法 (LSD法,least significant difference) 此法的基本作法是:在F检验显著的前提下,先计算出显著水平为α的最小显著差数,然后将任意两个处理平均数的差数的绝对值与其比较。若>LSDa时,则与在α水平上差异显著;反之,则在α水平上差异不显著。最小显著差数由(6-17)式计算。
(6-17)
式中:为在F检验中误差自由度下,显著水平为α的临界t值,为均数差异标准误,由(6-18)式算得。
(6-18)其中为F检验中的误差均方,n为各处理的重复数。
当显著水平α=0.05和0.01时,从t值表中查出和,代入(6-17)式得:
(6-19)
利用LSD法进行多重比较时,可按如下步骤进行:
(1)列出平均数的多重比较表,比较表中各处理按其平均数从大到小自上而下排列;
(2)计算最小显著差数和;
(3)将平均数多重比较表中两两平均数的差数与、比较,作出统计推断。
对于【例6.1】,各处理的多重比较如表6-4所示。
表6-4 四种饲料平均增重的多重比较表(LSD法)
处理
平均数
-24.74
-26.28
-27.96
A1
31.18
6.44**
4.90**
3.22*
A4
27.96
3.22*
1.68 ns
A2
26.28
1.54ns
A3
24.74
注:表中A4与 A3的差数3.22用q检验法与新复极差法时,在α=0.05的水平上不显著。
因为,;查t值表得:t0.05(dfe) =t0.05(16) =2.120,
t0.01(dfe)=t0.01(16)=2.921
所以,显著水平为0.05与0.01的最小显著差数为
将表6-4中的6个差数与,比较:小于者不显著,在差数的右上方标记“ns”,或不标记符号;介于与之间者显著,在差数的右上方标记“*”;大于者极显著,在差数的右上方标记“**”。检验结果除差数1.68、1.54不显著、3.22显著外,其余两个差数6.44、4.90极显著。表明A1饲料对鱼的增重效果极显著高于A2和A3,显著高于A4;A4饲料对鱼的增重效果极显著高于A3饲料;A4 与A2、A2与A3的增重效果差异不显著,以A1饲料对鱼的增重效果最佳。
关于法的应用有以下几点说明:
1、法实质上就是检验法。它是将检验中由所求得的之绝对值与临界值的比较转为将各对均数差值的绝对值与最小显著差数的比较而作出统计推断的。但是,由于法是利用F检验中的误差自由度查临界值,利用误差均方计算均数差异标准误,因而法又不同于每次利用两组数据进行多个平均数两两比较的检验法。它解决了本章开头指出的检验法检验过程烦琐,无统一的试验误差且估计误差的精确性和检验的灵敏性低这两个问题。但法并未解决推断的可靠性降低、犯I型错误的概率变大的问题。
2、有人提出,与检验任何两个均数间的差异相比较,法适用于各处理组与对照组比较而处理组间不进行比较的比较形式。实际上关于这种形式的比较更适用的方法有顿纳特(Dunnett)法(关于此法,读者可参阅其它有关统计书籍)。
3、因为法实质上是检验,故有人指出其最适宜的比较形式是:在进行试验设计时就确定各处理只是固定的两个两个相比,每个处理平均数在比较中只比较一次。例如,在一个试验中共有4个处理,设计时已确定只是处理1与处理2、处理3与处理4(或1与3、2与4;或1与4、2与3)比较,而其它的处理间不进行比较。因为这种比较形式实际上不涉及多个均数的极差问题,所以不会增大犯I型错误的概率。
综上所述,对于多个处理平均数所有可能的两两比较,法的优点在于方法比较简便,克服一般检验法所具有的某些缺点,但是由于没有考虑相互比较的处理平均数依数值大小排列上的秩次,故仍有推断可靠性低、犯I型错误概率增大的问题。为克服此弊病,统计学家提出了最小显著极差法。
(二)最小显著极差法(LSR法,Least significant ranges) 法的特点是把平均数的差数看成是平均数的极差,根据极差范围内所包含的处理数(称为秩次距)的不同而采用不同的检验尺度,以克服法的不足。这些在显著水平α上依秩次距的不同而采用的不同的检验尺度叫做最小显著极差。例如有10个要相互比较,先将10个依其数值大小顺次排列,两极端平均数的差数(极差)的显著性,由其差数是否大于秩次距=10时的最小显著极差决定(≥为显著,<为不显著=;而后是秩次距=9的平均数的极差的显著性,则由极差是否大于=9时的最小显著极差决定;……直到任何两个相邻平均数的差数的显著性由这些差数是否大于秩次距k=2时的最小显著极差决定为止。因此,有个平均数相互比较,就有-1种秩次距(,-1,-2,…,2),因而需求得-1个最小显著极差(),分别作为判断具有相应秩次距的平均数的极差是否显著的标准。
因为法是一种极差检验法,所以当一个平均数大集合的极差不显著时,其中所包含的各个较小集合极差也应一概作不显著处理。
法克服了法的不足,但检验的工作量有所增加。常用的法有检验法和新复极差法两种。
1、检验法(q test) 此法是以统计量的概率分布为基础的。值由下式求得:
(6-20)
式中,ω为极差,为标准误,分布依赖于误差自由度dfe及秩次距k。
利用检验法进行多重比较时,为了简便起见,不是将由(6-20)式算出的值与临界值比较,而是将极差与比较,从而作出统计推断。即为α水平上的最小显著极差。
(6-21)
当显著水平α=0.05和0.01时,从附表5(值表)中根据自由度及秩次距查出和代入(6-21)式得
(6-22)
实际利用检验法进行多重比较时,可按如下步骤进行:
(1)列出平均数多重比较表;
(2)由自由度、秩次距查临界值,计算最小显著极差0.05,k,0.01,k;
(3)将平均数多重比较表中的各极差与相应的最小显著极差0.05,k,0.01,k比较,作出统计推断。
对于【例6.1】,各处理平均数多重比较表同表6-4。在表6-4中,极差1.54、1.68、3.22的秩次距为2;极差3.22、4.90的秩次距为3;极差6.44的秩次距为4。
因为,=5.34,故标准误为
根据=16,=2,3,4由附表5查出0.05、0.01水平下临界值,乘以标准误求得各最小显著极差,所得结果列于表6-5。
表6-5 q值及LSR值
dfe
秩次距k
q0.05
q0.01
LSR0.05
LSR0.01
16
2
3.00
4.13
3.099
4.266
3
3.65
4.79
3.770
4.948
4
4.05
5.19
4.184
5.361
将表6-4中的极差1.54、1.68、3.22与表6-5中的最小显著极差3.099、4.266比较;将极差3.22、4.90与3.770、4.948比较;将极差6.44与4.184、5.361比较。检验结果,除A4与 A3的差数3.22由LSD法比较时的差异显著变为差异不显著外,其余检验结果同法。
2、新复极差法(new multiple range method) 此法是由邓肯(Duncan)于1955年提出,故又称Duncan法,此法还称SSR法(shortest significant ranges)。
新复极差法与检验法的检验步骤相同,唯一不同的是计算最小显著极差时需查表(附表6)而不是查值表。最小显著极差计算公式为
(6-23)
其中是根据显著水平α、误差自由度、秩次距,由表查得的临界值,。α=0.05和α=0.01水平下的最小显著极差为:
(6-24)
对于【例6.1】,各处理均数多重比较表同表6-4。
已算出=1.033,依=16,=2,3,4,由附表6查临界0.05(16,k)和0.01(16,k)值,乘以=1.033,求得各最小显著极差,所得结果列于表6-6。
表6-6 SSR值与LSR值
dfe
秩次距k
SSR0.05
SSR0.01
LSR0.05
LSR0.01
2
3.00
4.13
3.099
4.266
16
3
3.15
4.34
3.254
4.483
4
3.23
4.45
3.337
4.597
将表6-4中的平均数差数(极差)与表6-6中的最小显著极差比较,检验结果与检验法相同。
当各处理重复数不等时,为简便起见,不论法还是法,可用(6-25)式计算出一个各处理平均的重复数n0,以代替计算或所需的n。
(6-25)
式中为试验的处理数, (i=1,2,…,k)为第处理的重复数。
以上介绍的三种多重比较方法,其检验尺度有如下关系:
法≤新复极差法≤检验法当秩次距=2时,取等号;秩次距≥3时,取小于号。在多重比较中,法的尺度最小,检验法尺度最大,新复极差法尺度居中。用上述排列顺序前面方法检验显著的差数,用后面方法检验未必显著;用后面方法检验显著的差数,用前面方法检验必然显著。一般地讲,一个试验资料,究竟采用哪一种多重比较方法,主要应根据否定一个正确的H0和接受一个不正确的H0的相对重要性来决定。如果否定正确的H0是事关重大或后果严重的,或对试验要求严格时,用检验法较为妥当;如果接受一个不正确的H0是事关重大或后果严重的,则宜用新复极差法。生物试验中,由于试验误差较大,常采用新复极差法;F检验显著后,为了简便,也可采用法。
(三)多重比较结果的表示法 各平均数经多重比较后,应以简明的形式将结果表示出来,常用的表示方法有以下两种。
1、三角形法 此法是将多重比较结果直接标记在平均数多重比较表上,如表6-4所示。由于在多重比较表中各个平均数差数构成一个三角形阵列,故称为三角形法。此法的优点是简便直观,缺点是占的篇幅较大。
2、标记字母法 此法是先将各处理平均数由大到小自上而下排列;然后在最大平均数后标记字母,并将该平均数与以下各平均数依次相比,凡差异不显著标记同一字母,直到某一个与其差异显著的平均数标记字母;再以标有字母的平均数为标准,与上方比它大的各个平均数比较,凡差异不显著一律再加标,直至显著为止;再以标记有字母的最大平均数为标准,与下面各未标记字母的平均数相比,凡差异不显著,继续标记字母,直至某一个与其差异显著的平均数标记;……;如此重复下去,直至最小一个平均数被标记比较完毕为止。这样,各平均数间凡有一个相同字母的即为差异不显著,凡无相同字母的即为差异显著。用小写拉丁字母表示显著水平α=0.05,用大写拉丁字母表示显著水平α=0.01。在利用字母标记法表示多重比较结果时,常在三角形法的基础上进行。此法的优点是占篇幅小,在科技文献中常见。
对于【例6.1】,现根据表6-4所表示的多重比较结果用字母标记如表6-7所示(用新复极差法检验,表6-4中A4与A3的差数3.22在α=0.05的水平上不显著,其余的与LSD法同)。
表6-7 表6-4多重比较结果的字母标记(SSR法)
处理
平均数
α=0.05
α=0.01
A1
31.18
a
A
A4
27.96
b
AB
A2
26.28
b
B
A3
24.74
b
B
在表6-7中,先将各处理平均数由大到小自上而下排列。当显著水平α=0.05时,先在平均数31.18行上标记字母;由于31.18与27.96之差为3.22,在α=0.05水平上显著,所以在平均数27.96行上标记字母b;然后以标记字母b的平均数27.96与其下方的平均数26.28比较,差数为1.68,在α=0.05水平上不显著,所以在平均数26.28行上标记字母b;再将平均数27.96与平均数24.74比较,差数为3.22,在α=0.05水平上不显著,所以在平均数24.74行上标记字母b。类似地,可以在α=0.01将各处理平均数标记上字母,结果见表6-7。q检验结果与SSR法检验结果相同。
由表6-7看到,A1饲料对鱼的平均增重极显著地高于A2和A3饲料,显著高于A4饲料;A4、A2、A3三种饲料对鱼的平均增重差异不显著。四种饲料其中以A1饲料对鱼的增重效果最好。
应当注意,无论采用哪种方法表示多重比较结果,都应注明采用的是哪一种多重比较法。
*六、单一自由度的正交比较在从事一项试验时,试验工作者往往有一些特殊问题需要回答。这可以通过有计划地安排一些处理,以便从中获得资料进行统计检验,据以回答各种问题。
【例6.2】 某试验研究不同药物对腹水癌的治疗效果,将患腹水癌的25只小白鼠随机分为5组,每组5只。其中A1组不用药作为对照,A2、A3为用两个不同的中药组,A4、A5为用两个不同的西药组,各组小白鼠的存活天数如表6-8所示。
表6-8 用不同药物治疗患腹水癌的小白鼠的存活天数药物
各鼠存活天数(xij)
合计
平均
A1
15
16
15
17
18
81
16.2
A2
45
42
50
38
39
214
42.8
A3
30
35
29
31
35
160
32.0
A4
31
28
20
25
30
134
26.8
A5
40
35
31
32
30
168
33.6
合计
=757
这是一个单因素试验,其中k=5,n=5,按照前面介绍的方法进行方差分析(具体计算过程略),可以得到方差分析表,见表6-9。
表6-9 表6-8资料方差分析表变异来源
平方和
自由度
均方
F值
处理间
1905.44
4
476.36
34.22**
处理内
277.60
20
13.88
总变异
2183.04
24
对于【例6.2】资料,试验者可能对下述问题感兴趣:
(1)不用药物治疗与用药物治疗;
(2)中药与西药;
(3)中药A2与中药A3;
(4)西药A4与西药A5;
相比结果如何?
显然,用前述多重比较方法是无法回答或不能很好地回答这些问题的。如果事先按照一定的原则设计好(k-1)个正交比较,将处理间平方和根据设计要求剖分成有意义的各具一个自由度的比较项,然后用F检验(此时df1=1)便可明确地回答上述问题。这就是所谓单一自由度的正交比较(orthogonal comparison of single degree of freedom),也叫单一自由度的独立比较(independent comparison of single degree of freedom)。单一自由度的正交比较有成组比较和趋势比较两种情况,后者要涉及到回归分析。这里结合解答【例6.2】的上述四个问题,仅就成组比较予以介绍。
首先将表6-8各处理的总存活天数抄于表6-10,然后写出各预定比较的正交系数Ci(orthogonal coefficient)。
表6-10 【例6.2】资料单一自由度正交比较的正交系数和平方和的计算比 较
处理和各处理存活总天数
Di
ΣC2i
SSi
A1
A2
A3
A4
A5
81
214
160
134
168
A1与A2+ A3+ A4+ A5
+4
-1
-1
-1
-1
-352
20
1239.04
A2+ A3与A4+ A5
0
+1
+1
-1
-1
72
4
259.20
A2与A3
0
+1
-1
0
0
54
2
291.60
A4与A5
0
0
0
+1
-1
-34
2
115.60
合 计
1905.44
表6-10中各比较项的正交系数是按下述规则构成的:
(1)如果比较的两个组包含的处理数目相等,则把系数+1分配给一个组的各处理,把系数-1分配给另一组的各处理,至于哪一组应取正号还是负号是无关紧要的。如A2+A3与A4+A5两组比较(属中药与西药比较),A2、A3两处理各记系数+1,A4、A5两处理各记系数-1。
(2)如果比较的两个组包含的处理数目不相等,则分配到第一组的系数等于第二组的处理数;而分配到第二组的系数等于第一组的处理数,但符号相反。如A1与A2+A3+A4+A5的比较,第一组只有1个处理,第二组有4个处理,故分配给A1处理的系数为+4,而分配给处理A2、A3、A4、A5的系数为-1。又如,假设在5个处理中,前2个处理与后3个处理比较,其系数应是+3、+3、-2、-2、-2。
(3)把系数约简成最小的整数。例如,2个处理为一组与4个处理为一组比较,依照规则(2)有系数+4、+4、-2、-2、-2、-2,这些系数应约简成+2、+2、-1、-1、-1、-1。
(4)有时,一个比较可能是另两个比较互作的结果。此时,这一比较的系数可用该两个比较的相应系数相乘求得。如包含4个处理的肥育试验中,两种水平的试畜(B1,B2)和两种水平的饲料(F1,F2),其比较举例如下:
比较
B1F1
B1F2
B2F1
B2F2
品种间(B)
-1
-1
+1
+1
饲料间(F)
-1
+1
-1
+1
B×F间
+1
-1
-1
+1
表中第1和第2两比较的系数是按照规则(1)得到的;互作的系数则是第1、2行系数相乘的结果。
各个比较的正交系数确定后,便可获得每一比较的总和数的差数Di,其通式为:
(6-26)
其中Ci为正交系数,xi.为第i处理的总和。这样表6-10中各比较的Di为:
D1=4×81-1×214-1×160-1×134-1×168=-352
D2=1×214+1×160-1×134-1×168=72
D3=1×214-1×160=54
D4=1×134-1×168=-34
进而可求得各比较的平方和SSi:
(6-27)
式中的n为各处理的重复数,本例n=5。对第一个比较:
同理可计算出SS2=259.20,SS3=291.60,SS4=115.60。计算结果列入表6-10中。
这里注意到,SS1+SS2+SS3+SS4=1905.44,正是表6-9中处理间平方和SSt。这也就是说,利用上面的方法我们已将表6-9处理间具4个自由度的平方和再度分解为各具一个自由度的4个正交比较的平方和。因此,得到单一自由度正交比较的方差分析表6-11。
表6-11 表6-8资料单一自由度正交比较方差分析变异来源
df
SS
MS
F
处理间
4
1905.44
476.36
34.32**
不用药与用药
1
1239.04
1239.04
89.27**
中药与西药
1
259.20
259.20
18.67**
中药A2与中药A3
1
291.60
291.60
21.01**
西药A4与西药A5
1
115.60
115.60
8.33**
误 差
20
277.60
13.88
总变异
24
2183.04
将表6-11中各个比较的均方与误差均方MSe相比,得到F值。查F值表,df1=1,df2=20时,F0.05(1,20) =4.35,F0.01(1,20) =8.10。所以,在这一试验的上述4个比较差异都极显著。
正确进行单一自由度正交比较的关键是正确确定比较的内容和正确构造比较的正交系数。在具体实施时应注意以下三个条件:
(1)设有k个处理,正交比较的数目最多能安排k-1个;若进行单一自由度正交比较,则比较数目必须为k-1,以使每一比较占有且仅占有一个自由度。
(2)每一比较的系数之和必须为零,即ΣCi=0,以使每一比较都是均衡的。
(3)任两个比较的相应系数乘积之和必须为零,即ΣCiCj=0,以保证SSt的独立分解。
对于条件(2),只要遵照上述确定比较项系数的四条规则即可。对于条件(3),主要是在确定比较内容时,若某一处理(或处理组)已经和其余处理(或处理组)作过一次比较,则该处理(或处理组)就不能再参加另外的比较。否则就会破坏ΣCiCj=0这一条件。只要同时满足了(2),(3)两个条件,就能保证所实施的比较是正交的,因而也是独立的。若这样的比较有k-1个,就是正确地进行了一次单一自由度的正交比较。
单一自由度正交比较的优点在于:
(1)它能给人们解答有关处理效应的一些特殊重要的问题;处理有多少个自由度,就能解答多少个独立的问题,不过这些问题应在试验设计时就要计划好。
(2)计算简单。
(3)对处理间平方和提供了一个有用的核对方法。即单一自由度的平方和累加起来应等于被分解的处理间的平方和。否则,不是计算有误,就是分解并非独立。
七、方差分析的基本步骤在本节中,结合单因素试验结果方差分析的实例,较详细地介绍了方差分析的基本原理和步骤。关于方差分析的基本步骤现归纳如下:
(一)计算各项平方和与自由度。
(二)列出方差分析表,进行F检验。
(三)若F检验显著,则进行多重比较。多重比较的方法有最小显著差数法(LSD法)和最小显著极差法(LSR法:包括q检验法和新复极差法)。表示多重比较结果的方法有三角形法和标记字母法。
此外,若有一些特殊重要的问题需要回答,多重比较又无法或不能很好地回答这些问题时,则应考虑单一自由度正交比较法。对这些特殊问题正确而有效的回答,依赖于正确的试验设计和单一自由度正交比较法的正确应用。
第二节 单因素试验资料的方差分析
在方差分析中,根据所研究试验因素的多少,可分为单因素、两因素和多因素试验资料的方差分析。单因素试验资料的方差分析是其中最简单的一种,目的在于正确判断该试验因素各水平的优劣。根据各处理内重复数是否相等,单因素方差分析又分为重复数相等和重复数不等两种情况。上节讨论的是重复数相等的情况。当重复数不等时,各项平方和与自由度的计算,多重比较中标准误的计算略有不同。本节各举一例予以说明。
一、各处理重复数相等的方差分析
【例6.3】抽测5个不同品种的若干头母猪的窝产仔数,结果见表6-12,试检验不同品种母猪平均窝产仔数的差异是否显著。
表6-12 五个不同品种母猪的窝产仔数品种号
观 察 值xij (头/窝)
xi.
1
8
13
12
9
9
51
10.2
2
7
8
10
9
7
41
8.2
3
13
14
10
11
12
60
12
4
13
9
8
8
10
48
9.6
5
12
11
15
14
13
65
13
合计
x.,=265
这是一个单因素试验,k=5,n=5。现对此试验结果进行方差分析如下:
1、计算各项平方和与自由度
2、列出方差分析表,进行F检验
表6-13 不同品种母猪的窝产仔数的方差分析表变异来源
平方和
自由度
均方
F值
品种间
73.20
4
18.30
5.83**
误差
62.80
20
3.14
总变异
136.00
24
根据df1=dft=4,df2=dfe=20查临界F值得:F0.05(4,20) =2.87,F0.05(4,20) =4.43,因为F>F0.01(4,20),即P<0.01,表明品种间产仔数的差异达到1%显著水平。
3、多重比较 采用新复极差法,各处理平均数多重比较表见表6-14。
表6-14 不同品种母猪的平均窝产仔数多重比较表(SSR法)
品种
平均数
-8.2
-9.6
-10.2
-12.0
5
13.0
4.8**
3.4*
2.8*
1.0
3
12.0
3.8**
2.4
1.8
1
10.2
2.0
0.6
4
9.6
1.4
2
8.2
因为MSe=3.14,n=5,所以为:
根据dfe=20,秩次距k=2,3,4,5由附表6查出α=0.05和α=0.01的各临界SSR值,乘以=0.7925,即得各最小显著极差,所得结果列于表6-15。
表6-15 SSR值及LSR值
dfe
秩次距k
SSR0.05
SSR0.01
LSR0.05
LSR0.01
20
2
2.95
4.02
2.339
3.188
3
3.10
4.22
2.458
3.346
4
3.18
4.33
2.522
3.434
5
3.25
4.40
2.577
3.489
将表6-14中的差数与表6-15中相应的最小显著极差比较并标记检验结果。检验结果表明:5号品种母猪的平均窝产仔数极显著高于2号品种母猪,显著高于4号和1号品种,但与3号品种差异不显著;3号品种母猪的平均窝产仔数极显著高于2号品种,与1号和4号品种差异不显著;1号、4号、2号品种母猪的平均窝产仔数间差异均不显著。五个品种中以5号品种母猪的窝产仔数最高,3号品种次之,2号品种母猪的窝产仔数最低。
二、各处理重复数不等的方差分析这种情况下方差分析步骤与各处理重复数相等的情况相同,只是在有关计算公式上略有差异。
设处理数为k;各处理重复数为n1,n2,…,nk;试验观测值总数为N=Σni。则
(6-28)
【例6.4】 5个不同品种猪的育肥试验,后期30天增重(kg)如表6-16所示。试比较品种间增重有无差异。
表6-16 5个品种猪30天增重品种
增 重 (kg)
ni
xi.
B1
21.5
19.5
20.0
22.0
18.0
20.0
6
121.0
20.2
B2
16.0
18.5
17.0
15.5
20.0
16.0
6
103.0
17.2
B3
19.0
17.5
20.0
18.0
17.0
5
91.5
18.3
B4
21.0
18.5
19.0
20.0
4
78.5
19.6
B5
15.5
18.0
17.0
16.0
4
66.5
16.6
合计
25
460.5
此例处理数k=5,各处理重复数不等。现对此试验结果进行方差分析如下:
1、计算各项平方和与自由度利用公式(6-28)计算
2、列出方差分析表,进行F检验临界F值为:F0.05(4,20) =2.87,F0.01(4,20) =4.43,因为品种间的F值5.99>F0.01(4,20),P<0.01,表明品种间差异极显著。
表6-17 5个品种育肥猪增重方差分析表变异来源
平方和
自由度
均方
F值
品种间
46.50
4
11.63
5.99**
品种内(误差)
38.84
20
1.94
总变异
85.34
24
3、多重比较 采用新复极差法,各处理平均数多重比较表见表6-18。
因为各处理重复数不等,应先由公式(6-25)计算出平均重复次数n0来代替标准误中的n,此例
于是,标准误为,
表6-18 5个品种育肥猪平均增重多重比较表(SSR法)
品种
平均数
-16.6
-17.2
-18.3
-19.6
B1
20.2
3.6**
3.0**
1.9
0.6
B4
19.6
3.0**
2.4*
1.3
B3
18.3
1.7
1.1
B2
17.2
0.6
B5
16.6
根据dfe=20,秩次距k=2,3,4,5,从附表6中查出α=0.05与α=0.01的临界SSR值,乘以=0.63,即得各最小显极差,所得结果列于表6-19。
表6-19 SSR值及LSR值表
dfe
秩次距(k)
SSR0.05
SSR0.01
LSR0.05
LSR0.01
20
2
2.95
4.02
1.844
2.513
3
3.10
4.22
1.938
2.638
4
3.18
4.33
1.988
2.706
5
3.25
4.40
2.031
2.750
将表6-18中的各个差数与表6-19中相应的最小显著极差比较,作出推断。检验结果已标记在表6-18中。
多重比较结果表明B1、B4品种的平均增重极显著或显著高于B2、B5品种的平均增重,其余不同品种之间差异不显著。可以认为B1、B4品种增重最快,B2、B5品种增重较差,B3品种居中。
单因素试验只能解决一个因素各水平之间的比较问题。如上述研究几个品种猪的育肥试验,只能比较几个品种的增重快慢。而影响增重的其它因素,如饲料中能量的高低、蛋白质含量的多少、饲喂方式及环境温度的变化等就无法得以研究。实际上,往往对这些因素有必要同时考察。只有这样才能作出更加符合客观实际的科学结论,才有更大的应用价值。这就要求进行两因素或多因素试验。下面介绍两因素试验资料的方差分析法。
第三节 两因素试验资料的方差分析
两因素试验资料的方差分析是指对试验指标同时受到两个试验因素作用的试验资料的方差分析。两因素试验按水平组合的方式不同,分为交叉分组和系统分组两类,因而对试验资料的方差分析方法也分为交叉分组方差分析和系统分组方差分析两种,现分别介绍如下。
一、交叉分组资料的方差分析设试验考察A、B两个因素,A因素分个水平,B因素分b个水平。所谓交叉分组是指A因素每个水平与B因素的每个水平都要碰到,两者交叉搭配形成b个水平组合即处理,试验因素A、B在试验中处于平等地位,试验单位分成b个组,每组随机接受一种处理,因而试验数据也按两因素两方向分组。这种试验以各处理是单独观测值还是有重复观测值又分为两种类型。
(一)两因素单独观测值试验资料的方差分析 对于A、B两个试验因素的全部b个水平组合,每个水平组合只有一个观测值,全试验共有b个观测值,其数据模式如表6-20所示。
表6-20 两因素单独观测值试验数据模式
A因素
B因素
合计xi.
平均
B1
B2
……
Bj
……
Bb
A1
x11
x12
……
x1j
……
x1b
x1.
A2
x21
x22
……
x2j
……
x2b
x2.
……
……
Ai
xi1
xi2
……
xij
……
xib
xi.
……
……
Aa
xa1
xa2
……
xaj
……
xab
xa.
合计x.j
x.1
x.2
……
x.j
……
x.b
x..
平均
……
……
表6-20中
,
两因素单独观测值试验的数学模型为:
(6-29)
式中,μ为总平均数;αi,βj分别为Ai、Bj的效应,αi=μi-μ,βj=μj-μ,μi、μj分别为Ai、Bj观测值总体平均数,且Σαi=0,Σβj=0;εij为随机误差,相互独立,且服从N(0,σ2)。
交叉分组两因素单独观测值的试验,A因素的每个水平有b次重复,B因素的每个水平有次重复,每个观测值同时受到A、B两因素及随机误差的作用。因此全部b个观测值的总变异可以剖分为A因素水平间变异、B因素水平间变异及试验误差三部分;自由度也相应剖分。平方和与自由度的剖分式如下:
(6-30)
各项平方和与自由度的计算公式为矫正数
总平方和
A因素平方和
B因素平方和 (6-31)
误差平方和 SSe=SST-SSA-SSB
总自由度 dfT=ab-1
A因素自由度 dfA=a-1
B因素自由度 dfB=b-1
误差自由度 dfe= dfT - dfA - dfB =(a-1)(b-1)
相应均方为
【例6.5】 为研究雌激素对子宫发育的影响,现有4窝不同品系未成年的大白鼠,每窝3只,随机分别注射不同剂量的雌激素,然后在相同条件下试验,并称得它们的子宫重量,见表6-21,试作方差分析。
表6-21 各品系大白鼠不同剂量雌激素的子宫重量(g)
品系(A)
雌激素注射剂量(mg/100g)(B)
合计xi.
平均
B1(0.2)
B2(0.4)
B3(0.8)
A1
106
116
145
367
122.3
A2
42
68
115
225
75.0
A3
70
111
133
314
104.7
A4
42
63
87
192
64.0
合计x.j
260
358
480
1098
平均
65.0
89.5
120.0
这是一个两因素单独观测值试验结果。A因素(品系)有4个水平,即=4;B因素(雌激素注射剂量)有3个水平,即b=3,共有×b=3×4=12个观测值。方差分析如下:
1、计算各项平方和与自由度根据公式(6-31)有:
2、列出方差分析表,进行F检验
表6-22 表6-21资料的方差分析表变异来源
平方和
自由度
均方
F值
A因素(品系)
6457.6667
3
2152.5556
23.77**
B因素(剂量)
6074.0000
2
3037.0000
33.54**
误差
543.3333
6
90.5556
总变异
13075.0000
11
根据df1=dfA=3,df2=dfe=6查临界F值,F0.01(3,6)=9.78;根据df1=dfB=2,df2=dfe=6查临界F值,F0.01(2,6)=10.92。
因为A因素的F值23.77>F0.01(3,6),P<0.01,差异极显著;B因素的F值33.54>F0.01(2,6),P<0.01,差异极显著。说明不同品系和不同雌激素剂量对大白鼠子宫的发育均有极显著影响,有必要进一步对A、B两因素不同水平的平均测定结果进行多重比较。
3、多重比较
(1)不同品系的子宫平均重量比较 各品系平均数多重比较表见表6-23。
表6-23 各品系子宫平均重量多重比较(q法)
品系
平均数
-64.0
-75.0
-104.7
A1
122.3
58.3**
47.3**
17.6
A3
104.7
40.7**
29.7**
A2
75.0
11.0
A4
64.0
在两因素单独观测值试验情况下,因为A因素(本例为品系)每一水平的重复数恰为B因素的水平数b,故A因素的标准误,此例b=3,MSe=90.5556,故
根据dfe=6,秩次距k=2,3,4从附表5中查出α=0.05和α=0.01的临界q值,与标准误
相乘,计算出最小显著极差LSR,结果见表6-24。
表6-24 q值及LSR值
dfe
秩次距k
q0.05
q0.01
LSR0.05
LSR0.01
6
2
3.46
5.24
19.01
28.79
3
4.34
6.33
23.84
34.78
4
4.90
7.03
26.92
38.62
将表6-23中各差数与表6-24中相应最小显著极差比较,作出推断。检验结果已标记在表6-23中。结果表明,A1、A 3品系与A2、A 4品系的子宫平均重量均有极显著的差异;但A1与A 3及A2与A4品系间差异不显著。
(2)不同激素剂量的子宫平均重量比较 B因素各剂量水平平均数比较表见表6-25。
表6-25 不同雌激素剂量的子宫平均重量多重比较(q法)
雌激素剂量
平均数
-65.0
-89.5
B3(0.8)
120.0
55.0**
30.5**
B2(0.4)
89.5
24.5*
B1(0.2)
65.0
在两因素单独观测值试验情况下,B因素(本例为雌激素剂量)每一水平的重复数恰为A因素的水平数a,故B因素的标准误,此例=4,MSe=90.5556。故
根据dfe=6,秩次距k=2,3查临界q值并与相乘,求得最小显著极差LSR,见表6-26。
表6-26 q值与LSR值
dfe
秩次距
q0.05
q0.01
LSR0.05
LSR0.01
6
2
3.46
5.24
16.46
24.93
3
4.34
6.33
20.65
30.12
将表6-25各差数与表6-26相应最小显著极差比较,作出推断,比较结果已标记在表6-25中。结果表明,注射雌激素剂量为0.8 mg的大白鼠子宫重量极显著大于注射剂量为0.4 mg和0.2mg的子宫重量,而后两种注射剂量的子宫重量间也有显著差异。
在进行两因素或多因素的试验时,除了研究每一因素对试验指标的影响外,往往更希望研究因素之间的交互作用。例如,通过对畜禽所处环境的温度、湿度、光照、噪音以及空气中各种有害气体等对畜禽生长发育的影响有无交互作用的研究,对最终确定有利于畜禽生产的最佳环境控制是有重要意义的。对畜禽的不同品种(品系)及其与饲料条件、各种环境因素互作的研究,有利于合理利用品种资源充分发挥不同畜禽的生产潜能。又如在饲料科学中,常常要研究各种营养成分间有无交互作用,从而找到最佳的饲料配方,这对于合理利用饲料原料提高饲养水平等都是非常有意义的。
前面介绍的两因素单独观测值试验只适用于两个因素间无交互作用的情况。若两因素间有交互作用,则每个水平组合中只设一个试验单位(观察单位)的试验设计是不正确的或不完善的。这是因为:
(1)在这种情况下,(6-31)式中SSe,dfe实际上是A、B两因素交互作用平方和与自由度,
所算得的MSe是交互作用均方,主要反映由交互作用引起的变异。
(2)这时若仍按【例6.5】所采用的方法进行方差分析,由于误差均方值大(包含交互作用在内),有可能掩盖试验因素的显著性,从而增大犯Ⅱ型错误的概率。
(3)因为每个水平组合只有一个观测值,所以无法估计真正的试验误差,因而不可能对因素的交互作用进行研究。
因此,进行两因素或多因素试验时,一般应设置重复,以便正确估计试验误差,深入研究因素间的交互作用。
(二)两因素有重复观测值试验的方差分析 对两因素和多因素有重复观测值试验结果的分析,能研究因素的简单效应、主效应和因素间的交互作用(互作)效应。现介绍这三种效应的意义如下:
1、简单效应(simple effect) 在某因素同一水平上,另一因素不同水平对试验指标的影响称为简单效应。如在表6-27中,在A1(不加赖氨酸)上,B2- B 1=480-470=10;在A2(加赖氨酸)上,B2- B1=512-472=40;在B1(不加蛋氨酸)上,A2-A1=472-470=2;在B2(加蛋氨酸)上,A2-A1=512-480=32等就是简单效应。简单效应实际上是特殊水平组合间的差数。
表6-27 日粮中加与不加赖、蛋氨酸雏鸡的增重(g)
A1
A2
A2-A1
平均
B1
470
472
2
471
B2
480
512
32
496
B2-B1
10
40
25
平均
475
492
17
2、主效应(main effect) 由于因素水平的改变而引起的平均数的改变量称为主效应。如在表6-27中,当A因素由A1水平变到A2水平时,A因素的主效应为A2水平的平均数减去A1水平的平均数,即
A因素的主效应=492-475=17
同理 B因素的主效应=496-471=25
主效应也就是简单效应的平均,如(32+2)÷2=17,(40+10)÷2=25。
3、交互作用 (互作,interaction) 在多因素试验中,一个因素的作用要受到另一个因素的影响,表现为某一因素在另一因素的不同水平上所产生的效应不同,这种现象称为该两因素存在交互作用。如在表6-27中,
A在B1水平上的效应=472-470=2
A在B2水平上的效应=512-480=32
B在A1水平上的效应=480-470=10
B在A2水平上的效应=512-472=40
显而易见,A的效应随着B因素水平的不同而不同,反之亦然。我们说A、B两因素间存在交互作用,记为A×B。或者说,某一因素的简单效应随着另一因素水平的变化而变化时,则称该两因素存在交互作用。互作效应可由(A1B1+A2B2-A1B2-A2B1)/2来估计。表6-27中的互作效应为
(470+512-480-472)/2=15
所谓互作效应实际指的就是由于两个或两个以上试验因素的相互作用而产生的效应。如在表6-27中,A2B1-A1B1=472-470=2,这是添加赖氨酸单独作用的效应;A1B2-A1B1=480-470=10,这是添加蛋氨酸单独作用的效应,两者单独作用的效应总和是2+10=12;但是,A2B2-A1B1=512-470=42,而不是12;这就是说,同时添加赖氨酸、蛋氨酸产生的效应不是单独添加一种氨基酸所产生效应的和,而另外多增加了30,这个30是两种氨基酸共同作用的结果。若将其平均分到每种氨基酸头上,则各为15,即估计的互作效应。
我们把具有正效应的互作称为正的交互作用;把具有负效应的互作称为负的交互作用;互作效应为零则称无交互作用。没有交互作用的因素是相互独立的因素,此时,不论在某一因素哪个水平上,另一因素的简单效应是相等的。
关于无互作和负互作的直观理解,读者可将表6-27中,A2B2位置上的数值改为482和任一小于482的数后具体计算一下即可。
下面介绍两因素有重复观测值试验结果的方差分析方法。
设A与B两因素分别具有与b个水平,共有b个水平组合,每个水平组合有n次重复,则全试验共有abn个观测值。这类试验结果方差分析的数据模式如表6-28所示。
表6-28 两因素有重复观测值试验数据模式
A因素
B 因 素
Ai合计xi..
Ai平均
B1
B2
……
Bb
A1
x1jl
x111
x121
……
x 1b1
x1..
x112
x122
……
x1b2
x11n
x12n
……
x1bn
x1j.
x11.
x12.
……
x1b.
……
A2
x2jl
x211
x221
……
x2b1
x2..
x212
x222
……
x2b2
x21n
x22n
……
x2bn
x2j.
x21.
x22.
……
x2b.
……
Aa
xajl
xa11
xa21
……
xab1
xa..
xa12
xa22
……
xab2
xa1n
xa2n
……
xabn
xaj.
xa1.
xa2.
……
xab.
……
Bj合计x.j.
x.1.
x.2.
……
x.b.
x…
Bj平均
……
表6-28中
两因素有重复观测值试验的数学模型为:
(6-32)
其中,为总平均数;αi为Ai的效应;βj为Bj的效应;(αβ) ij为Ai与Bj的互作效应,,、、分别为、、观测值总体平均数;且,为随机误差,相互独立,且都服从N(0,σ2)。
两因素有重复观测值试验结果方差分析平方和与自由度的剖分式为
(6-33)
其中,SSA×B,dfA×B为A因素与B因素交互作用平方和与自由度。
若用SSAB,dfAB表示A、B水平组合间的平方和与自由度,即处理间平方和与自由度,则因处理变异可剖分为A因素、B因素及A、B交互作用变异三部分,于是SSAB、dfAB可剖分为:
(6-34)
各项平方和、自由度及均方的计算公式如下:
矫正数
总平方和与自由度
水平组合平方和与自由度 (6-35)
A因素平方和与自由度
B因素平方和与自由度
交互作用平方和与自由度
误差平方和与自由度
相应均方为
【例6.6】为了研究饲料中钙磷含量对幼猪生长发育的影响,将钙(A)、磷(B)在饲料中的含量各分4个水平进行交叉分组试验。先用品种、性别、日龄相同,初始体重基本一致的幼猪48头,随机分成16组,每组3头,用能量、蛋白质含量相同的饲料在不同钙磷用量搭配下各喂一组猪,经两月试验,幼猪增重结果(kg)列于表6-29,试分析钙磷对幼猪生长发育的影响。
本例A因素钙的含量分4个水平,即=4;B因素磷的含量分4个水平,即b=4;共有=4×4=16个水平组合;每个组合重复数n=3;全试验共有=4×4×3=48个观测值。现对本例资料进行方差分析如下:
表6-29 不同钙磷用量(%)的试验猪增重结果(kg)
B1(0.8)
B2(0.6)
B3(0.4)
B4(0.2)
Ai合计xi..
Ai平均
A1(1.0)
x1j1
22.0
30.0
32.4
30.5
324.9
27.1
26.5
27.5
26.5
27.0
24.4
26.0
27.0
25.1
x1jl
72.9
83.5
85.9
82.6
24.3
27.8
28.6
27.5
A2(0.8)
x2jl
23.5
33.2
38.0
26.5
350.1
29.2
25.8
28.5
35.5
24.0
27.0
30.1
33.0
25.0
x2j.
76.3
91.8
106.5
75.5
25.4
30.6
35.5
25.2
A3(0.6)
x3jl
30.5
36.5
28.0
20.5
332.4
27.7
26.8
34.0
30.5
22.5
25.5
33.5
24.6
19.5
x3j.
82.8
104.0
83.1
62.5
27.6
34.7
27.7
20.8
A4(0.4)
x4jl
34.5
29.0
27.5
18.5
319.5
26.6
31.4
27.5
26.3
20.0
29.3
28.0
28.5
19.0
x4j.
95.2
84.5
82.3
57.5
31.7
28.2
27.4
19.2
Bj合计x.j.
327.2
363.8
357.8
278.1
1326.9
Bj平均
27.3
30.3
29.8
23.2
27.6
1、计算各项平方和与自由度
2、列出方差分析表,进行F检验
表6-30 不同钙磷用量方差分析表变异来源
平方和
自由度
均方
F值
钙(A)
44.5106
3
14.8367
3.22*
磷(B)
383.7356
3
127.9119
27.77**
互作(A×B)
406.6586
9
45.1843
9.81**
误差
147.4133
32
4.6067
总变异
982.3181
47
查临界F值:F0.05(3,32)=2.90,F0.01(3,32)=4.47,F0.01(9,32)=3.02。因为,FA>F0.05(3,32);FB>F0.01(3,32);FA×B>F0.01(9,32),表明钙、磷及其互作对幼猪的生长发育均有显著或极显著影响。因此,应进一步进行钙各水平平均数间、磷各水平平均数间、钙与磷水平组合平均数间的多重比较和进行简单效应的检验。
3、多重比较
(1)钙含量(A)各水平平均数间的比较 不同钙含量平均数多重比较表见表6-31。
表6-31 不同钙含量平均数比较表(q法)
钙含量(%)
平均数
-26.6
-27.1
-27.7
A2(0.8)
29.2
2.6*
2.1
1.5
A3(0.6)
27.7
1.1
0.6
A1(1.0)
27.1
0.5
A4(0.4)
26.6
因为A因素各水平的重复数为bn,故A因素各水平的标准误(记为)的计算公式为:
此例,
由dfe=32,秩次距k=2,3,4,从附表5中查出α=0.05与α=0.01的临界q值,乘以=0.6196,即得各LSR值,所得结果列于表6-32。
表6-32 q值与LSR值表
dfe
秩次距k
q0.05
q0.01
LSR0.05
LSR0.01
32
2
2.88
3.88
1.78
2.40
3
3.47
4.43
2.15
2.74
4
3.83
4.78
2.37
2.96
检验结果标记在表6-33中。
(2)磷含量(B)各水平平均数间的比较 不同磷含量平均数多重比较表见表6-33。
表6-33 不同磷含量平均数比较表(q法)
磷含量(%)
平均数
-23.2
-27.3
-29.8
B2(0.6)
30.3
7.1**
3.0**
0.5
B3(0.4)
29.8
6.6**
2.5**
B1(0.8)
27.3
4.1**
B4(0.2)
23.2
因B因素各水平的重复数为,故B因素各水平的标准误(记为)的计算公式为:
在本例,由于A、B两因素水平数相等,即=b=4,故。因而,A、B两因素各水平比较的LSR值是一样的,所以用表6-32的LSR值去检验B因素各水平平均数间差数的显著性,结果见表6-33。
以上所进行的两项多重比较,实际上是A、B两因素主效应的检验。结果表明,钙的含量以占饲料量的0.8%(A2)增重效果最好;磷的含量以占饲料量的0.6%(B2)增重效果最好。若A、B因素交互作用不显著,则可从主效应检验中分别选出A、B因素的最优水平相组合,得到最优水平组合;若A、B因素交互作用显著,则应进行水平组合平均数间的多重比较,以选出最优水平组合,同时可进行简单效应的检验。
(3)各水平组合平均数间的比较 因为水平组合数通常较大(本例=4×4=16),采用最小显著极差法进行各水平组合平均数的比较,计算较麻烦。为了简便起见,常采用T检验法。所谓T检验法,实际上就是以q检测法中秩次距k最大时的LSR值作为检验尺度检验各水平组合平均数间的差异显著性。
因为水平组合的重复数为n,故水平组合的标准误(记为)的计算公式为:
此例
由dfe=32,k=16从附表5中查出=0.05、=0.01的临界q值,乘以=1.2392,得各LSR值,即
以上述LSR值去检验各水平组合平均数间的差数,结果列于表6-34。
表6-34 各水平组合平均数比较表(T法)
水平组合
均数
-19.2
20.8
-24.3
-25.2
-25.4
-27.4
-27.5
-27.6
-27.7
-27.8
-28.2
-28.6
-30.6
-31.7
-34.7
A2B3
35.5
16.3**
14.7**
11.2**
10.3**
10.1**
8.1**
8.0**
7.9**
7.8**
7.7**
7.3*
6.9*
4.9
3.8
0.8
A3B2
34.7
15.5**
13.9**
10.4**
9.5**
9.3**
7.3*
7.2*
7.1*
7.0*
6.9*
6.5
6.1
4.1
3.0
A4B1
31.7
12.5**
10.9**
7.4*
6.5
6.3
4.3
4.2
4.1
4.0
3.9
3.5
3.1
1.1
A2B2
30.6
11.4**
9.8**
6.3
5.4
5.2
3.2
3.1
3.0
2.9
2.8
2.4
2.0
A1B3
28.6
9.4**
7.8**
4.3
3.4
3.2
1.2
1.1
1.0
0.9
0.8
0.4
A4B2
28.2
9.2**
7.4*
3.9
3.0
2.8
0.8
0.7
0.6
0.5
0.4
A1B2
27.8
8.6**
7.0*
3.5
2.6
2.4
0.4
0.3
0.2
0.1
A3B3
27.7
8.5**
6.9*
3.4
2.5
2.3
0.3
0.2
0.1
A3B1
27.6
8.4*
6.8*
3.3
2.4
2.2
0.2
0.1
A1B4
27.5
8.3*
6.7*
3.2
2.3
2.1
0.1
A4B3
27.4
8.2*
6.6*
3.1
2.2
2.0
A2B1
25.4
6.2
4.6
1.1
0.2
A2B4
25.2
6.0
4.4
0.9
A1B1
24.3
5.1
3.5
A3B4
20.8
1.6
A4B4
19.2
各水平组合平均数的多重比较结果表明,由于钙磷交互作用的存在,最优组合(即增重好的组合) 并不是A2B2,而是A2B3,即钙含量0.8%和磷含量0.4%的组合增重效果最好。
以上的比较结果告诉我们:当A、B因素的交互作用显著时,一般不必进行两个因素主效应的显著性检验(因为这时主效应的显著性在实用意义上并不重要),而直接进行各水平组合平均数的多重比较,选出最优水平组合。
(4)简单效应的检验 简单效应实际上是特定水平组合平均数间的差数。检验尺度仍为(3)中的LSR0.05=6.51,LSR0.01=7.65。
①A因素各水平上B因素各水平平均数间的比较
A1水平(1.0)
B因素
平均数
-24.3
-27.5
-27.8
B3(0.4)
28.6
4.3
1.1
0.8
B2(0.6)
27.8
3.5
0.3
B4(0.2)
27.5
3.2
B1(0.8)
24.3
A2水平(0.8)
B因素
平均数
-25.2
-25.4
-30.6
B3(0.4)
35.5
10.3**
10.1**
4.9
B2(0.6)
30.6
5.4
5.2
B1(0.8)
25.4
0.2
B4(0.2)
25.2
A3水平(0.6)
B因素
平均数
-20.8
-25.4
-27.7
B2(0.6)
34.7
13.9**
7.1*
7.0*
B3(0.4)
27.7
6.9*
0.1
B1(0.8)
27.6
6.8*
B4(0.2)
20.8
A4水平(0.4)
B因素
平均数
-19.2
-27.4
-28.2
B1(0.8)
31.7
12.5**
4.3
3.5
B2(0.6)
28.2
9.0**
0.8
B3(0.4)
27.4
8.2*
B4(0.2)
19.2
②B因素各水平上A因素各水平平均数间的比较
B1水平(0.8)
A因素
平均数
-24.3
-25.4
-27.6
A4(0.4)
31.7
7.4*
6.3
4.1
A3(0.6)
27.6
3.3
2.2
A2(0.8)
25.4
1.1
A1(1.0)
24.3
B2水平(0.6)
A因素
平均数
-27.8
-28.2
-30.6
A3(0.6)
34.7
6.9*
6.5
4.1
A2(0.8)
30.6
2.8
2.4
A4(0.4)
28.2
0.4
A1(1.0)
27.8
B3水平(0.4)
A因素
平均数
-27.4
-27.7
-28.6
A2(0.8)
35.5
8.1**
7.8**
6.9*
A1(1.0)
28.6
1.2
0.9
A3(0.6)
27.7
0.3
A4(0.4)
27.4
B4水平(0.2)
A因素
平均数
-19.2
-20.8
-25.2
A1(1.0)
27.5
8.3**
6.7*
2.3
A2(0.8)
25.2
6.0
4.4
A3(0.6)
20.8
1.6
A4(0.4)
19.2
简单效应检验结果表明:当饲料中钙含量达1.0%时,磷含量各水平平均数间差异不显著;当饲料中钙含量为0.8%时,磷含量以0.4%为宜(但与磷含量为0.6%的差异不显著);当钙为0.6%时,磷以0.6%为好,且有小猪的生长发育对磷含量的变化反应比较敏感的迹象;当钙含量为0.4%时,磷以0.8%为好(但与磷含量为0.6%、0.4%的差异不显著);就试验中所选择的钙磷含量水平来看,有一种随着饲料中钙含量的减少,要求磷含量增加的趋势。当磷含量0.8%时,钙以0.4%为好,但除显著高于钙为1.0%的水平外,与钙为0.6%、0.8%的差异不显著;当磷的水平为0.6%时,钙的水平也以0.6%为好,但除显著高于钙为1.0%的水平外,与钙为0.4%、0.8%的差异不显著;磷含量0.4%时,钙含量以0.8%为好;磷含量为0.2%时,钙水平达到1.0%效果较好,但与钙为0.8%的差异不显著。同样也呈现一种随着磷含量降低,钙水平应提高的趋势。
综观全试验,以A2B3(钙0.8%,磷0.4%)效果最好,钙磷含量均高或均低效果都差。
二、系统分组资料的方差分析
在生物科学的研究中,实际问题是多种多样的,有些涉及多因素问题的研究或试验用交叉分组是困难的。例如,要比较a头公畜的种用价值,就必须考虑到与配的母畜。这是因为公畜的种用价值是通过后代的表现来评定的,而后代的表现除受公畜的影响外还要受到母畜的影响。但是在同期,公畜和母畜这两个因素的不同水平(不同公畜和不同母畜)是不能交叉的,即同一头母畜不能同时与不同的公畜交配产生后代。合理的方法是,选择一些生产性能大体一致的同胎次母畜随机分配与a头公畜交配,即公畜A1与一组母畜交配,公畜A2与另一组母畜交配……。然后通过后代的性能表现来判断这些公畜的种用价值有无显著差异。又如,为了比较利用同一设备生产同一种饲料的不同班组产品质量有无差异,我们可从每班组所生产的饲料中随机抽取若干样品,每个样品作若干次测定,根据测定结果判断不同班组的产品质量有无差异。
在安排多因素试验方案时,将A因素分为a个水平,在A因素每个水平Ai下又将B因素分成b个水平,再在B因素每个水平Bij下将C因素分c个水平……,这样得到各因素水平组合的方式称为系统分组(hierarchical classification)或称多层分组、套设计、窝设计。
在系统分组中,首先划分水平的因素(上述的不同公畜、不同班组)叫一级因素(或一级样本),其次划分水平的因素(如上述的母畜、抽取的样品)叫二级因素(二级样本,次级样本),类此有三级因素……。在系统分组中,次级因素的各水平会套在一级因素的每个水平下,它们之间是从属关系而不是平等关系,分析侧重于一级因素。
由系统分组方式安排的多因素试验而得到的资料称为系统分组资料。根据次级样本含量是否相等,系统分组资料分为次级样本含量相等与不等两种。最简单的系统分组资料是二因素系统分组资料。
如果A因素有个水平;A因素每个水平Ai下,B因素分b个水平;B因素每个水平Bij下有n个观测值,则共有个观测值,其数据模式如表6-35所示。
表6-35 二因素系统分组资料数据模式
一级因素
A
二级因素
B
观测值C
二级因素
一级因素
xijl
总和xij.
平均
总和xi..
平均
A1
B11
x111
x112
…
x11n
x11.
x1..
B12
x121
x122
…
x12n
x12.
…
B1b
x1b1
x1b2
…
x1bn
x1b.
A2
B21
x211
x212
…
x21n
x21.
x2..
B22
x221
x222
…
x22n
x22.
…
B2b
x2b1
x2b2
…
x2bn
x2b.
…
Aa
Ba1
xa11
aa12
…
xa1n
xa1.
Ba2
xa21
xa22
…
xa2n
xa2.
xa..
…
Bab
xab1
xab2
…
xabn
xab.
合计
x…
表6-35中,
数学模型为
(6-36)
式中μ为总体平均数,为Ai的效应,为Ai内Bij的效应,、分别为Ai、Bij观测值总体平均数。为随机误差,相互独立,且都服从N(0,σ2)。
系统分组资料的数学模型与交叉分组的不同,其中不包含交互作用项;并且因素B的效应是随着A的水平的变化而变化的,这就是说次级因素的同一水平在一级因素不同水平中有不同的效应。因此,须把一级因素不同水平中的次级因素同一水平看作是不同水平。至于,是否一定为零,应视,是固定还是随机而定。
表6-35数据的总变异可分解为A因素各水平(Ai)间的变异(一级样本间的变异),A因素各水平(Ai)内B因素各水平(Bij)间的变异(一级样本内二级样本间的变异)和试验误差(B因素各水平内观测值间的变异)。对两因素系统分组资料进行方差分析,平方和与自由度的剖分式为:
SST=SSA+SSB(A)+SSe (6-37)
dfT=dfA+dfB(A)+dfe
各项平方和与自由度计算公式如下:
(6-38)
各项均方如下:
一级因素的均方
一级因素内二级因素的均方
误差(二级因素内三级因素)均方
F检验时F值的计算:
当检验一级因素时,用作分母,即,
当检验一级因素内二级因素时,用作分母,即,
实际上,计算F值时分母项的选择是由有关因素的效应是固定还是随机所决定的(即是由数学模型决定的),有关这方面的内容将在第四节介绍。
(一)次级样本含量相等的系统分组资料的方差分析
【例6.7】为测定3种不同来源的鱼粉的蛋白质消化率,在不含蛋白质的饲料里按一定比例分别加入不同的鱼粉A1,A2,A3,配制成饲料,各喂给3头试验动物(B)。收集排泄物、风干、粉碎、混和均匀。分别从每头动物的排泄物中各取两份样品作化学分析。测定结果(xijl)列于表6-36,试分析不同来源鱼粉的蛋白质消化率是否有显著差异。
表6-36 蛋白质的消化率鱼粉A
个体B
测定结果C()
A1
B11
82.5
82.4
164.9
82.5
506.4
84.4
B12
87.1
86.5
173.6
86.8
B13
84.0
83.9
167.9
84.0
A2
B21
86.6
85.8
172.4
86.2
518.9
86.5
B22
86.2
85.7
171.9
86.0
B23
87.0
87.6
174.6
87.3
A3
B31
82.0
81.5
163.5
81.8
483.8
80.6
B32
80.0
80.5
160.5
80.3
B33
79.5
80.3
159.8
79.9
Σ
x…=1509.1
这是一个二因素系统分组资料,A因素的水平数=3,Ai内B因素的水平数=3,Bij内重复测定次数=2,共有=3×3×2=18个观测值,方差分析如下。
1、计算各项平方和与自由度矫正数
总平方和及其自由度
鱼粉间平方和及其自由度
鱼粉内个体间的平方和及其自由度
误差(个体内分析样品间)平方和及其自由度
2、列出方差分析表,进行F检验
表6-37 不同来源鱼粉蛋白质消化率方差分析表变异来源
平方和
自由度
均方
F值
鱼粉间A
105.5011
2
52.7506
12.43**
鱼粉内个体间B(A)
25.4567
6
4.2428
27.57**
误差C(B)
1.3850
9
0.1539
总变异
132.3428
17
查临界F值:F0.01(2,6)=10.92,F0.01(6,9)=5.80,因为鱼粉间的F>F0.01(2,6),鱼粉内个体间的F>F0.01(6,9),表明不同来源的鱼粉蛋白质消化率差异极显著,即3种鱼粉的质量差异极显著;喂同一鱼粉的不同个体对鱼粉的消化利用能力差异也极显著。
3.三种鱼粉平均消化率的多重比较(SSR法) 因为对一级因素(鱼粉)进行F检验时是以鱼粉内个体间均方作为分母,鱼粉的重复数为bn,所以鱼粉的标准误为:
以dfB(A)=6,查附表6得k=2,3时SSR0.05和SSR0.01的值与相乘求出相应的LSR0.05和LSR0.01的值,得:
k=2,LSR0.05=2.91 LSR0.01=4.41
k=3,LSR0.05=3.01 LSR0.01=4.63
多重比较结果见表6-38。
表6-38 三种鱼粉蛋白质平均消化率比较表(SSR法)
饲料
平均
-80.6
-84.4
A2
86.5
5.9**
2.1
A1
84.4
3.8*
A3
80.6
多重比较结果表明:鱼粉A2的消化率极显著高于鱼粉A3;鱼粉A1的消化率显著高于鱼粉A3;鱼粉A1,A2的消化率差异不显著。
对于鱼粉内个体间的差异问题,由于不是我们研究的重点,故可以不进行多重比较。若要比较时,标准误应由计算,SSR值或q值应以自由度dfe=9去查。
(二)次级样本含量不等的系统分组资料的方差分析
【例6.8】某品种3头公猪和8头母猪所生仔猪的35日龄断奶重资料如表6-39所示,试就这些数据分析不同公猪和不同母猪对仔猪断奶重的影响是否有显著差异。
表6-39 3头公猪和8头母猪所产仔猪断奶重公猪
A
与配母猪B
仔猪数
仔 猪 断 奶 重 (kg)C xijl
A1
B11
9
10.5 8.3 8.8 9.8 10.0 9.5 8.8 9.3 7.3
82.3
9.14
B12
7
7.0
7.8
8.3
9.0
8.0
7.5
9.3
56.9
8.13
小计
b1=2
dn1=16
139.2
8.7
A2
B21
8
12.0
11.3
12.0
10.0
11.0
11.5
11.0
11.3
90.1
11.26
B22
7
9.5
9.8
10.0
11.8
9.5
10.5
8.3
69.4
9.91
B23
9
8.0 8.0 7.8 10.3 7.0 8.8 7.3 7.8 9.5
74.5
8.30
小计
b2=3
dn2=24
234.0
9.75
A3
B31
8
7.5
6.5
6.8
6.3
8.3
6.8
8.0
8.8
59.0
7.40
B32
7
9.5
10.5
10.8
9.5
7.8
10.5
10.8
69.4
9.91
B33
8
11.3
10.5
10.8
9.5
7.3
10.0
11.8
11.0
82.2
10.3
小计
b3=3
dn3=23
210.6
9.16
Σbi=8
N=63
ΣΣΣx2=5559.34
x…=583.8
=9.27
表中,为公猪数;bi为第i头公猪与配母猪数;为第i头公猪与配第j头母猪所产的仔猪数;为第i头公猪仔猪数;为母猪总数;为仔猪总数。
方差分析如下:
1、计算各项平方和与自由度这里应当注意与次级样本含量相等的系统分组资料方差分析时计算公式上的差异。
矫正数
总平方和及其自由度
公猪间的平方和及其自由度
公猪内母猪间的平方和及其自由度
母猪内仔猪间(误差)平方和及其自由度
或
或
2、列出方差分析表,进行F检验
表6-40 3头公猪和8头母猪所生仔猪断奶重的方差分析变异来源
平方和
自由度
均方
F值
公猪间(A)
11.0235
2
5.5118
0.34
公猪内母猪间B(A)
81.4785
5
16.2957
15.74**
母猪内仔猪间C(B)
56.9580
55
1.0356
总变异
149.4600
62
因为公猪间的FA=0.34<1,即P>0.05,所以公猪对仔猪的断奶重影响差异不显著,可以认为它们的种用价值是一致的;因为公猪内母猪间的FB(A)=15.74>F0.01(5,55)=3.37,即P<0.01,所以母猪对仔猪的断奶重影响差异极显著,即同一公猪内不同母猪的仔猪断奶重有极显著的差异。
3、多重比较 如果需对一级因素(公猪)各水平以及一级因素内二级因素(母猪)各水平均数进行多重比较(SSR法或q法),当对公猪平均数进行多重比较时,标准误为:
式中的dn0为每头公猪的平均仔猪数,用公式(6-41)(见第四节)计算;当对母猪平均数进行多重比较时,标准误为:
式中n0为每头母猪的平均仔猪数,用公式(6-39)(见第四节)计算。实际上对于此类资料,同一公猪内母猪平均数的多重比较一般可不进行。
*第四节 方差分析的数学模型与期望均方
一、数学模型方差分析的数学模型就是指试验资料的数据结构或者说是每一观测值的线性组成,它是方差分析的基础。本章所涉及的几种方差分析法,其数学模型已相继介绍。
数学模型中的处理效应αi(或βj、βij),由于处理性质的不同,有固定效应(fixed effect)和随机效应(random effect)之分。若按处理效应的类别来划分方差分析的模型,则有三种,即固定模型、随机模型和混合模型。就试验资料的具体统计分析过程而言,这三种模型的差别并不太大,但从解释和理论基础而言,它们之间是有很重要的区别的。不论设计试验、解释试验结果,还是最后进行统计推断,都必须了解这三种模型的意义和区别。
1、固定模型(fixed model) 在单因素试验的方差分析中,把k个处理看作k个明晰的总体。如果研究的对象只限于这k个总体的结果,而不需推广到其它总体;研究目的在于推断这k个总体平均数是否相同,即在于检验k个总体平均数相等的假设H0:μ1=μ2=…=μk;H0被否定,下步工作在于作多重比较;重复试验时的处理仍为原k个处理。这样,则k个处理的效应(如αi=μi-μ)固定于所试验的处理的范围内,处理效应是固定的。这种模型称为固定模型。一般的饲养试验及品种比较试验等均属固定模型。
在多因素多试验中,若各试验因素水平的效应均属固定,则对应于固定模型。
2、随机模型(random model) 在单因素试验中,k个处理并非特别指定,而是从更大的处理总体中随机抽取的k个处理而已,即研究的对象不局限于这k个处理所对应的总体的结果,而是着眼于这k个处理所在的更大的总体;研究的目的不在于推断当前k个处理所属总体平均数是否相同,而是从这k个处理所得结论推断所在大总体的变异情况,检验的假设一般为处理效应方差等于零,即H0: =0;如果H0被否定,进一步的工作是估计;重复试验时,可在大处理总体中随机抽取新的处理。这样,处理效应并不固定,而是随机的,这种模型称为随机模型。随机模型在遗传、育种和生态试验研究方面有广泛的应用。如,为研究中国猪种的繁殖性能的变异情况,从大量地方品种中随机抽取部分品种为代表进行试验、观察,其结果推断中国猪种的繁殖性能的变异情况,这就属于随机模型。
在多因素试验中,若各因素水平的效应均属随机,则对应于随机模型。
3、混合模型(mixed model) 在多因素试验中,若既包括固定效应的试验因素,又包括随机效应的试验因素,则该试验对应于混合模型。混合模型在试验研究中是经常采用的。如在某地区的4个不同杂交组合的猪及其亲本,分布于5个猪场进行育肥试验。这里猪种效应是固定的,而试验场所(猪场)效应是随机的。又如【例6-8】,若目的在于比较该3头公猪的种用价值,与配母猪是随机抽取的,则公猪效应是固定的,而母猪效应是随机的。再如随机采用三个蛋鸡品系研究三种饲料的效应试验,这里蛋鸡品系效应是随机的,而饲料效应是固定的。
二、期望均方在第一节我们提到了期望均方的概念。由于模型不同,方差分析中各项期望均方的计算也有所不同,因而F检验时分母项均方的选择也有所不同。现将不同方差分析中各种模型下各项期望均方及F值计算分别列于下面各表,以便正确地进行F检验和估计方差组分。
为了区分效应的两种模型(随机及固定),用表示随机模型下处理效应方差,用表示固定模型下处理效应方差。如对于A因素,随机模型时用表示处理效应方差;固定模型时用表示处理效应方差,此时。
1、单因素试验资料方差分析的期望均方
(1)各处理重复数相等时
表6-41 单因素试验重复数相等期望均方与F检验变异来源
自由度
固定模型
随机模型
期望均方
F
期望均方
F
处理间
+
+
处理内
总变异
(2)各处理重复数不等时
表6-42 单因素试验重复数不等期望均方与F检验变异来源
自由度
固定模型
随机模型
期望均方
F
期望均方
F
处理间
+
处理内
总变异
在表6-42中,固定模型时,处理间均方MSt的期望值为,是在的条件下获得的;若条件为Σαi=0时,则MSt之期望值为。随机模型时,的系数由下式计算:
单因素试验资料的方差分析,不论是固定还是随机模型,F值的计算方法是一致的。
2、交叉分组试验资料方差分析的期望均方二因素交叉分组单独观测值时
表6-43 两因素交叉分组单独观测值的期望均方与F检验变异来源
自由度
固定模型
随机模型
A固定、B随机
期望均方
F
期望均方
F
期望均方
F
A因素
+
+
+
B因素
+
+
+
误差
总变异
由表6-43中可以看出,对两因素交叉分组单独观测值试验资料的方差分析,不论是固定、随机还是混合模型,F检验分母项都是误差均方MSe,此时无法求得。
(2)两因素交叉分组有重复观测值时
表6-44 两因素交叉分组有重复观测值的期望均方与F检验变异来源
自由度
固定模型
随机模型
A随机、B固定
期望均方
F
期望均方
F
期望均方
F
A因素
+
+ +
+
B因素
+
+ +
+ +
A×B
+
+
+
误差
总变异
由表6-44可知,两因素交叉分组有重复观测值试验资料的方差分析,对主效应和互作进行F检验随模型不同而异。对于固定模型,均用MSe作分母;对于随机模型,检验H0: =0时,用MSe作分母,而检验H0,=0和=0时都用MSA×B作分母;对于混合模型(A随机、B固定),检验H0,=0和=0都用MSe作分母,而检验H0:K2B=0时,则以MSA×B作分母。(A固定、B随机时,与此类似)。
3、系统分组资料方差分析的期望均方
表6-45 二因素系统分组次级样本含量相等的期望均方与F检验变异来源
自由度
期望均方
固定模型
随机模型
A固定、B随机
一级因素(A)
一级因素内二级因素B(A)
误差C(B)
总变异
F检验 一级因素
一级因素内二级因素
A固定、B随机时的F检验与随机模型同;A随机、B固定时的F检验与固定模型同。
在随机模型下,当次级样本含量不等时,各项均方的期望值与F检验如下。
表6-46 二因素系统分组次级样本含量不等的期望均方与F检验变异来源
自由度
平方和
均方
期望均方(随机模型)
F
一级因素A
一级因素内二级因素B(A)
误差C(B)
总变异
表6-45、6-46中,σ2是二级因素内观测值间的方差,即误差方差;是一级因素水平内二级因素水平效应方差;是一级因素水平效应方差;和都是每个二级因素水平下的平均重复数(即平均观测值个数),其中是一级因素水平内每个二级因素水平下平均重复数;是一级因素水平间每个二级因素水平的平均重复数;dn0是每个一级因素水平的平均重复数。及的计算公式如下:
(6-39)
(6-40)
(6-41)
式中:—全部观测值个数;
——一级因素Ai水平内二级因素Bij水平的重复数;
—一级因素Ai水平的重复数;
—一级因素内二级因素的自由度;
—一级因素的自由度。
三、方差组分的估计上面我们分别介绍了单因素试验,交叉分组、系统分组多因素试验资料的方差分析中各种均方在不同模型下的期望值。了解期望均方的组成,不仅有助于正确进行F检验,而且也有助于参数估计。最常见的就是估计方差组分,又称方差分量分析。方差组分,亦即方差分量(variance components),是指方差的组成成分。根据资料模型和期望均方的组成,就可估计出所需要的方差组分。
方差组分的估计主要是指对随机模型的方差组分估计。因为在这种模型下,我们研究的目的就在于从总体上了解各因素对试验指标所产生的效应方差。
在研究数量性状的遗传变异时,对一些遗传参数的估计,如重复率、遗传力和性状间的遗传相关的估计都是在随机模型方差组分估计的基础上进行的。
下面结合实例说明方差组分的估计。
如果将【例6.8】中3头公猪、与配母猪及它们所生仔猪的断奶重资料,看作是从该品种总体中随机抽取的样本,则公猪及其与配母猪对所产仔猪断奶重影响的效应是随机的,因而该资料属随机模型。方差组分估计如下:
因次级样体含量不等,由表6-46可知:
公猪间均方
公猪内母猪间均方
母猪内仔猪间均方
因而
在方差分量分析中,当次级样本含量不相等时,需依公式(6-39)、(6-40)、(6-41)求三个相应的加权平均数。本例各公、母猪的仔猪数不等,故先算三个加权平均数如下:
因为
代入公式(6-39)、(6-40)、(6-41)得
将及【例6-8】算出的有关均方值代入上面各方差组分计算式得:
这里应当注意,公猪效应方差的估计值为-0.5358,这是不合理的。这主要是由于母猪间方差组分()过大所致(一般MSB(A)>MSA时,就是负值)。在这种情况下,可将原资料中二级因素(母猪)去掉,仅就公猪因素作随机模型下的各处理重复数不等的单因素方差分析,进而重新估计公猪间方差组分。过程如下:
不变,仍为5.5118
=149.4600-11.0235=138.4365
=138.4365/(63-3)=2.3073
由表6-42可知:
故 = =
再先由下式计算,〔注意,这里的不同于由公式(6-39)求得的〕。
这实际就是由公式(6-41)求得的。于是:
第五节 数据转换前面介绍的几种试验资料的方差分析法,尽管其数学模型的具体表达式有所不同,但以下三点却是共同的。
1、效应的可加性 我们据以进行方差分析的模型均为线性可加模型。这个模型明确提出了处理效应与误差效应应该是“可加的”,正是由于这一“可加性”,才有了样本平方和的“可加性”,亦即有了试验观测值总平方和的“可剖分”性。如果试验资料不具备这一性质,那么变量的总变异依据变异原因的剖分将失去根据,方差分析不能正确进行。
2、分布的正态性 是指所有试验误差是相互独立的,且都服从正态分布N(0,σ2)。只有在这样的条件下才能进行F检验。
3、方差的同质性 即各个处理观测值总体方差σ2应是相等的。只有这样,才有理由以各个处理均方的合并均方作为检验各处理差异显著性的共同的误差均方。
上述三点是进行方差分析的基本前提或基本假定。如果在分差分析前发现有某些异常的观测值、处理或单位组,只要不属于研究对象本身的原因,在不影响分析正确性的条件下应加以删除。但是,有些资料就其性质来说就不符合方差分析的基本假定。其中最常见的一种情况是处理平均数和均方有一定关系(如二项分布资料,平均数,均方;泊松分布资料的平均数与方差相等)。对这类资料不能直接进行方差分析,而因考虑采用非参数方法分析或进行适当数据转换(transformation of data)后再作方差分析。这里我们介绍几种常用的数据转换方法。
1、平方根转换 (square root transformation) 此法适用于各组均方与其平均数之间有某种比例关系的资料,尤其适用于总体呈泊松分布的资料。转换的方法是求出原数据的平方根。若原观测值中有为0的数或多数观测值小于10,则把原数据变换成对于稳定均方,使方差符合同质性的作用更加明显。变换也有利于满足效应加性和正态性的要求。
2、对数转换 (logarithmic transformation) 如果各组数据的标准差或全距与其平均数大体成比例,或者效应为相乘性或非相加性,则将原数据变换为对数(lgx或lnx)后,可以使方差变成比较一致而且使效应由相乘性变成相加性。
如果原数据包括有0,可以采用lg(x+1)变换的方法。
一般而言,对数转换对于削弱大变数的作用要比平方根转换更强。例如变数1、10、100作平方根转换是1、3.16、10,作对数转换则是0、1、2。
3、反正弦转换 (arcsine transformation) 反正弦转换也称角度转换。此法适用于如发病率、感染率、病死率、受胎率等服从二项分布的资料。转换的方法是求出每个原数据(用百分数或小数表示)的反正弦,转换后的数值是以度为单位的角度。二项分布的特点是其方差与平均数有着函数关系。这种关系表现在,当平均数接近极端值(即接近于0和100%)时,方差趋向于较小;而平均数处于中间数值附近(50%左右)时,方差趋向于较大。把数据变成角度以后,接近于0和100%的数值变异程度变大,因此使方差较为增大,这样有利于满足方差同质性的要求。一般,若资料中的百分数介于30%—70%之间时,因资料的分布接近于正态分布,数据变换与否对分析的影响不大。
应当注意的是,在对转换后的数据进行方差分析时,若经检验差异显著,则进行平均数的多重比较应用转换后的数据进行计算。但在解释分析最终结果时,应还原为原来的数值。
【例6.9】表6-47为甲、乙、丙三个地区乳牛隐性乳房炎阳性率资料,试对资料进行方差分析。
表6-47 三地区乳牛隐性乳房炎阳性率(%)
甲
94.3
64.1
47.7
43.6
50.4
80.5
57.8
乙
26.7
9.4
42.1
30.6
40.9
18.6
40.9
丙
18.0
35.0
20.7
31.6
26.8
11.4
19.7
这是一个服从二项分布的阳性率资料,且有低于30%和高于70%的,应先对阳性率资料作反正弦转换,转换结果见表6-48。
表6-48 表6-47资料的反正弦转换值地区
还原(%)
甲
76.19
53.19
43.68
41.32
372.89
53.27
64.2
45.23
63.79
49.49
乙
31.11
17.85
40.45
33.58
228.06
32.58
29.0
39.76
25.55
39.76
丙
25.10
36.27
27.06
34.20
199.89
28.56
22.8
31.18
19.73
26.35
合计
800.84
表6-48资料的方差分析,见表6-49。
表6-49 表6-48资料的方差分析变异来源
平方和
自由度
均方
F值
地区间
2461.8228
2
1230.9114
14.03**
误差
1579.4927
18
87.7500
总变异
4041.3155
20
F检验结果表明,各地区间乳牛隐性乳房炎阳性率差异极显著。下面进行多重比较。
表6-50 表6-48资料平均数多重比较表(SSR法)
地区
平均数
-28.56
-32.58
甲
53.27
24.71**
20.69**
乙
32.58
4.02
丙
28.56
因,SSR值LSR值见表6-51。
表6-51 SSR值与LSR值
dfe
秩次距k
SSR0.05
SSR0.01
LSR0.05
LSR0.01
18
2
2.97
4.07
10.51
14.41
3
3.12
4.27
11.04
15.12
对结论作解释时,应将各组平均数还原为阳性率。如表6-50中平均数53.27根据P=sin2x,还原为64.2%;均数32.58还原为29.0%;均数28.56还原为22.8%。但从变换过的数据所算出的方差或标准差不宜再换回原来的数据。
检验结果表明,甲地区乳牛隐性乳房炎阳性率极显著高于丙地区和乙地区,乙地区与丙地区阳性率差异不显著。
以上介绍了三种数据转换常用方法。对于一般非连续性的数据,最好在方差分析前先检查各处理平均数与相应处理内均方是否存在相关性和各处理均方间的变异是否较大。如果存在相关性,或者变异较大,则应考虑对数据作出变换。有时要确定适当的转换方法并不容易,可事先在试验中选取几个其平均数为大、中、小的处理试验作转换。哪种方法能使处理平均数与其均方的相关性最小,哪种方法就是最合适的转换方法。另外,还有一些别的转换方法可以考虑。例如当各处理标准差与其平均数的平方成比例时,可进行倒数转换(reciprocal transformation);对于一些分布明显偏态的二项分布资料,有人进行的转换,可使x呈良好的正态分布。
习 题
1.多个处理平均数间的相互比较为什么不宜用t检验法?
2.什么是方差分析?方差分析在科学研究中有何意义?
3.举例说明试验指标、试验因素、因素水平、试验处理、试验单位、重复等常用名词的含义?
4.单因素和两因素试验资料方差分析的数学模型有何区别?方差分析的基本假定是什么?
5.进行方差分析的基本步骤为何?
6.什么叫多重比较?多个平均数相互比较时,LSD法与一般t检验法相比有何优点?还存在什么问题?如何决定选用哪种多重比较法?
7.单一自由度正交比较中,各比较项的系数是按什么规则构成的?
8.只有两个处理的单因素试验资料既能用t检验,也可用F检验(方差分析)。试在一般数据模式的基础上证明。
9.什么是主效应、简单效应与交互作用?为什么说两因素交叉分组单独观测值的试验设计是不完善的试验设计?在多因素试验时,如何选取最优水平组合?
10.两因素系统分组资料的方差分析与交叉分组资料的方差分析有何区别?
11.什么是固定效应、随机效应?固定模型、随机模型、混合模型?什么是方差组分?估计方差组分有何意义?
12.为什么要作数据转换?常用的数据转换方法有哪几种?各在什么条件下应用?
13.在同样饲养管理条件下,三个品种猪的增重如下表,试对三个品种增重差异是否显著进行检验。
品种
增 重xij(kg)
A1
16
12
18
18
13
11
15
10
17
18
A2
10
13
11
9
16
14
8
15
13
8
A3
11
8
13
6
7
15
9
12
10
11
(MSe=8.57,F=6.42)
14.为了研究种公牛人工授精成功怀胎率,随机选定6头种公牛,每头采集一系列精样人工授精(由同一技术人员操作),下表是每头种公牛连续的各个精样人工授精的成功怀胎率(百分数)。
公牛
怀 胎 率 (%)
ni
1
46
31
37
62
30
5
2
70
59
2
3
52
44
57
40
67
64
70
7
4
47
21
70
46
14
5
5
42
64
50
69
77
81
87
7
6
35
68
59
38
57
76
57
29
60
9
合计
35
(1)作方差分析(因其中有数据低于30%或大于70%,须进行数据转换。(F=2.7406*)
(2)你认为这个资料应作为固定模型还是随机模型来处理比较合适?如果作为随机模型,对于F值达到显著水平应作何理解?
(3)计算
(4)求各方差组分(方差分量)的估计值。 (=MSe=90.881,=27.899)
(5)作为练习,试对6个平均数作多重比较(q法或SSR法)
15.用三种酸类处理某牧草种子,观察其对牧草幼苗生长的影响(指标:幼苗干重,单位:mg)。试验资料如下:
处理
幼苗干重(mg)
对照
4.23
4.38
4.10
3.99
4.25
HCl
3.85
3.78
3.91
3.94
3.86
丙酸
3.75
3.65
3.82
3.69
3.73
丁酸
3.66
3.67
3.62
3.54
3.71
(1)进行方差分析(不用LSD法、LSR进行多重比较,F=33.86**)
(2)对下列问题通过单一自由度正交比较给以回答:
①酸液处理是否能降低牧草幼苗生长?
②有机酸的作用是否不同于无机酸?
③两种有机酸的作用是否有差异?
(F1=86.22**,F2=13.13**,F3=2.26)
16.为了比较4种饲料(A)和猪的3个品种(B),从每个品种随机抽取4头猪(共12头)分别喂以4种不同饲料。随机配置,分栏饲养、位置随机排列。从60日龄起到90日龄的时期内分别测出每头猪的日增重(g),数据如下,试检验饲料及品种间的差异显著性。(FA=11.13,FB=13.21,MSe=202.0833)。
4种饲料3个品种猪60~90日龄日增重
A1
A2
A3
A4
B1
505
545
590
530
B2
490
515
535
505
B3
445
515
510
495
17.研究酵解作用对血糖浓度的影响,从8名健康人体中抽取血液并制备成血滤液。每个受试者的血滤液又可分成4份,然后随机地将4份血滤液分别放置0、45、90、135 min测定其血糖浓度,资料如下表。试检验不同受试者和放置不同时间的血糖浓度有无显著差异。
不同受试者、放置不同时间血滤液的血糖浓度(mg/100ml)
受试者编号
放置时间(min)
0
45
90
135
1
95
95
89
83
2
95
94
88
84
3
106
105
97
90
4
98
97
95
90
5
102
98
97
88
6
112
112
101
94
7
105
103
97
88
8
95
92
90
80
(F=78.6**,F=28.8**)
18.为了从3种不同原料和3种不同温度中选择使酒精产量最高的水平组合,设计了两因素试验,每一水平组合重复4次,结果如下表,试进行方差分析。
用不同原料及不同温度发酵的酒精产量原料
温 度B
B1(30℃)
B2(35℃)
B3(40℃)
A1
41
49
23
25
11
12
25
24
6
22
26
11
A2
47
59
50
40
43
38
33
36
8
22
18
14
A3
48
35
53
59
55
38
47
44
30
33
26
19
(FA=12.68**,FB=24.88**,FA×B=2.77*,MSe=67.19)
19,3头公牛交配6头母牛(各随机交配两头),其女儿第一产305天产奶量资料如下,试作方差分析,并估计方差组分。
公牛所配母牛的女儿产奶量(kg)
公牛号S
母牛序号D
女儿产奶量C
母牛女儿头数
公牛女儿头数
1
1
5700
5700
2
4
2
6900
7200
2
2
3
5500
4900
2
4
4
5500
7400
2
3
5
4600
4000
2
4
6
5300
5200
2
(提示:先将每个观测值减去4000,再除以100,将数据简化后分析,这样并不影响F检验。FS=1.28,FD(S)=37.51,母牛内MSC(D) =MSe=6.92)
20.测得某品种猪的乳头数资料列于下表。试分析公猪和母猪对仔猪乳头数的影响,并进行方差组分的估计。
某品种猪的乳头数资料公猪A
母猪B
仔猪数nij
仔猪乳头数C
A1
B11
8
14(3)
15(2)
16(3)
B12
9
15(2)
16(2)
17(5)
B13
11
12(1)
13(2)
14(5)
15(1)
16(2)
B14
10
14(2)
15(3)
16(4)
18(1)
A2
B21
9
14(1)
15(3)
16(3)
17(1)
18(1)
B22
11
13(1)
14(2)
15(5)
16(1)
17(2)
B23
12
14(4)
15(5)
16(1)
17(1)
18(1)
B24
7
13(1)
14(2)
15(1)
16(1)
17(2)
A3
B31
8
13(2)
14(5)
15(1)
B32
10
14(4)
15(6)
B33
12
13(2)
14(5)
15(2)
16(3)
合计
107
注:( )内数字系仔猪头数。(FA=2.05,FB(A) =3.28**,MSC(B)=MSe=1.22)
21,3组小白鼠在注射某种同位素24小时后脾脏蛋白质中放射性测定值如下表。问芥子气、电离辐射能否抑制该同位素进入脾脏蛋白质?(提示:先进行平方根转换,然后进行方差分析)
组别
放射性测定值(百次/min/g)
对照组
3.8
9.0
2.5
8.2
7.1
8.0
11.5
9.0
11.0
7.9
芥子气中毒组
5.6
4.0
3.0
8.0
3.8
4.0
6.4
4.2
4.0
7.0
电离辐射组
1.5
3.8
5.5
2.0
6.0
5.1
3.3
4.0
2.1
2.7
(F=9.45**)
22.用三种不同剂量的某药物治疗兔子球虫病后,粪中卵囊数的检出结果见下表。试检验三种剂量疗效差异是否显著(提示:先作对数转换lg(x+1),然后进行方差分析)。
某药物治疗兔子球虫病效果试验剂量(mg/kg)
卵 囊 数
n
(Ⅰ) 15
0
0
0
0
0
0
0
0
0
0
20
8
14
6
5
26
1
1
7
1
2
(Ⅱ) 10
0
0
0
0
1
25
8
2
3
8
20
22
38
5
3
50
10
28
15
2
1
(Ⅲ) 5
220
8
30
260
96
39
86
523
47
29
20
40
23
143
17
11
23
99
40
20
103
(F=38.11**)
23.下表为3组大白鼠营养试验中测得尿中氨氮的排出量。试检验各组氨氮排出量差异是否显著。(提示:先作对数转换lgx,然后进行方差分析)。
组别
尿中氨氮排出量(mg/6天)
A组
30
27
35
35
29
33
32
36
26
41
33
31
B组
43
45
53
44
51
53
54
37
47
57
48
42
C组
83
66
66
86
56
52
76
83
72
73
59
53
(F=78.86**)
1、检验过程烦琐 例如,一试验包含5个处理,采用t检验法要进行=10次两两平均数的差异显著性检验;若有k个处理,则要作k(k-1)/2次类似的检验。
2、无统一的试验误差,误差估计的精确性和检验的灵敏性低 对同一试验的多个处理进行比较时,应该有一个统一的试验误差的估计值。若用t检验法作两两比较,由于每次比较需计算一个,故使得各次比较误差的估计不统一,同时没有充分利用资料所提供的信息而使误差估计的精确性降低,从而降低检验的灵敏性。例如,试验有5个处理,每个处理重复6次,共有30个观测值。进行t检验时,每次只能利用两个处理共12个观测值估计试验误差,误差自由度为2(6-1)=10;若利用整个试验的30个观测值估计试验误差,显然估计的精确性高,且误差自由度为5(6-1)=25。可见,在用t检法进行检验时,由于估计误差的精确性低,误差自由度小,使检验的灵敏性降低,容易掩盖差异的显著性。
3、推断的可靠性低,检验的I型错误率大 即使利用资料所提供的全部信息估计了试验误差,若用t检验法进行多个处理平均数间的差异显著性检验,由于没有考虑相互比较的两个平均数的秩次问题,因而会增大犯I型错误的概率,降低推断的可靠性。
由于上述原因,多个平均数的差异显著性检验不宜用t检验,须采用方差分析法。
方差分析(analysis of variance)是由英国统计学家R.A.Fisher于1923年提出的。这种方法是将k个处理的观测值作为一个整体看待,把观测值总变异的平方和及自由度分解为相应于不同变异来源的平方和及自由度,进而获得不同变异来源总体方差估计值;通过计算这些总体方差的估计值的适当比值,就能检验各样本所属总体平均数是否相等。方差分析实质上是关于观测值变异原因的数量分析,它在科学研究中应用十分广泛。
本章在讨论方差分析基本原理的基础上,重点介绍单因素试验资料及两因素试验资料的方差分析法。在此之前,先介绍几个常用术语。
1、试验指标(experimental index) 为衡量试验结果的好坏或处理效应的高低,在试验中具体测定的性状或观测的项目称为试验指标。由于试验目的不同,选择的试验指标也不相同。在畜禽、水产试验中常用的试验指标有:日增重、产仔数、产奶量、产蛋率、瘦肉率、某些生理生化和体型指标(如血糖含量、体高、体重)等。
2、试验因素(experimental factor) 试验中所研究的影响试验指标的因素叫试验因素。如研究如何提高猪的日增重时,饲料的配方、猪的品种、饲养方式、环境温湿度等都对日增重有影响,均可作为试验因素来考虑。当试验中考察的因素只有一个时,称为单因素试验;若同时研究两个或两个以上的因素对试验指标的影响时,则称为两因素或多因素试验。试验因素常用大写字母A、B、C、…等表示。
3、因素水平(level of factor) 试验因素所处的某种特定状态或数量等级称为因素水平,简称水平。如比较3个品种奶牛产奶量的高低,这3个品种就是奶牛品种这个试验因素的3个水平;研究某种饲料中4种不同能量水平对肥育猪瘦肉率的影响,这4种特定的能量水平就是饲料能量这一试验因素的4个水平。因素水平用代表该因素的字母加添足标1,2,…,来表示。如A1、A2、…,B1、B2、…,等。
4、试验处理(treatment) 事先设计好的实施在试验单位上的具体项目叫试验处理,简称处理。在单因素试验中,实施在试验单位上的具体项目就是试验因素的某一水平。例如进行饲料的比较试验时,实施在试验单位(某种畜禽)上的具体项目就是喂饲某一种饲料。所以进行单因素试验时,试验因素的一个水平就是一个处理。在多因素试验中,实施在试验单位上的具体项目是各因素的某一水平组合。例如进行3种饲料和3个品种对猪日增重影响的两因素试验,整个试验共有3×3=9个水平组合,实施在试验单位(试验猪)上的具体项目就是某品种与某种饲料的结合。所以,在多因素试验时,试验因素的一个水平组合就是一个处理。
5、试验单位(experimental unit) 在试验中能接受不同试验处理的独立的试验载体叫试验单位。在畜禽、水产试验中,一只家禽、一头家畜、一只小白鼠、一尾鱼,即一个动物;或几只家禽、几头家畜、几只小白鼠、几尾鱼,即一组动物都可作为试验单位。试验单位往往也是观测数据的单位。
6、重复(repetition) 在试验中,将一个处理实施在两个或两个以上的试验单位上,称为处理有重复;一处理实施的试验单位数称为处理的重复数。例如,用某种饲料喂4头猪,就说这个处理(饲料)有4次重复。
第一节 方差分析的基本原理与步骤
方差分析有很多类型,无论简单与否,其基本原理与步骤是相同的。本节结合单因素试验结果的方差分析介绍其原理与步骤。
一、线性模型与基本假定假设某单因素试验有k个处理,每个处理有n次重复,共有nk个观测值。这类试验资料的数据模式如表6-1所示。
表6-1 k个处理每个处理有n个观测值的数据模式处理
观 测 值
合计
平均
A1
x11
x12
…
x1j
…
x1n
A2
x21
x22
…
x2j
…
x2n
…
…
Ai
xi1
xi2
…
xij
…
xin
…
…
Ak
xk1
xk2
…
xkj
…
xkn
xk.
合计
表中表示第i个处理的第j个观测值(i=1,2,…,k;j=1,2,…,n);表示第i个处理n个观测值的和;表示全部观测值的总和;表示第i个处理的平均数;表示全部观测值的总平均数;可以分解为
(6-1)
表示第i个处理观测值总体的平均数。为了看出各处理的影响大小,将再进行分解,令
(6-2)
(6-3)
则
(6-4)
其中μ表示全试验观测值总体的平均数,是第i个处理的效应(treatment effects)表示处理i对试验结果产生的影响。显然有
(6-5)
εij是试验误差,相互独立,且服从正态分布N(0,σ2)。
(6-4)式叫做单因素试验的线性模型(linear model)亦称数学模型。在这个模型中表示为总平均数μ、处理效应αi、试验误差εij之和。由εij相互独立且服从正态分布N(0,σ2),可知各处理Ai(i=1,2,…,k)所属总体亦应具正态性,即服从正态分布N(μi,σ2)。尽管各总体的均数可以不等或相等,σ2则必须是相等的。所以,单因素试验的数学模型可归纳为:效应的可加性(additivity)、分布的正态性(normality)、方差的同质性(homogeneity)。这也是进行其它类型方差分析的前提或基本假定。
若将表(6-1)中的观测值xij(i=1,2,…,k;j=1,2,…,n)的数据结构(模型)用样本符号来表示,则
(6-6)
与(6-4)式比较可知,、、分别是μ、(μi-μ)=、(xij-)=的估计值。
(6-4)、(6-6)两式告诉我们:每个观测值都包含处理效应(μi-μ或),与误差(或),故kn个观测值的总变异可分解为处理间的变异和处理内的变异两部分。
二、平方和与自由度的剖分
我们知道,方差与标准差都可以用来度量样本的变异程度。因为方差在统计分析上有许多优点,而且不用开方,所以在方差分析中是用样本方差即均方(mean squares)来度量资料的变异程度的。表6-1中全部观测值的总变异可以用总均方来度量。将总变异分解为处理间变异和处理内变异,就是要将总均方分解为处理间均方和处理内均方。但这种分解是通过将总均方的分子──称为总离均差平方和,简称为总平方和,剖分成处理间平方和与处理内平方和两部分;将总均方的分母──称为总自由度,剖分成处理间自由度与处理内自由度两部分来实现的。
(一)总平方和的剖分 在表6-1中,反映全部观测值总变异的总平方和是各观测值xij与总平均数的离均差平方和,记为SST。即
因为
其中
所以 (6-7)
(6-7)式中,为各处理平均数与总平均数的离均差平方和与重复数n的乘积,反映了重复n次的处理间变异,称为处理间平方和,记为SSt,即
(6-7)式中,为各处理内离均差平方和之和,反映了各处理内的变异即误差,称为处理内平方和或误差平方和,记为SSe,即
于是有
SST =SSt+SSe (6-8)
(6-7),(6-8)两式是单因素试验结果总平方和、处理间平方和、处理内平方和的关系式。这个关系式中三种平方和的简便计算公式如下:
(6-9)
其中,C=x2··/kn称为矫正数。
(二)总自由度的剖分 在计算总平方和时,资料中的各个观测值要受这一条件的约束,故总自由度等于资料中观测值的总个数减一,即kn-1。总自由度记为dfT,即dfT=kn-1。
在计算处理间平方和时,各处理均数要受这一条件的约束,故处理间自由度为处理数减一,即k-1。处理间自由度记为dft,即dft=k-1。
在计算处理内平方和时,要受k个条件的约束,即(i=1,2,…,k)。故处理内自由度为资料中观测值的总个数减k,即kn-k 。处理内自由度记为dfe,即dfe=kn-k=k(n-1)。
因为
所以
(6-10)
综合以上各式得:
(6-11)
各部分平方和除以各自的自由度便得到总均方、处理间均方和处理内均方,分别记为(MST或)、MSt(或)和MSe(或)。即
(6-12)
总均方一般不等于处理间均方加处理内均方。
【例6.1】 某水产研究所为了比较四种不同配合饲料对鱼的饲喂效果,选取了条件基本相同的鱼20尾,随机分成四组,投喂不同饲料,经一个月试验以后,各组鱼的增重结果列于下表。
表6-2 饲喂不同饲料的鱼的增重 (单位:10g)
饲料
鱼的增重(xij)
合计
平均
A1
31.9
27.9
31.8
28.4
35.9
155.9
31.18
A2
24.8
25.7
26.8
27.9
26.2
131.4
26.28
A3
22.1
23.6
27.3
24.9
25.8
123.7
24.74
A4
27.0
30.8
29.0
24.5
28.5
139.8
27.96
合计
=550.8
这是一个单因素试验,处理数k=4,重复数n=5。各项平方和及自由度计算如下:
矫正数
总平方和
处理间平方和
处理内平方和
总自由度
处理间自由度
处理内自由度
用SSt、SSe分别除以dft和dfe便得到处理间均方MSt及处理内均方MSe。
因为方差分析中不涉及总均方的数值,所以不必计算之。
三、期望均方
如前所述,方差分析的一个基本假定是要求各处理观测值总体的方差相等,即(i=1,2,…,k)表示第i个处理观测值总体的方差。如果所分析的资料满足这个方差同质性的要求,那么各处理的样本方差S21,S22,…,S2k都是σ2的无偏估计(unbiased estimate)量。 (i=1,2,…,k)是由试验资料中第i个处理的n个观测值算得的方差。
显然,各的合并方差(以各处理内的自由度n-1为权的加权平均数)也是σ2的无偏估计量,且估计的精确度更高。很容易推证处理内均方MSe就是各的合并。
其中SSi、dfi(i=1,2,…,k)分别表示由试验资料中第i个 处理的n个观测值算得的平方和与自由度。这就是说,处理内均方MSe是误差方差σ2的无偏估计量。
试验中各处理所属总体的本质差异体现在处理效应的差异上。我们把称为效应方差,它也反映了各处理观测值总体平均数的变异程度,记为。
(6-13)
因为各未知,所以无法求得的确切值,只能通过试验结果中各处理均数的差异去估计。然而,并非的无偏估计量。这是因为处理观测值的均数间的差异实际上包含了两方面的内容:一是各处理本质上的差异即αi(或μi)间的差异,二是本身的抽样误差。统计学上已经证明,是+σ2/n的无偏估计量。因而,我们前面所计算的处理间均方MSt实际上是n+σ2的无偏估计量。
因为MSe是σ2的无偏估计量,MSt是n+σ2的无偏估计量,所以σ2为MSe的数学期望(mathematical expectation),n+σ2为MSt的数学期望。又因为它们是均方的期望值(expected value),故又称期望均方,简记为EMS(expected mean squares)。
当处理效应的方差=0,亦即各处理观测值总体平均数(i=1,2,…,k)相等时,处理间均方MSt与处理内均方一样,也是误差方差σ2的估计值,方差分析就是通过MSt 与MSe的比较来推断是否为零即是否相等的。
四、F分布与F检验
(一)F分布 设想我们作这样的抽样试验,即在一正态总体N(μ,σ2)中随机抽取样本含量为n的样本k个,将各样本观测值整理成表6-1的形式。此时所谓的各处理没有真实差异,各处理只是随机分的组。因此,由(6-12)式算出的和都是误差方差的估计量。以为分母,为分子,求其比值。统计学上把两个均方之比值称为F值。即
(6-14)
F具有两个自由度:。
若在给定的k和n的条件下,继续从该总体进行一系列抽样,则可获得一系列的F值。这些F值所具有的概率分布称为F分布(F distribution)。F分布密度曲线是随自由度df1、df2的变化而变化的一簇偏态曲线,其形态随着df1、df2的增大逐渐趋于对称,如图6-1所示。
F分布的取值范围是(0,+∞),其平均值=1。
用表示F分布的概率密度函数,则其分布函数为:
(6-15)
因而F分布右尾从到+∞的概率为:
(6-16)
附表4列出的是不同df1和df2下,P(F≥)=0.05和P(F≥)=0.01时的F值,即右尾概率α=0.05和α=0.01时的临界F值,一般记作,。如查附表4,当df1=3,df2=18时,F0.05(3,18)=3.16,F0.01(3,18)=5.09,表示如以df1=dft=3,df2=dfe=18在同一正态总体中连续抽样,则所得F值大于3.16的仅为5%,而大于5.09的仅为1%。
(二)F检验 附表4是专门为检验代表的总体方差是否比代表的总体方差大而设计的。若实际计算的F值大于,则F值在α=0.05的水平上显著,我们以95%的可靠性(即冒5%的风险)推断代表的总体方差大于代表的总体方差。这种用F值出现概率的大小推断两个总体方差是否相等的方法称为F检验(F-test)。
在方差分析中所进行的F检验目的在于推断处理间的差异是否存在,检验某项变异因素的效应方差是否为零。因此,在计算F值时总是以被检验因素的均方作分子,以误差均方作分母。应当注意,分母项的正确选择是由方差分析的模型和各项变异原因的期望均方决定的。
在单因素试验结果的方差分析中,无效假设为H0:μ1=μ2=…=μk,备择假设为HA:各
μi不全相等,或H0, =0,HA,≠0;F=MSt/MSe,也就是要判断处理间均方是否显著大于处理内(误差)均方。如果结论是肯定的,我们将否定H0;反之,不否定H0。反过来理解:如果H0是正确的,那么MSt与MSe都是总体误差σ2的估计值,理论上讲F值等于1;如果H0是不正确的,那么MSt之期望均方中的就不等于零,理论上讲F值就必大于1。但是由于抽样的原因,即使H0正确,F值也会出现大于1的情况。所以,只有F值大于1达到一定程度时,才有理由否定H0。
实际进行F检验时,是将由试验资料所算得的F值与根据df1=dft(大均方,即分子均方的自由度)、df2=dfe(小均方,即分母均方的自由度)查附表4所得的临界F值,相比较作出统计推断的。
若F<,即P>0.05,不能否定H0,统计学上,把这一检验结果表述为:各处理间差异不显著,在F值的右上方标记“ns”,或不标记符号;若≤F<,即0.01<P≤0.05,否定H0,接受HA,统计学上,把这一检验结果表述为:各处理间差异显著,在F值的右上方标记“*”;若F≥,即P≤0.01,否定H0,接受HA,统计学上,把这一检验结果表述为:各处理间差异极显著,在F值的右上方标记“**”。
对于【例6.1】,因为F=MSt/MSe=38.09/5.34=7.13**;根据df1=dft=3,df2=dfe=16查附表4,得F>F0.01(3,16) =5.29,P<0.01,表明四种不同饲料对鱼的增重效果差异极显著,用不同的饲料饲喂,增重是不同的。
在方差分析中,通常将变异来源、平方和、自由度、均方和F值归纳成一张方差分析表,见表6-3。
表6-3 表6-2资料方差分析表变异来源
平方和
自由度
均方
F值
处理间
114.27
3
38.09
7.13**
处理内
85.40
16
5.34
总变异
199.67
19
表中的F值应与相应的被检验因素齐行。因为经F检验差异极显著,故在F值7.13右上方标记“**”。
在实际进行方差分析时,只须计算出各项平方和与自由度,各项均方的计算及F值检验可在方差分析表上进行。
五、多重比较
F值显著或极显著,否定了无效假设HO,表明试验的总变异主要来源于处理间的变异,试验中各处理平均数间存在显著或极显著差异,但并不意味着每两个处理平均数间的差异都显著或极显著,也不能具体说明哪些处理平均数间有显著或极显著差异,哪些差异不显著。
因而,有必要进行两两处理平均数间的比较,以具体判断两两处理平均数间的差异显著性。
统计上把多个平均数两两间的相互比较称为多重比较(multiple comparisons)。
多重比较的方法甚多,常用的有最小显著差数法(LSD法)和最小显著极差法(LSR法),现分别介绍如下。
(一)最小显著差数法 (LSD法,least significant difference) 此法的基本作法是:在F检验显著的前提下,先计算出显著水平为α的最小显著差数,然后将任意两个处理平均数的差数的绝对值与其比较。若>LSDa时,则与在α水平上差异显著;反之,则在α水平上差异不显著。最小显著差数由(6-17)式计算。
(6-17)
式中:为在F检验中误差自由度下,显著水平为α的临界t值,为均数差异标准误,由(6-18)式算得。
(6-18)其中为F检验中的误差均方,n为各处理的重复数。
当显著水平α=0.05和0.01时,从t值表中查出和,代入(6-17)式得:
(6-19)
利用LSD法进行多重比较时,可按如下步骤进行:
(1)列出平均数的多重比较表,比较表中各处理按其平均数从大到小自上而下排列;
(2)计算最小显著差数和;
(3)将平均数多重比较表中两两平均数的差数与、比较,作出统计推断。
对于【例6.1】,各处理的多重比较如表6-4所示。
表6-4 四种饲料平均增重的多重比较表(LSD法)
处理
平均数
-24.74
-26.28
-27.96
A1
31.18
6.44**
4.90**
3.22*
A4
27.96
3.22*
1.68 ns
A2
26.28
1.54ns
A3
24.74
注:表中A4与 A3的差数3.22用q检验法与新复极差法时,在α=0.05的水平上不显著。
因为,;查t值表得:t0.05(dfe) =t0.05(16) =2.120,
t0.01(dfe)=t0.01(16)=2.921
所以,显著水平为0.05与0.01的最小显著差数为
将表6-4中的6个差数与,比较:小于者不显著,在差数的右上方标记“ns”,或不标记符号;介于与之间者显著,在差数的右上方标记“*”;大于者极显著,在差数的右上方标记“**”。检验结果除差数1.68、1.54不显著、3.22显著外,其余两个差数6.44、4.90极显著。表明A1饲料对鱼的增重效果极显著高于A2和A3,显著高于A4;A4饲料对鱼的增重效果极显著高于A3饲料;A4 与A2、A2与A3的增重效果差异不显著,以A1饲料对鱼的增重效果最佳。
关于法的应用有以下几点说明:
1、法实质上就是检验法。它是将检验中由所求得的之绝对值与临界值的比较转为将各对均数差值的绝对值与最小显著差数的比较而作出统计推断的。但是,由于法是利用F检验中的误差自由度查临界值,利用误差均方计算均数差异标准误,因而法又不同于每次利用两组数据进行多个平均数两两比较的检验法。它解决了本章开头指出的检验法检验过程烦琐,无统一的试验误差且估计误差的精确性和检验的灵敏性低这两个问题。但法并未解决推断的可靠性降低、犯I型错误的概率变大的问题。
2、有人提出,与检验任何两个均数间的差异相比较,法适用于各处理组与对照组比较而处理组间不进行比较的比较形式。实际上关于这种形式的比较更适用的方法有顿纳特(Dunnett)法(关于此法,读者可参阅其它有关统计书籍)。
3、因为法实质上是检验,故有人指出其最适宜的比较形式是:在进行试验设计时就确定各处理只是固定的两个两个相比,每个处理平均数在比较中只比较一次。例如,在一个试验中共有4个处理,设计时已确定只是处理1与处理2、处理3与处理4(或1与3、2与4;或1与4、2与3)比较,而其它的处理间不进行比较。因为这种比较形式实际上不涉及多个均数的极差问题,所以不会增大犯I型错误的概率。
综上所述,对于多个处理平均数所有可能的两两比较,法的优点在于方法比较简便,克服一般检验法所具有的某些缺点,但是由于没有考虑相互比较的处理平均数依数值大小排列上的秩次,故仍有推断可靠性低、犯I型错误概率增大的问题。为克服此弊病,统计学家提出了最小显著极差法。
(二)最小显著极差法(LSR法,Least significant ranges) 法的特点是把平均数的差数看成是平均数的极差,根据极差范围内所包含的处理数(称为秩次距)的不同而采用不同的检验尺度,以克服法的不足。这些在显著水平α上依秩次距的不同而采用的不同的检验尺度叫做最小显著极差。例如有10个要相互比较,先将10个依其数值大小顺次排列,两极端平均数的差数(极差)的显著性,由其差数是否大于秩次距=10时的最小显著极差决定(≥为显著,<为不显著=;而后是秩次距=9的平均数的极差的显著性,则由极差是否大于=9时的最小显著极差决定;……直到任何两个相邻平均数的差数的显著性由这些差数是否大于秩次距k=2时的最小显著极差决定为止。因此,有个平均数相互比较,就有-1种秩次距(,-1,-2,…,2),因而需求得-1个最小显著极差(),分别作为判断具有相应秩次距的平均数的极差是否显著的标准。
因为法是一种极差检验法,所以当一个平均数大集合的极差不显著时,其中所包含的各个较小集合极差也应一概作不显著处理。
法克服了法的不足,但检验的工作量有所增加。常用的法有检验法和新复极差法两种。
1、检验法(q test) 此法是以统计量的概率分布为基础的。值由下式求得:
(6-20)
式中,ω为极差,为标准误,分布依赖于误差自由度dfe及秩次距k。
利用检验法进行多重比较时,为了简便起见,不是将由(6-20)式算出的值与临界值比较,而是将极差与比较,从而作出统计推断。即为α水平上的最小显著极差。
(6-21)
当显著水平α=0.05和0.01时,从附表5(值表)中根据自由度及秩次距查出和代入(6-21)式得
(6-22)
实际利用检验法进行多重比较时,可按如下步骤进行:
(1)列出平均数多重比较表;
(2)由自由度、秩次距查临界值,计算最小显著极差0.05,k,0.01,k;
(3)将平均数多重比较表中的各极差与相应的最小显著极差0.05,k,0.01,k比较,作出统计推断。
对于【例6.1】,各处理平均数多重比较表同表6-4。在表6-4中,极差1.54、1.68、3.22的秩次距为2;极差3.22、4.90的秩次距为3;极差6.44的秩次距为4。
因为,=5.34,故标准误为
根据=16,=2,3,4由附表5查出0.05、0.01水平下临界值,乘以标准误求得各最小显著极差,所得结果列于表6-5。
表6-5 q值及LSR值
dfe
秩次距k
q0.05
q0.01
LSR0.05
LSR0.01
16
2
3.00
4.13
3.099
4.266
3
3.65
4.79
3.770
4.948
4
4.05
5.19
4.184
5.361
将表6-4中的极差1.54、1.68、3.22与表6-5中的最小显著极差3.099、4.266比较;将极差3.22、4.90与3.770、4.948比较;将极差6.44与4.184、5.361比较。检验结果,除A4与 A3的差数3.22由LSD法比较时的差异显著变为差异不显著外,其余检验结果同法。
2、新复极差法(new multiple range method) 此法是由邓肯(Duncan)于1955年提出,故又称Duncan法,此法还称SSR法(shortest significant ranges)。
新复极差法与检验法的检验步骤相同,唯一不同的是计算最小显著极差时需查表(附表6)而不是查值表。最小显著极差计算公式为
(6-23)
其中是根据显著水平α、误差自由度、秩次距,由表查得的临界值,。α=0.05和α=0.01水平下的最小显著极差为:
(6-24)
对于【例6.1】,各处理均数多重比较表同表6-4。
已算出=1.033,依=16,=2,3,4,由附表6查临界0.05(16,k)和0.01(16,k)值,乘以=1.033,求得各最小显著极差,所得结果列于表6-6。
表6-6 SSR值与LSR值
dfe
秩次距k
SSR0.05
SSR0.01
LSR0.05
LSR0.01
2
3.00
4.13
3.099
4.266
16
3
3.15
4.34
3.254
4.483
4
3.23
4.45
3.337
4.597
将表6-4中的平均数差数(极差)与表6-6中的最小显著极差比较,检验结果与检验法相同。
当各处理重复数不等时,为简便起见,不论法还是法,可用(6-25)式计算出一个各处理平均的重复数n0,以代替计算或所需的n。
(6-25)
式中为试验的处理数, (i=1,2,…,k)为第处理的重复数。
以上介绍的三种多重比较方法,其检验尺度有如下关系:
法≤新复极差法≤检验法当秩次距=2时,取等号;秩次距≥3时,取小于号。在多重比较中,法的尺度最小,检验法尺度最大,新复极差法尺度居中。用上述排列顺序前面方法检验显著的差数,用后面方法检验未必显著;用后面方法检验显著的差数,用前面方法检验必然显著。一般地讲,一个试验资料,究竟采用哪一种多重比较方法,主要应根据否定一个正确的H0和接受一个不正确的H0的相对重要性来决定。如果否定正确的H0是事关重大或后果严重的,或对试验要求严格时,用检验法较为妥当;如果接受一个不正确的H0是事关重大或后果严重的,则宜用新复极差法。生物试验中,由于试验误差较大,常采用新复极差法;F检验显著后,为了简便,也可采用法。
(三)多重比较结果的表示法 各平均数经多重比较后,应以简明的形式将结果表示出来,常用的表示方法有以下两种。
1、三角形法 此法是将多重比较结果直接标记在平均数多重比较表上,如表6-4所示。由于在多重比较表中各个平均数差数构成一个三角形阵列,故称为三角形法。此法的优点是简便直观,缺点是占的篇幅较大。
2、标记字母法 此法是先将各处理平均数由大到小自上而下排列;然后在最大平均数后标记字母,并将该平均数与以下各平均数依次相比,凡差异不显著标记同一字母,直到某一个与其差异显著的平均数标记字母;再以标有字母的平均数为标准,与上方比它大的各个平均数比较,凡差异不显著一律再加标,直至显著为止;再以标记有字母的最大平均数为标准,与下面各未标记字母的平均数相比,凡差异不显著,继续标记字母,直至某一个与其差异显著的平均数标记;……;如此重复下去,直至最小一个平均数被标记比较完毕为止。这样,各平均数间凡有一个相同字母的即为差异不显著,凡无相同字母的即为差异显著。用小写拉丁字母表示显著水平α=0.05,用大写拉丁字母表示显著水平α=0.01。在利用字母标记法表示多重比较结果时,常在三角形法的基础上进行。此法的优点是占篇幅小,在科技文献中常见。
对于【例6.1】,现根据表6-4所表示的多重比较结果用字母标记如表6-7所示(用新复极差法检验,表6-4中A4与A3的差数3.22在α=0.05的水平上不显著,其余的与LSD法同)。
表6-7 表6-4多重比较结果的字母标记(SSR法)
处理
平均数
α=0.05
α=0.01
A1
31.18
a
A
A4
27.96
b
AB
A2
26.28
b
B
A3
24.74
b
B
在表6-7中,先将各处理平均数由大到小自上而下排列。当显著水平α=0.05时,先在平均数31.18行上标记字母;由于31.18与27.96之差为3.22,在α=0.05水平上显著,所以在平均数27.96行上标记字母b;然后以标记字母b的平均数27.96与其下方的平均数26.28比较,差数为1.68,在α=0.05水平上不显著,所以在平均数26.28行上标记字母b;再将平均数27.96与平均数24.74比较,差数为3.22,在α=0.05水平上不显著,所以在平均数24.74行上标记字母b。类似地,可以在α=0.01将各处理平均数标记上字母,结果见表6-7。q检验结果与SSR法检验结果相同。
由表6-7看到,A1饲料对鱼的平均增重极显著地高于A2和A3饲料,显著高于A4饲料;A4、A2、A3三种饲料对鱼的平均增重差异不显著。四种饲料其中以A1饲料对鱼的增重效果最好。
应当注意,无论采用哪种方法表示多重比较结果,都应注明采用的是哪一种多重比较法。
*六、单一自由度的正交比较在从事一项试验时,试验工作者往往有一些特殊问题需要回答。这可以通过有计划地安排一些处理,以便从中获得资料进行统计检验,据以回答各种问题。
【例6.2】 某试验研究不同药物对腹水癌的治疗效果,将患腹水癌的25只小白鼠随机分为5组,每组5只。其中A1组不用药作为对照,A2、A3为用两个不同的中药组,A4、A5为用两个不同的西药组,各组小白鼠的存活天数如表6-8所示。
表6-8 用不同药物治疗患腹水癌的小白鼠的存活天数药物
各鼠存活天数(xij)
合计
平均
A1
15
16
15
17
18
81
16.2
A2
45
42
50
38
39
214
42.8
A3
30
35
29
31
35
160
32.0
A4
31
28
20
25
30
134
26.8
A5
40
35
31
32
30
168
33.6
合计
=757
这是一个单因素试验,其中k=5,n=5,按照前面介绍的方法进行方差分析(具体计算过程略),可以得到方差分析表,见表6-9。
表6-9 表6-8资料方差分析表变异来源
平方和
自由度
均方
F值
处理间
1905.44
4
476.36
34.22**
处理内
277.60
20
13.88
总变异
2183.04
24
对于【例6.2】资料,试验者可能对下述问题感兴趣:
(1)不用药物治疗与用药物治疗;
(2)中药与西药;
(3)中药A2与中药A3;
(4)西药A4与西药A5;
相比结果如何?
显然,用前述多重比较方法是无法回答或不能很好地回答这些问题的。如果事先按照一定的原则设计好(k-1)个正交比较,将处理间平方和根据设计要求剖分成有意义的各具一个自由度的比较项,然后用F检验(此时df1=1)便可明确地回答上述问题。这就是所谓单一自由度的正交比较(orthogonal comparison of single degree of freedom),也叫单一自由度的独立比较(independent comparison of single degree of freedom)。单一自由度的正交比较有成组比较和趋势比较两种情况,后者要涉及到回归分析。这里结合解答【例6.2】的上述四个问题,仅就成组比较予以介绍。
首先将表6-8各处理的总存活天数抄于表6-10,然后写出各预定比较的正交系数Ci(orthogonal coefficient)。
表6-10 【例6.2】资料单一自由度正交比较的正交系数和平方和的计算比 较
处理和各处理存活总天数
Di
ΣC2i
SSi
A1
A2
A3
A4
A5
81
214
160
134
168
A1与A2+ A3+ A4+ A5
+4
-1
-1
-1
-1
-352
20
1239.04
A2+ A3与A4+ A5
0
+1
+1
-1
-1
72
4
259.20
A2与A3
0
+1
-1
0
0
54
2
291.60
A4与A5
0
0
0
+1
-1
-34
2
115.60
合 计
1905.44
表6-10中各比较项的正交系数是按下述规则构成的:
(1)如果比较的两个组包含的处理数目相等,则把系数+1分配给一个组的各处理,把系数-1分配给另一组的各处理,至于哪一组应取正号还是负号是无关紧要的。如A2+A3与A4+A5两组比较(属中药与西药比较),A2、A3两处理各记系数+1,A4、A5两处理各记系数-1。
(2)如果比较的两个组包含的处理数目不相等,则分配到第一组的系数等于第二组的处理数;而分配到第二组的系数等于第一组的处理数,但符号相反。如A1与A2+A3+A4+A5的比较,第一组只有1个处理,第二组有4个处理,故分配给A1处理的系数为+4,而分配给处理A2、A3、A4、A5的系数为-1。又如,假设在5个处理中,前2个处理与后3个处理比较,其系数应是+3、+3、-2、-2、-2。
(3)把系数约简成最小的整数。例如,2个处理为一组与4个处理为一组比较,依照规则(2)有系数+4、+4、-2、-2、-2、-2,这些系数应约简成+2、+2、-1、-1、-1、-1。
(4)有时,一个比较可能是另两个比较互作的结果。此时,这一比较的系数可用该两个比较的相应系数相乘求得。如包含4个处理的肥育试验中,两种水平的试畜(B1,B2)和两种水平的饲料(F1,F2),其比较举例如下:
比较
B1F1
B1F2
B2F1
B2F2
品种间(B)
-1
-1
+1
+1
饲料间(F)
-1
+1
-1
+1
B×F间
+1
-1
-1
+1
表中第1和第2两比较的系数是按照规则(1)得到的;互作的系数则是第1、2行系数相乘的结果。
各个比较的正交系数确定后,便可获得每一比较的总和数的差数Di,其通式为:
(6-26)
其中Ci为正交系数,xi.为第i处理的总和。这样表6-10中各比较的Di为:
D1=4×81-1×214-1×160-1×134-1×168=-352
D2=1×214+1×160-1×134-1×168=72
D3=1×214-1×160=54
D4=1×134-1×168=-34
进而可求得各比较的平方和SSi:
(6-27)
式中的n为各处理的重复数,本例n=5。对第一个比较:
同理可计算出SS2=259.20,SS3=291.60,SS4=115.60。计算结果列入表6-10中。
这里注意到,SS1+SS2+SS3+SS4=1905.44,正是表6-9中处理间平方和SSt。这也就是说,利用上面的方法我们已将表6-9处理间具4个自由度的平方和再度分解为各具一个自由度的4个正交比较的平方和。因此,得到单一自由度正交比较的方差分析表6-11。
表6-11 表6-8资料单一自由度正交比较方差分析变异来源
df
SS
MS
F
处理间
4
1905.44
476.36
34.32**
不用药与用药
1
1239.04
1239.04
89.27**
中药与西药
1
259.20
259.20
18.67**
中药A2与中药A3
1
291.60
291.60
21.01**
西药A4与西药A5
1
115.60
115.60
8.33**
误 差
20
277.60
13.88
总变异
24
2183.04
将表6-11中各个比较的均方与误差均方MSe相比,得到F值。查F值表,df1=1,df2=20时,F0.05(1,20) =4.35,F0.01(1,20) =8.10。所以,在这一试验的上述4个比较差异都极显著。
正确进行单一自由度正交比较的关键是正确确定比较的内容和正确构造比较的正交系数。在具体实施时应注意以下三个条件:
(1)设有k个处理,正交比较的数目最多能安排k-1个;若进行单一自由度正交比较,则比较数目必须为k-1,以使每一比较占有且仅占有一个自由度。
(2)每一比较的系数之和必须为零,即ΣCi=0,以使每一比较都是均衡的。
(3)任两个比较的相应系数乘积之和必须为零,即ΣCiCj=0,以保证SSt的独立分解。
对于条件(2),只要遵照上述确定比较项系数的四条规则即可。对于条件(3),主要是在确定比较内容时,若某一处理(或处理组)已经和其余处理(或处理组)作过一次比较,则该处理(或处理组)就不能再参加另外的比较。否则就会破坏ΣCiCj=0这一条件。只要同时满足了(2),(3)两个条件,就能保证所实施的比较是正交的,因而也是独立的。若这样的比较有k-1个,就是正确地进行了一次单一自由度的正交比较。
单一自由度正交比较的优点在于:
(1)它能给人们解答有关处理效应的一些特殊重要的问题;处理有多少个自由度,就能解答多少个独立的问题,不过这些问题应在试验设计时就要计划好。
(2)计算简单。
(3)对处理间平方和提供了一个有用的核对方法。即单一自由度的平方和累加起来应等于被分解的处理间的平方和。否则,不是计算有误,就是分解并非独立。
七、方差分析的基本步骤在本节中,结合单因素试验结果方差分析的实例,较详细地介绍了方差分析的基本原理和步骤。关于方差分析的基本步骤现归纳如下:
(一)计算各项平方和与自由度。
(二)列出方差分析表,进行F检验。
(三)若F检验显著,则进行多重比较。多重比较的方法有最小显著差数法(LSD法)和最小显著极差法(LSR法:包括q检验法和新复极差法)。表示多重比较结果的方法有三角形法和标记字母法。
此外,若有一些特殊重要的问题需要回答,多重比较又无法或不能很好地回答这些问题时,则应考虑单一自由度正交比较法。对这些特殊问题正确而有效的回答,依赖于正确的试验设计和单一自由度正交比较法的正确应用。
第二节 单因素试验资料的方差分析
在方差分析中,根据所研究试验因素的多少,可分为单因素、两因素和多因素试验资料的方差分析。单因素试验资料的方差分析是其中最简单的一种,目的在于正确判断该试验因素各水平的优劣。根据各处理内重复数是否相等,单因素方差分析又分为重复数相等和重复数不等两种情况。上节讨论的是重复数相等的情况。当重复数不等时,各项平方和与自由度的计算,多重比较中标准误的计算略有不同。本节各举一例予以说明。
一、各处理重复数相等的方差分析
【例6.3】抽测5个不同品种的若干头母猪的窝产仔数,结果见表6-12,试检验不同品种母猪平均窝产仔数的差异是否显著。
表6-12 五个不同品种母猪的窝产仔数品种号
观 察 值xij (头/窝)
xi.
1
8
13
12
9
9
51
10.2
2
7
8
10
9
7
41
8.2
3
13
14
10
11
12
60
12
4
13
9
8
8
10
48
9.6
5
12
11
15
14
13
65
13
合计
x.,=265
这是一个单因素试验,k=5,n=5。现对此试验结果进行方差分析如下:
1、计算各项平方和与自由度
2、列出方差分析表,进行F检验
表6-13 不同品种母猪的窝产仔数的方差分析表变异来源
平方和
自由度
均方
F值
品种间
73.20
4
18.30
5.83**
误差
62.80
20
3.14
总变异
136.00
24
根据df1=dft=4,df2=dfe=20查临界F值得:F0.05(4,20) =2.87,F0.05(4,20) =4.43,因为F>F0.01(4,20),即P<0.01,表明品种间产仔数的差异达到1%显著水平。
3、多重比较 采用新复极差法,各处理平均数多重比较表见表6-14。
表6-14 不同品种母猪的平均窝产仔数多重比较表(SSR法)
品种
平均数
-8.2
-9.6
-10.2
-12.0
5
13.0
4.8**
3.4*
2.8*
1.0
3
12.0
3.8**
2.4
1.8
1
10.2
2.0
0.6
4
9.6
1.4
2
8.2
因为MSe=3.14,n=5,所以为:
根据dfe=20,秩次距k=2,3,4,5由附表6查出α=0.05和α=0.01的各临界SSR值,乘以=0.7925,即得各最小显著极差,所得结果列于表6-15。
表6-15 SSR值及LSR值
dfe
秩次距k
SSR0.05
SSR0.01
LSR0.05
LSR0.01
20
2
2.95
4.02
2.339
3.188
3
3.10
4.22
2.458
3.346
4
3.18
4.33
2.522
3.434
5
3.25
4.40
2.577
3.489
将表6-14中的差数与表6-15中相应的最小显著极差比较并标记检验结果。检验结果表明:5号品种母猪的平均窝产仔数极显著高于2号品种母猪,显著高于4号和1号品种,但与3号品种差异不显著;3号品种母猪的平均窝产仔数极显著高于2号品种,与1号和4号品种差异不显著;1号、4号、2号品种母猪的平均窝产仔数间差异均不显著。五个品种中以5号品种母猪的窝产仔数最高,3号品种次之,2号品种母猪的窝产仔数最低。
二、各处理重复数不等的方差分析这种情况下方差分析步骤与各处理重复数相等的情况相同,只是在有关计算公式上略有差异。
设处理数为k;各处理重复数为n1,n2,…,nk;试验观测值总数为N=Σni。则
(6-28)
【例6.4】 5个不同品种猪的育肥试验,后期30天增重(kg)如表6-16所示。试比较品种间增重有无差异。
表6-16 5个品种猪30天增重品种
增 重 (kg)
ni
xi.
B1
21.5
19.5
20.0
22.0
18.0
20.0
6
121.0
20.2
B2
16.0
18.5
17.0
15.5
20.0
16.0
6
103.0
17.2
B3
19.0
17.5
20.0
18.0
17.0
5
91.5
18.3
B4
21.0
18.5
19.0
20.0
4
78.5
19.6
B5
15.5
18.0
17.0
16.0
4
66.5
16.6
合计
25
460.5
此例处理数k=5,各处理重复数不等。现对此试验结果进行方差分析如下:
1、计算各项平方和与自由度利用公式(6-28)计算
2、列出方差分析表,进行F检验临界F值为:F0.05(4,20) =2.87,F0.01(4,20) =4.43,因为品种间的F值5.99>F0.01(4,20),P<0.01,表明品种间差异极显著。
表6-17 5个品种育肥猪增重方差分析表变异来源
平方和
自由度
均方
F值
品种间
46.50
4
11.63
5.99**
品种内(误差)
38.84
20
1.94
总变异
85.34
24
3、多重比较 采用新复极差法,各处理平均数多重比较表见表6-18。
因为各处理重复数不等,应先由公式(6-25)计算出平均重复次数n0来代替标准误中的n,此例
于是,标准误为,
表6-18 5个品种育肥猪平均增重多重比较表(SSR法)
品种
平均数
-16.6
-17.2
-18.3
-19.6
B1
20.2
3.6**
3.0**
1.9
0.6
B4
19.6
3.0**
2.4*
1.3
B3
18.3
1.7
1.1
B2
17.2
0.6
B5
16.6
根据dfe=20,秩次距k=2,3,4,5,从附表6中查出α=0.05与α=0.01的临界SSR值,乘以=0.63,即得各最小显极差,所得结果列于表6-19。
表6-19 SSR值及LSR值表
dfe
秩次距(k)
SSR0.05
SSR0.01
LSR0.05
LSR0.01
20
2
2.95
4.02
1.844
2.513
3
3.10
4.22
1.938
2.638
4
3.18
4.33
1.988
2.706
5
3.25
4.40
2.031
2.750
将表6-18中的各个差数与表6-19中相应的最小显著极差比较,作出推断。检验结果已标记在表6-18中。
多重比较结果表明B1、B4品种的平均增重极显著或显著高于B2、B5品种的平均增重,其余不同品种之间差异不显著。可以认为B1、B4品种增重最快,B2、B5品种增重较差,B3品种居中。
单因素试验只能解决一个因素各水平之间的比较问题。如上述研究几个品种猪的育肥试验,只能比较几个品种的增重快慢。而影响增重的其它因素,如饲料中能量的高低、蛋白质含量的多少、饲喂方式及环境温度的变化等就无法得以研究。实际上,往往对这些因素有必要同时考察。只有这样才能作出更加符合客观实际的科学结论,才有更大的应用价值。这就要求进行两因素或多因素试验。下面介绍两因素试验资料的方差分析法。
第三节 两因素试验资料的方差分析
两因素试验资料的方差分析是指对试验指标同时受到两个试验因素作用的试验资料的方差分析。两因素试验按水平组合的方式不同,分为交叉分组和系统分组两类,因而对试验资料的方差分析方法也分为交叉分组方差分析和系统分组方差分析两种,现分别介绍如下。
一、交叉分组资料的方差分析设试验考察A、B两个因素,A因素分个水平,B因素分b个水平。所谓交叉分组是指A因素每个水平与B因素的每个水平都要碰到,两者交叉搭配形成b个水平组合即处理,试验因素A、B在试验中处于平等地位,试验单位分成b个组,每组随机接受一种处理,因而试验数据也按两因素两方向分组。这种试验以各处理是单独观测值还是有重复观测值又分为两种类型。
(一)两因素单独观测值试验资料的方差分析 对于A、B两个试验因素的全部b个水平组合,每个水平组合只有一个观测值,全试验共有b个观测值,其数据模式如表6-20所示。
表6-20 两因素单独观测值试验数据模式
A因素
B因素
合计xi.
平均
B1
B2
……
Bj
……
Bb
A1
x11
x12
……
x1j
……
x1b
x1.
A2
x21
x22
……
x2j
……
x2b
x2.
……
……
Ai
xi1
xi2
……
xij
……
xib
xi.
……
……
Aa
xa1
xa2
……
xaj
……
xab
xa.
合计x.j
x.1
x.2
……
x.j
……
x.b
x..
平均
……
……
表6-20中
,
两因素单独观测值试验的数学模型为:
(6-29)
式中,μ为总平均数;αi,βj分别为Ai、Bj的效应,αi=μi-μ,βj=μj-μ,μi、μj分别为Ai、Bj观测值总体平均数,且Σαi=0,Σβj=0;εij为随机误差,相互独立,且服从N(0,σ2)。
交叉分组两因素单独观测值的试验,A因素的每个水平有b次重复,B因素的每个水平有次重复,每个观测值同时受到A、B两因素及随机误差的作用。因此全部b个观测值的总变异可以剖分为A因素水平间变异、B因素水平间变异及试验误差三部分;自由度也相应剖分。平方和与自由度的剖分式如下:
(6-30)
各项平方和与自由度的计算公式为矫正数
总平方和
A因素平方和
B因素平方和 (6-31)
误差平方和 SSe=SST-SSA-SSB
总自由度 dfT=ab-1
A因素自由度 dfA=a-1
B因素自由度 dfB=b-1
误差自由度 dfe= dfT - dfA - dfB =(a-1)(b-1)
相应均方为
【例6.5】 为研究雌激素对子宫发育的影响,现有4窝不同品系未成年的大白鼠,每窝3只,随机分别注射不同剂量的雌激素,然后在相同条件下试验,并称得它们的子宫重量,见表6-21,试作方差分析。
表6-21 各品系大白鼠不同剂量雌激素的子宫重量(g)
品系(A)
雌激素注射剂量(mg/100g)(B)
合计xi.
平均
B1(0.2)
B2(0.4)
B3(0.8)
A1
106
116
145
367
122.3
A2
42
68
115
225
75.0
A3
70
111
133
314
104.7
A4
42
63
87
192
64.0
合计x.j
260
358
480
1098
平均
65.0
89.5
120.0
这是一个两因素单独观测值试验结果。A因素(品系)有4个水平,即=4;B因素(雌激素注射剂量)有3个水平,即b=3,共有×b=3×4=12个观测值。方差分析如下:
1、计算各项平方和与自由度根据公式(6-31)有:
2、列出方差分析表,进行F检验
表6-22 表6-21资料的方差分析表变异来源
平方和
自由度
均方
F值
A因素(品系)
6457.6667
3
2152.5556
23.77**
B因素(剂量)
6074.0000
2
3037.0000
33.54**
误差
543.3333
6
90.5556
总变异
13075.0000
11
根据df1=dfA=3,df2=dfe=6查临界F值,F0.01(3,6)=9.78;根据df1=dfB=2,df2=dfe=6查临界F值,F0.01(2,6)=10.92。
因为A因素的F值23.77>F0.01(3,6),P<0.01,差异极显著;B因素的F值33.54>F0.01(2,6),P<0.01,差异极显著。说明不同品系和不同雌激素剂量对大白鼠子宫的发育均有极显著影响,有必要进一步对A、B两因素不同水平的平均测定结果进行多重比较。
3、多重比较
(1)不同品系的子宫平均重量比较 各品系平均数多重比较表见表6-23。
表6-23 各品系子宫平均重量多重比较(q法)
品系
平均数
-64.0
-75.0
-104.7
A1
122.3
58.3**
47.3**
17.6
A3
104.7
40.7**
29.7**
A2
75.0
11.0
A4
64.0
在两因素单独观测值试验情况下,因为A因素(本例为品系)每一水平的重复数恰为B因素的水平数b,故A因素的标准误,此例b=3,MSe=90.5556,故
根据dfe=6,秩次距k=2,3,4从附表5中查出α=0.05和α=0.01的临界q值,与标准误
相乘,计算出最小显著极差LSR,结果见表6-24。
表6-24 q值及LSR值
dfe
秩次距k
q0.05
q0.01
LSR0.05
LSR0.01
6
2
3.46
5.24
19.01
28.79
3
4.34
6.33
23.84
34.78
4
4.90
7.03
26.92
38.62
将表6-23中各差数与表6-24中相应最小显著极差比较,作出推断。检验结果已标记在表6-23中。结果表明,A1、A 3品系与A2、A 4品系的子宫平均重量均有极显著的差异;但A1与A 3及A2与A4品系间差异不显著。
(2)不同激素剂量的子宫平均重量比较 B因素各剂量水平平均数比较表见表6-25。
表6-25 不同雌激素剂量的子宫平均重量多重比较(q法)
雌激素剂量
平均数
-65.0
-89.5
B3(0.8)
120.0
55.0**
30.5**
B2(0.4)
89.5
24.5*
B1(0.2)
65.0
在两因素单独观测值试验情况下,B因素(本例为雌激素剂量)每一水平的重复数恰为A因素的水平数a,故B因素的标准误,此例=4,MSe=90.5556。故
根据dfe=6,秩次距k=2,3查临界q值并与相乘,求得最小显著极差LSR,见表6-26。
表6-26 q值与LSR值
dfe
秩次距
q0.05
q0.01
LSR0.05
LSR0.01
6
2
3.46
5.24
16.46
24.93
3
4.34
6.33
20.65
30.12
将表6-25各差数与表6-26相应最小显著极差比较,作出推断,比较结果已标记在表6-25中。结果表明,注射雌激素剂量为0.8 mg的大白鼠子宫重量极显著大于注射剂量为0.4 mg和0.2mg的子宫重量,而后两种注射剂量的子宫重量间也有显著差异。
在进行两因素或多因素的试验时,除了研究每一因素对试验指标的影响外,往往更希望研究因素之间的交互作用。例如,通过对畜禽所处环境的温度、湿度、光照、噪音以及空气中各种有害气体等对畜禽生长发育的影响有无交互作用的研究,对最终确定有利于畜禽生产的最佳环境控制是有重要意义的。对畜禽的不同品种(品系)及其与饲料条件、各种环境因素互作的研究,有利于合理利用品种资源充分发挥不同畜禽的生产潜能。又如在饲料科学中,常常要研究各种营养成分间有无交互作用,从而找到最佳的饲料配方,这对于合理利用饲料原料提高饲养水平等都是非常有意义的。
前面介绍的两因素单独观测值试验只适用于两个因素间无交互作用的情况。若两因素间有交互作用,则每个水平组合中只设一个试验单位(观察单位)的试验设计是不正确的或不完善的。这是因为:
(1)在这种情况下,(6-31)式中SSe,dfe实际上是A、B两因素交互作用平方和与自由度,
所算得的MSe是交互作用均方,主要反映由交互作用引起的变异。
(2)这时若仍按【例6.5】所采用的方法进行方差分析,由于误差均方值大(包含交互作用在内),有可能掩盖试验因素的显著性,从而增大犯Ⅱ型错误的概率。
(3)因为每个水平组合只有一个观测值,所以无法估计真正的试验误差,因而不可能对因素的交互作用进行研究。
因此,进行两因素或多因素试验时,一般应设置重复,以便正确估计试验误差,深入研究因素间的交互作用。
(二)两因素有重复观测值试验的方差分析 对两因素和多因素有重复观测值试验结果的分析,能研究因素的简单效应、主效应和因素间的交互作用(互作)效应。现介绍这三种效应的意义如下:
1、简单效应(simple effect) 在某因素同一水平上,另一因素不同水平对试验指标的影响称为简单效应。如在表6-27中,在A1(不加赖氨酸)上,B2- B 1=480-470=10;在A2(加赖氨酸)上,B2- B1=512-472=40;在B1(不加蛋氨酸)上,A2-A1=472-470=2;在B2(加蛋氨酸)上,A2-A1=512-480=32等就是简单效应。简单效应实际上是特殊水平组合间的差数。
表6-27 日粮中加与不加赖、蛋氨酸雏鸡的增重(g)
A1
A2
A2-A1
平均
B1
470
472
2
471
B2
480
512
32
496
B2-B1
10
40
25
平均
475
492
17
2、主效应(main effect) 由于因素水平的改变而引起的平均数的改变量称为主效应。如在表6-27中,当A因素由A1水平变到A2水平时,A因素的主效应为A2水平的平均数减去A1水平的平均数,即
A因素的主效应=492-475=17
同理 B因素的主效应=496-471=25
主效应也就是简单效应的平均,如(32+2)÷2=17,(40+10)÷2=25。
3、交互作用 (互作,interaction) 在多因素试验中,一个因素的作用要受到另一个因素的影响,表现为某一因素在另一因素的不同水平上所产生的效应不同,这种现象称为该两因素存在交互作用。如在表6-27中,
A在B1水平上的效应=472-470=2
A在B2水平上的效应=512-480=32
B在A1水平上的效应=480-470=10
B在A2水平上的效应=512-472=40
显而易见,A的效应随着B因素水平的不同而不同,反之亦然。我们说A、B两因素间存在交互作用,记为A×B。或者说,某一因素的简单效应随着另一因素水平的变化而变化时,则称该两因素存在交互作用。互作效应可由(A1B1+A2B2-A1B2-A2B1)/2来估计。表6-27中的互作效应为
(470+512-480-472)/2=15
所谓互作效应实际指的就是由于两个或两个以上试验因素的相互作用而产生的效应。如在表6-27中,A2B1-A1B1=472-470=2,这是添加赖氨酸单独作用的效应;A1B2-A1B1=480-470=10,这是添加蛋氨酸单独作用的效应,两者单独作用的效应总和是2+10=12;但是,A2B2-A1B1=512-470=42,而不是12;这就是说,同时添加赖氨酸、蛋氨酸产生的效应不是单独添加一种氨基酸所产生效应的和,而另外多增加了30,这个30是两种氨基酸共同作用的结果。若将其平均分到每种氨基酸头上,则各为15,即估计的互作效应。
我们把具有正效应的互作称为正的交互作用;把具有负效应的互作称为负的交互作用;互作效应为零则称无交互作用。没有交互作用的因素是相互独立的因素,此时,不论在某一因素哪个水平上,另一因素的简单效应是相等的。
关于无互作和负互作的直观理解,读者可将表6-27中,A2B2位置上的数值改为482和任一小于482的数后具体计算一下即可。
下面介绍两因素有重复观测值试验结果的方差分析方法。
设A与B两因素分别具有与b个水平,共有b个水平组合,每个水平组合有n次重复,则全试验共有abn个观测值。这类试验结果方差分析的数据模式如表6-28所示。
表6-28 两因素有重复观测值试验数据模式
A因素
B 因 素
Ai合计xi..
Ai平均
B1
B2
……
Bb
A1
x1jl
x111
x121
……
x 1b1
x1..
x112
x122
……
x1b2
x11n
x12n
……
x1bn
x1j.
x11.
x12.
……
x1b.
……
A2
x2jl
x211
x221
……
x2b1
x2..
x212
x222
……
x2b2
x21n
x22n
……
x2bn
x2j.
x21.
x22.
……
x2b.
……
Aa
xajl
xa11
xa21
……
xab1
xa..
xa12
xa22
……
xab2
xa1n
xa2n
……
xabn
xaj.
xa1.
xa2.
……
xab.
……
Bj合计x.j.
x.1.
x.2.
……
x.b.
x…
Bj平均
……
表6-28中
两因素有重复观测值试验的数学模型为:
(6-32)
其中,为总平均数;αi为Ai的效应;βj为Bj的效应;(αβ) ij为Ai与Bj的互作效应,,、、分别为、、观测值总体平均数;且,为随机误差,相互独立,且都服从N(0,σ2)。
两因素有重复观测值试验结果方差分析平方和与自由度的剖分式为
(6-33)
其中,SSA×B,dfA×B为A因素与B因素交互作用平方和与自由度。
若用SSAB,dfAB表示A、B水平组合间的平方和与自由度,即处理间平方和与自由度,则因处理变异可剖分为A因素、B因素及A、B交互作用变异三部分,于是SSAB、dfAB可剖分为:
(6-34)
各项平方和、自由度及均方的计算公式如下:
矫正数
总平方和与自由度
水平组合平方和与自由度 (6-35)
A因素平方和与自由度
B因素平方和与自由度
交互作用平方和与自由度
误差平方和与自由度
相应均方为
【例6.6】为了研究饲料中钙磷含量对幼猪生长发育的影响,将钙(A)、磷(B)在饲料中的含量各分4个水平进行交叉分组试验。先用品种、性别、日龄相同,初始体重基本一致的幼猪48头,随机分成16组,每组3头,用能量、蛋白质含量相同的饲料在不同钙磷用量搭配下各喂一组猪,经两月试验,幼猪增重结果(kg)列于表6-29,试分析钙磷对幼猪生长发育的影响。
本例A因素钙的含量分4个水平,即=4;B因素磷的含量分4个水平,即b=4;共有=4×4=16个水平组合;每个组合重复数n=3;全试验共有=4×4×3=48个观测值。现对本例资料进行方差分析如下:
表6-29 不同钙磷用量(%)的试验猪增重结果(kg)
B1(0.8)
B2(0.6)
B3(0.4)
B4(0.2)
Ai合计xi..
Ai平均
A1(1.0)
x1j1
22.0
30.0
32.4
30.5
324.9
27.1
26.5
27.5
26.5
27.0
24.4
26.0
27.0
25.1
x1jl
72.9
83.5
85.9
82.6
24.3
27.8
28.6
27.5
A2(0.8)
x2jl
23.5
33.2
38.0
26.5
350.1
29.2
25.8
28.5
35.5
24.0
27.0
30.1
33.0
25.0
x2j.
76.3
91.8
106.5
75.5
25.4
30.6
35.5
25.2
A3(0.6)
x3jl
30.5
36.5
28.0
20.5
332.4
27.7
26.8
34.0
30.5
22.5
25.5
33.5
24.6
19.5
x3j.
82.8
104.0
83.1
62.5
27.6
34.7
27.7
20.8
A4(0.4)
x4jl
34.5
29.0
27.5
18.5
319.5
26.6
31.4
27.5
26.3
20.0
29.3
28.0
28.5
19.0
x4j.
95.2
84.5
82.3
57.5
31.7
28.2
27.4
19.2
Bj合计x.j.
327.2
363.8
357.8
278.1
1326.9
Bj平均
27.3
30.3
29.8
23.2
27.6
1、计算各项平方和与自由度
2、列出方差分析表,进行F检验
表6-30 不同钙磷用量方差分析表变异来源
平方和
自由度
均方
F值
钙(A)
44.5106
3
14.8367
3.22*
磷(B)
383.7356
3
127.9119
27.77**
互作(A×B)
406.6586
9
45.1843
9.81**
误差
147.4133
32
4.6067
总变异
982.3181
47
查临界F值:F0.05(3,32)=2.90,F0.01(3,32)=4.47,F0.01(9,32)=3.02。因为,FA>F0.05(3,32);FB>F0.01(3,32);FA×B>F0.01(9,32),表明钙、磷及其互作对幼猪的生长发育均有显著或极显著影响。因此,应进一步进行钙各水平平均数间、磷各水平平均数间、钙与磷水平组合平均数间的多重比较和进行简单效应的检验。
3、多重比较
(1)钙含量(A)各水平平均数间的比较 不同钙含量平均数多重比较表见表6-31。
表6-31 不同钙含量平均数比较表(q法)
钙含量(%)
平均数
-26.6
-27.1
-27.7
A2(0.8)
29.2
2.6*
2.1
1.5
A3(0.6)
27.7
1.1
0.6
A1(1.0)
27.1
0.5
A4(0.4)
26.6
因为A因素各水平的重复数为bn,故A因素各水平的标准误(记为)的计算公式为:
此例,
由dfe=32,秩次距k=2,3,4,从附表5中查出α=0.05与α=0.01的临界q值,乘以=0.6196,即得各LSR值,所得结果列于表6-32。
表6-32 q值与LSR值表
dfe
秩次距k
q0.05
q0.01
LSR0.05
LSR0.01
32
2
2.88
3.88
1.78
2.40
3
3.47
4.43
2.15
2.74
4
3.83
4.78
2.37
2.96
检验结果标记在表6-33中。
(2)磷含量(B)各水平平均数间的比较 不同磷含量平均数多重比较表见表6-33。
表6-33 不同磷含量平均数比较表(q法)
磷含量(%)
平均数
-23.2
-27.3
-29.8
B2(0.6)
30.3
7.1**
3.0**
0.5
B3(0.4)
29.8
6.6**
2.5**
B1(0.8)
27.3
4.1**
B4(0.2)
23.2
因B因素各水平的重复数为,故B因素各水平的标准误(记为)的计算公式为:
在本例,由于A、B两因素水平数相等,即=b=4,故。因而,A、B两因素各水平比较的LSR值是一样的,所以用表6-32的LSR值去检验B因素各水平平均数间差数的显著性,结果见表6-33。
以上所进行的两项多重比较,实际上是A、B两因素主效应的检验。结果表明,钙的含量以占饲料量的0.8%(A2)增重效果最好;磷的含量以占饲料量的0.6%(B2)增重效果最好。若A、B因素交互作用不显著,则可从主效应检验中分别选出A、B因素的最优水平相组合,得到最优水平组合;若A、B因素交互作用显著,则应进行水平组合平均数间的多重比较,以选出最优水平组合,同时可进行简单效应的检验。
(3)各水平组合平均数间的比较 因为水平组合数通常较大(本例=4×4=16),采用最小显著极差法进行各水平组合平均数的比较,计算较麻烦。为了简便起见,常采用T检验法。所谓T检验法,实际上就是以q检测法中秩次距k最大时的LSR值作为检验尺度检验各水平组合平均数间的差异显著性。
因为水平组合的重复数为n,故水平组合的标准误(记为)的计算公式为:
此例
由dfe=32,k=16从附表5中查出=0.05、=0.01的临界q值,乘以=1.2392,得各LSR值,即
以上述LSR值去检验各水平组合平均数间的差数,结果列于表6-34。
表6-34 各水平组合平均数比较表(T法)
水平组合
均数
-19.2
20.8
-24.3
-25.2
-25.4
-27.4
-27.5
-27.6
-27.7
-27.8
-28.2
-28.6
-30.6
-31.7
-34.7
A2B3
35.5
16.3**
14.7**
11.2**
10.3**
10.1**
8.1**
8.0**
7.9**
7.8**
7.7**
7.3*
6.9*
4.9
3.8
0.8
A3B2
34.7
15.5**
13.9**
10.4**
9.5**
9.3**
7.3*
7.2*
7.1*
7.0*
6.9*
6.5
6.1
4.1
3.0
A4B1
31.7
12.5**
10.9**
7.4*
6.5
6.3
4.3
4.2
4.1
4.0
3.9
3.5
3.1
1.1
A2B2
30.6
11.4**
9.8**
6.3
5.4
5.2
3.2
3.1
3.0
2.9
2.8
2.4
2.0
A1B3
28.6
9.4**
7.8**
4.3
3.4
3.2
1.2
1.1
1.0
0.9
0.8
0.4
A4B2
28.2
9.2**
7.4*
3.9
3.0
2.8
0.8
0.7
0.6
0.5
0.4
A1B2
27.8
8.6**
7.0*
3.5
2.6
2.4
0.4
0.3
0.2
0.1
A3B3
27.7
8.5**
6.9*
3.4
2.5
2.3
0.3
0.2
0.1
A3B1
27.6
8.4*
6.8*
3.3
2.4
2.2
0.2
0.1
A1B4
27.5
8.3*
6.7*
3.2
2.3
2.1
0.1
A4B3
27.4
8.2*
6.6*
3.1
2.2
2.0
A2B1
25.4
6.2
4.6
1.1
0.2
A2B4
25.2
6.0
4.4
0.9
A1B1
24.3
5.1
3.5
A3B4
20.8
1.6
A4B4
19.2
各水平组合平均数的多重比较结果表明,由于钙磷交互作用的存在,最优组合(即增重好的组合) 并不是A2B2,而是A2B3,即钙含量0.8%和磷含量0.4%的组合增重效果最好。
以上的比较结果告诉我们:当A、B因素的交互作用显著时,一般不必进行两个因素主效应的显著性检验(因为这时主效应的显著性在实用意义上并不重要),而直接进行各水平组合平均数的多重比较,选出最优水平组合。
(4)简单效应的检验 简单效应实际上是特定水平组合平均数间的差数。检验尺度仍为(3)中的LSR0.05=6.51,LSR0.01=7.65。
①A因素各水平上B因素各水平平均数间的比较
A1水平(1.0)
B因素
平均数
-24.3
-27.5
-27.8
B3(0.4)
28.6
4.3
1.1
0.8
B2(0.6)
27.8
3.5
0.3
B4(0.2)
27.5
3.2
B1(0.8)
24.3
A2水平(0.8)
B因素
平均数
-25.2
-25.4
-30.6
B3(0.4)
35.5
10.3**
10.1**
4.9
B2(0.6)
30.6
5.4
5.2
B1(0.8)
25.4
0.2
B4(0.2)
25.2
A3水平(0.6)
B因素
平均数
-20.8
-25.4
-27.7
B2(0.6)
34.7
13.9**
7.1*
7.0*
B3(0.4)
27.7
6.9*
0.1
B1(0.8)
27.6
6.8*
B4(0.2)
20.8
A4水平(0.4)
B因素
平均数
-19.2
-27.4
-28.2
B1(0.8)
31.7
12.5**
4.3
3.5
B2(0.6)
28.2
9.0**
0.8
B3(0.4)
27.4
8.2*
B4(0.2)
19.2
②B因素各水平上A因素各水平平均数间的比较
B1水平(0.8)
A因素
平均数
-24.3
-25.4
-27.6
A4(0.4)
31.7
7.4*
6.3
4.1
A3(0.6)
27.6
3.3
2.2
A2(0.8)
25.4
1.1
A1(1.0)
24.3
B2水平(0.6)
A因素
平均数
-27.8
-28.2
-30.6
A3(0.6)
34.7
6.9*
6.5
4.1
A2(0.8)
30.6
2.8
2.4
A4(0.4)
28.2
0.4
A1(1.0)
27.8
B3水平(0.4)
A因素
平均数
-27.4
-27.7
-28.6
A2(0.8)
35.5
8.1**
7.8**
6.9*
A1(1.0)
28.6
1.2
0.9
A3(0.6)
27.7
0.3
A4(0.4)
27.4
B4水平(0.2)
A因素
平均数
-19.2
-20.8
-25.2
A1(1.0)
27.5
8.3**
6.7*
2.3
A2(0.8)
25.2
6.0
4.4
A3(0.6)
20.8
1.6
A4(0.4)
19.2
简单效应检验结果表明:当饲料中钙含量达1.0%时,磷含量各水平平均数间差异不显著;当饲料中钙含量为0.8%时,磷含量以0.4%为宜(但与磷含量为0.6%的差异不显著);当钙为0.6%时,磷以0.6%为好,且有小猪的生长发育对磷含量的变化反应比较敏感的迹象;当钙含量为0.4%时,磷以0.8%为好(但与磷含量为0.6%、0.4%的差异不显著);就试验中所选择的钙磷含量水平来看,有一种随着饲料中钙含量的减少,要求磷含量增加的趋势。当磷含量0.8%时,钙以0.4%为好,但除显著高于钙为1.0%的水平外,与钙为0.6%、0.8%的差异不显著;当磷的水平为0.6%时,钙的水平也以0.6%为好,但除显著高于钙为1.0%的水平外,与钙为0.4%、0.8%的差异不显著;磷含量0.4%时,钙含量以0.8%为好;磷含量为0.2%时,钙水平达到1.0%效果较好,但与钙为0.8%的差异不显著。同样也呈现一种随着磷含量降低,钙水平应提高的趋势。
综观全试验,以A2B3(钙0.8%,磷0.4%)效果最好,钙磷含量均高或均低效果都差。
二、系统分组资料的方差分析
在生物科学的研究中,实际问题是多种多样的,有些涉及多因素问题的研究或试验用交叉分组是困难的。例如,要比较a头公畜的种用价值,就必须考虑到与配的母畜。这是因为公畜的种用价值是通过后代的表现来评定的,而后代的表现除受公畜的影响外还要受到母畜的影响。但是在同期,公畜和母畜这两个因素的不同水平(不同公畜和不同母畜)是不能交叉的,即同一头母畜不能同时与不同的公畜交配产生后代。合理的方法是,选择一些生产性能大体一致的同胎次母畜随机分配与a头公畜交配,即公畜A1与一组母畜交配,公畜A2与另一组母畜交配……。然后通过后代的性能表现来判断这些公畜的种用价值有无显著差异。又如,为了比较利用同一设备生产同一种饲料的不同班组产品质量有无差异,我们可从每班组所生产的饲料中随机抽取若干样品,每个样品作若干次测定,根据测定结果判断不同班组的产品质量有无差异。
在安排多因素试验方案时,将A因素分为a个水平,在A因素每个水平Ai下又将B因素分成b个水平,再在B因素每个水平Bij下将C因素分c个水平……,这样得到各因素水平组合的方式称为系统分组(hierarchical classification)或称多层分组、套设计、窝设计。
在系统分组中,首先划分水平的因素(上述的不同公畜、不同班组)叫一级因素(或一级样本),其次划分水平的因素(如上述的母畜、抽取的样品)叫二级因素(二级样本,次级样本),类此有三级因素……。在系统分组中,次级因素的各水平会套在一级因素的每个水平下,它们之间是从属关系而不是平等关系,分析侧重于一级因素。
由系统分组方式安排的多因素试验而得到的资料称为系统分组资料。根据次级样本含量是否相等,系统分组资料分为次级样本含量相等与不等两种。最简单的系统分组资料是二因素系统分组资料。
如果A因素有个水平;A因素每个水平Ai下,B因素分b个水平;B因素每个水平Bij下有n个观测值,则共有个观测值,其数据模式如表6-35所示。
表6-35 二因素系统分组资料数据模式
一级因素
A
二级因素
B
观测值C
二级因素
一级因素
xijl
总和xij.
平均
总和xi..
平均
A1
B11
x111
x112
…
x11n
x11.
x1..
B12
x121
x122
…
x12n
x12.
…
B1b
x1b1
x1b2
…
x1bn
x1b.
A2
B21
x211
x212
…
x21n
x21.
x2..
B22
x221
x222
…
x22n
x22.
…
B2b
x2b1
x2b2
…
x2bn
x2b.
…
Aa
Ba1
xa11
aa12
…
xa1n
xa1.
Ba2
xa21
xa22
…
xa2n
xa2.
xa..
…
Bab
xab1
xab2
…
xabn
xab.
合计
x…
表6-35中,
数学模型为
(6-36)
式中μ为总体平均数,为Ai的效应,为Ai内Bij的效应,、分别为Ai、Bij观测值总体平均数。为随机误差,相互独立,且都服从N(0,σ2)。
系统分组资料的数学模型与交叉分组的不同,其中不包含交互作用项;并且因素B的效应是随着A的水平的变化而变化的,这就是说次级因素的同一水平在一级因素不同水平中有不同的效应。因此,须把一级因素不同水平中的次级因素同一水平看作是不同水平。至于,是否一定为零,应视,是固定还是随机而定。
表6-35数据的总变异可分解为A因素各水平(Ai)间的变异(一级样本间的变异),A因素各水平(Ai)内B因素各水平(Bij)间的变异(一级样本内二级样本间的变异)和试验误差(B因素各水平内观测值间的变异)。对两因素系统分组资料进行方差分析,平方和与自由度的剖分式为:
SST=SSA+SSB(A)+SSe (6-37)
dfT=dfA+dfB(A)+dfe
各项平方和与自由度计算公式如下:
(6-38)
各项均方如下:
一级因素的均方
一级因素内二级因素的均方
误差(二级因素内三级因素)均方
F检验时F值的计算:
当检验一级因素时,用作分母,即,
当检验一级因素内二级因素时,用作分母,即,
实际上,计算F值时分母项的选择是由有关因素的效应是固定还是随机所决定的(即是由数学模型决定的),有关这方面的内容将在第四节介绍。
(一)次级样本含量相等的系统分组资料的方差分析
【例6.7】为测定3种不同来源的鱼粉的蛋白质消化率,在不含蛋白质的饲料里按一定比例分别加入不同的鱼粉A1,A2,A3,配制成饲料,各喂给3头试验动物(B)。收集排泄物、风干、粉碎、混和均匀。分别从每头动物的排泄物中各取两份样品作化学分析。测定结果(xijl)列于表6-36,试分析不同来源鱼粉的蛋白质消化率是否有显著差异。
表6-36 蛋白质的消化率鱼粉A
个体B
测定结果C()
A1
B11
82.5
82.4
164.9
82.5
506.4
84.4
B12
87.1
86.5
173.6
86.8
B13
84.0
83.9
167.9
84.0
A2
B21
86.6
85.8
172.4
86.2
518.9
86.5
B22
86.2
85.7
171.9
86.0
B23
87.0
87.6
174.6
87.3
A3
B31
82.0
81.5
163.5
81.8
483.8
80.6
B32
80.0
80.5
160.5
80.3
B33
79.5
80.3
159.8
79.9
Σ
x…=1509.1
这是一个二因素系统分组资料,A因素的水平数=3,Ai内B因素的水平数=3,Bij内重复测定次数=2,共有=3×3×2=18个观测值,方差分析如下。
1、计算各项平方和与自由度矫正数
总平方和及其自由度
鱼粉间平方和及其自由度
鱼粉内个体间的平方和及其自由度
误差(个体内分析样品间)平方和及其自由度
2、列出方差分析表,进行F检验
表6-37 不同来源鱼粉蛋白质消化率方差分析表变异来源
平方和
自由度
均方
F值
鱼粉间A
105.5011
2
52.7506
12.43**
鱼粉内个体间B(A)
25.4567
6
4.2428
27.57**
误差C(B)
1.3850
9
0.1539
总变异
132.3428
17
查临界F值:F0.01(2,6)=10.92,F0.01(6,9)=5.80,因为鱼粉间的F>F0.01(2,6),鱼粉内个体间的F>F0.01(6,9),表明不同来源的鱼粉蛋白质消化率差异极显著,即3种鱼粉的质量差异极显著;喂同一鱼粉的不同个体对鱼粉的消化利用能力差异也极显著。
3.三种鱼粉平均消化率的多重比较(SSR法) 因为对一级因素(鱼粉)进行F检验时是以鱼粉内个体间均方作为分母,鱼粉的重复数为bn,所以鱼粉的标准误为:
以dfB(A)=6,查附表6得k=2,3时SSR0.05和SSR0.01的值与相乘求出相应的LSR0.05和LSR0.01的值,得:
k=2,LSR0.05=2.91 LSR0.01=4.41
k=3,LSR0.05=3.01 LSR0.01=4.63
多重比较结果见表6-38。
表6-38 三种鱼粉蛋白质平均消化率比较表(SSR法)
饲料
平均
-80.6
-84.4
A2
86.5
5.9**
2.1
A1
84.4
3.8*
A3
80.6
多重比较结果表明:鱼粉A2的消化率极显著高于鱼粉A3;鱼粉A1的消化率显著高于鱼粉A3;鱼粉A1,A2的消化率差异不显著。
对于鱼粉内个体间的差异问题,由于不是我们研究的重点,故可以不进行多重比较。若要比较时,标准误应由计算,SSR值或q值应以自由度dfe=9去查。
(二)次级样本含量不等的系统分组资料的方差分析
【例6.8】某品种3头公猪和8头母猪所生仔猪的35日龄断奶重资料如表6-39所示,试就这些数据分析不同公猪和不同母猪对仔猪断奶重的影响是否有显著差异。
表6-39 3头公猪和8头母猪所产仔猪断奶重公猪
A
与配母猪B
仔猪数
仔 猪 断 奶 重 (kg)C xijl
A1
B11
9
10.5 8.3 8.8 9.8 10.0 9.5 8.8 9.3 7.3
82.3
9.14
B12
7
7.0
7.8
8.3
9.0
8.0
7.5
9.3
56.9
8.13
小计
b1=2
dn1=16
139.2
8.7
A2
B21
8
12.0
11.3
12.0
10.0
11.0
11.5
11.0
11.3
90.1
11.26
B22
7
9.5
9.8
10.0
11.8
9.5
10.5
8.3
69.4
9.91
B23
9
8.0 8.0 7.8 10.3 7.0 8.8 7.3 7.8 9.5
74.5
8.30
小计
b2=3
dn2=24
234.0
9.75
A3
B31
8
7.5
6.5
6.8
6.3
8.3
6.8
8.0
8.8
59.0
7.40
B32
7
9.5
10.5
10.8
9.5
7.8
10.5
10.8
69.4
9.91
B33
8
11.3
10.5
10.8
9.5
7.3
10.0
11.8
11.0
82.2
10.3
小计
b3=3
dn3=23
210.6
9.16
Σbi=8
N=63
ΣΣΣx2=5559.34
x…=583.8
=9.27
表中,为公猪数;bi为第i头公猪与配母猪数;为第i头公猪与配第j头母猪所产的仔猪数;为第i头公猪仔猪数;为母猪总数;为仔猪总数。
方差分析如下:
1、计算各项平方和与自由度这里应当注意与次级样本含量相等的系统分组资料方差分析时计算公式上的差异。
矫正数
总平方和及其自由度
公猪间的平方和及其自由度
公猪内母猪间的平方和及其自由度
母猪内仔猪间(误差)平方和及其自由度
或
或
2、列出方差分析表,进行F检验
表6-40 3头公猪和8头母猪所生仔猪断奶重的方差分析变异来源
平方和
自由度
均方
F值
公猪间(A)
11.0235
2
5.5118
0.34
公猪内母猪间B(A)
81.4785
5
16.2957
15.74**
母猪内仔猪间C(B)
56.9580
55
1.0356
总变异
149.4600
62
因为公猪间的FA=0.34<1,即P>0.05,所以公猪对仔猪的断奶重影响差异不显著,可以认为它们的种用价值是一致的;因为公猪内母猪间的FB(A)=15.74>F0.01(5,55)=3.37,即P<0.01,所以母猪对仔猪的断奶重影响差异极显著,即同一公猪内不同母猪的仔猪断奶重有极显著的差异。
3、多重比较 如果需对一级因素(公猪)各水平以及一级因素内二级因素(母猪)各水平均数进行多重比较(SSR法或q法),当对公猪平均数进行多重比较时,标准误为:
式中的dn0为每头公猪的平均仔猪数,用公式(6-41)(见第四节)计算;当对母猪平均数进行多重比较时,标准误为:
式中n0为每头母猪的平均仔猪数,用公式(6-39)(见第四节)计算。实际上对于此类资料,同一公猪内母猪平均数的多重比较一般可不进行。
*第四节 方差分析的数学模型与期望均方
一、数学模型方差分析的数学模型就是指试验资料的数据结构或者说是每一观测值的线性组成,它是方差分析的基础。本章所涉及的几种方差分析法,其数学模型已相继介绍。
数学模型中的处理效应αi(或βj、βij),由于处理性质的不同,有固定效应(fixed effect)和随机效应(random effect)之分。若按处理效应的类别来划分方差分析的模型,则有三种,即固定模型、随机模型和混合模型。就试验资料的具体统计分析过程而言,这三种模型的差别并不太大,但从解释和理论基础而言,它们之间是有很重要的区别的。不论设计试验、解释试验结果,还是最后进行统计推断,都必须了解这三种模型的意义和区别。
1、固定模型(fixed model) 在单因素试验的方差分析中,把k个处理看作k个明晰的总体。如果研究的对象只限于这k个总体的结果,而不需推广到其它总体;研究目的在于推断这k个总体平均数是否相同,即在于检验k个总体平均数相等的假设H0:μ1=μ2=…=μk;H0被否定,下步工作在于作多重比较;重复试验时的处理仍为原k个处理。这样,则k个处理的效应(如αi=μi-μ)固定于所试验的处理的范围内,处理效应是固定的。这种模型称为固定模型。一般的饲养试验及品种比较试验等均属固定模型。
在多因素多试验中,若各试验因素水平的效应均属固定,则对应于固定模型。
2、随机模型(random model) 在单因素试验中,k个处理并非特别指定,而是从更大的处理总体中随机抽取的k个处理而已,即研究的对象不局限于这k个处理所对应的总体的结果,而是着眼于这k个处理所在的更大的总体;研究的目的不在于推断当前k个处理所属总体平均数是否相同,而是从这k个处理所得结论推断所在大总体的变异情况,检验的假设一般为处理效应方差等于零,即H0: =0;如果H0被否定,进一步的工作是估计;重复试验时,可在大处理总体中随机抽取新的处理。这样,处理效应并不固定,而是随机的,这种模型称为随机模型。随机模型在遗传、育种和生态试验研究方面有广泛的应用。如,为研究中国猪种的繁殖性能的变异情况,从大量地方品种中随机抽取部分品种为代表进行试验、观察,其结果推断中国猪种的繁殖性能的变异情况,这就属于随机模型。
在多因素试验中,若各因素水平的效应均属随机,则对应于随机模型。
3、混合模型(mixed model) 在多因素试验中,若既包括固定效应的试验因素,又包括随机效应的试验因素,则该试验对应于混合模型。混合模型在试验研究中是经常采用的。如在某地区的4个不同杂交组合的猪及其亲本,分布于5个猪场进行育肥试验。这里猪种效应是固定的,而试验场所(猪场)效应是随机的。又如【例6-8】,若目的在于比较该3头公猪的种用价值,与配母猪是随机抽取的,则公猪效应是固定的,而母猪效应是随机的。再如随机采用三个蛋鸡品系研究三种饲料的效应试验,这里蛋鸡品系效应是随机的,而饲料效应是固定的。
二、期望均方在第一节我们提到了期望均方的概念。由于模型不同,方差分析中各项期望均方的计算也有所不同,因而F检验时分母项均方的选择也有所不同。现将不同方差分析中各种模型下各项期望均方及F值计算分别列于下面各表,以便正确地进行F检验和估计方差组分。
为了区分效应的两种模型(随机及固定),用表示随机模型下处理效应方差,用表示固定模型下处理效应方差。如对于A因素,随机模型时用表示处理效应方差;固定模型时用表示处理效应方差,此时。
1、单因素试验资料方差分析的期望均方
(1)各处理重复数相等时
表6-41 单因素试验重复数相等期望均方与F检验变异来源
自由度
固定模型
随机模型
期望均方
F
期望均方
F
处理间
+
+
处理内
总变异
(2)各处理重复数不等时
表6-42 单因素试验重复数不等期望均方与F检验变异来源
自由度
固定模型
随机模型
期望均方
F
期望均方
F
处理间
+
处理内
总变异
在表6-42中,固定模型时,处理间均方MSt的期望值为,是在的条件下获得的;若条件为Σαi=0时,则MSt之期望值为。随机模型时,的系数由下式计算:
单因素试验资料的方差分析,不论是固定还是随机模型,F值的计算方法是一致的。
2、交叉分组试验资料方差分析的期望均方二因素交叉分组单独观测值时
表6-43 两因素交叉分组单独观测值的期望均方与F检验变异来源
自由度
固定模型
随机模型
A固定、B随机
期望均方
F
期望均方
F
期望均方
F
A因素
+
+
+
B因素
+
+
+
误差
总变异
由表6-43中可以看出,对两因素交叉分组单独观测值试验资料的方差分析,不论是固定、随机还是混合模型,F检验分母项都是误差均方MSe,此时无法求得。
(2)两因素交叉分组有重复观测值时
表6-44 两因素交叉分组有重复观测值的期望均方与F检验变异来源
自由度
固定模型
随机模型
A随机、B固定
期望均方
F
期望均方
F
期望均方
F
A因素
+
+ +
+
B因素
+
+ +
+ +
A×B
+
+
+
误差
总变异
由表6-44可知,两因素交叉分组有重复观测值试验资料的方差分析,对主效应和互作进行F检验随模型不同而异。对于固定模型,均用MSe作分母;对于随机模型,检验H0: =0时,用MSe作分母,而检验H0,=0和=0时都用MSA×B作分母;对于混合模型(A随机、B固定),检验H0,=0和=0都用MSe作分母,而检验H0:K2B=0时,则以MSA×B作分母。(A固定、B随机时,与此类似)。
3、系统分组资料方差分析的期望均方
表6-45 二因素系统分组次级样本含量相等的期望均方与F检验变异来源
自由度
期望均方
固定模型
随机模型
A固定、B随机
一级因素(A)
一级因素内二级因素B(A)
误差C(B)
总变异
F检验 一级因素
一级因素内二级因素
A固定、B随机时的F检验与随机模型同;A随机、B固定时的F检验与固定模型同。
在随机模型下,当次级样本含量不等时,各项均方的期望值与F检验如下。
表6-46 二因素系统分组次级样本含量不等的期望均方与F检验变异来源
自由度
平方和
均方
期望均方(随机模型)
F
一级因素A
一级因素内二级因素B(A)
误差C(B)
总变异
表6-45、6-46中,σ2是二级因素内观测值间的方差,即误差方差;是一级因素水平内二级因素水平效应方差;是一级因素水平效应方差;和都是每个二级因素水平下的平均重复数(即平均观测值个数),其中是一级因素水平内每个二级因素水平下平均重复数;是一级因素水平间每个二级因素水平的平均重复数;dn0是每个一级因素水平的平均重复数。及的计算公式如下:
(6-39)
(6-40)
(6-41)
式中:—全部观测值个数;
——一级因素Ai水平内二级因素Bij水平的重复数;
—一级因素Ai水平的重复数;
—一级因素内二级因素的自由度;
—一级因素的自由度。
三、方差组分的估计上面我们分别介绍了单因素试验,交叉分组、系统分组多因素试验资料的方差分析中各种均方在不同模型下的期望值。了解期望均方的组成,不仅有助于正确进行F检验,而且也有助于参数估计。最常见的就是估计方差组分,又称方差分量分析。方差组分,亦即方差分量(variance components),是指方差的组成成分。根据资料模型和期望均方的组成,就可估计出所需要的方差组分。
方差组分的估计主要是指对随机模型的方差组分估计。因为在这种模型下,我们研究的目的就在于从总体上了解各因素对试验指标所产生的效应方差。
在研究数量性状的遗传变异时,对一些遗传参数的估计,如重复率、遗传力和性状间的遗传相关的估计都是在随机模型方差组分估计的基础上进行的。
下面结合实例说明方差组分的估计。
如果将【例6.8】中3头公猪、与配母猪及它们所生仔猪的断奶重资料,看作是从该品种总体中随机抽取的样本,则公猪及其与配母猪对所产仔猪断奶重影响的效应是随机的,因而该资料属随机模型。方差组分估计如下:
因次级样体含量不等,由表6-46可知:
公猪间均方
公猪内母猪间均方
母猪内仔猪间均方
因而
在方差分量分析中,当次级样本含量不相等时,需依公式(6-39)、(6-40)、(6-41)求三个相应的加权平均数。本例各公、母猪的仔猪数不等,故先算三个加权平均数如下:
因为
代入公式(6-39)、(6-40)、(6-41)得
将及【例6-8】算出的有关均方值代入上面各方差组分计算式得:
这里应当注意,公猪效应方差的估计值为-0.5358,这是不合理的。这主要是由于母猪间方差组分()过大所致(一般MSB(A)>MSA时,就是负值)。在这种情况下,可将原资料中二级因素(母猪)去掉,仅就公猪因素作随机模型下的各处理重复数不等的单因素方差分析,进而重新估计公猪间方差组分。过程如下:
不变,仍为5.5118
=149.4600-11.0235=138.4365
=138.4365/(63-3)=2.3073
由表6-42可知:
故 = =
再先由下式计算,〔注意,这里的不同于由公式(6-39)求得的〕。
这实际就是由公式(6-41)求得的。于是:
第五节 数据转换前面介绍的几种试验资料的方差分析法,尽管其数学模型的具体表达式有所不同,但以下三点却是共同的。
1、效应的可加性 我们据以进行方差分析的模型均为线性可加模型。这个模型明确提出了处理效应与误差效应应该是“可加的”,正是由于这一“可加性”,才有了样本平方和的“可加性”,亦即有了试验观测值总平方和的“可剖分”性。如果试验资料不具备这一性质,那么变量的总变异依据变异原因的剖分将失去根据,方差分析不能正确进行。
2、分布的正态性 是指所有试验误差是相互独立的,且都服从正态分布N(0,σ2)。只有在这样的条件下才能进行F检验。
3、方差的同质性 即各个处理观测值总体方差σ2应是相等的。只有这样,才有理由以各个处理均方的合并均方作为检验各处理差异显著性的共同的误差均方。
上述三点是进行方差分析的基本前提或基本假定。如果在分差分析前发现有某些异常的观测值、处理或单位组,只要不属于研究对象本身的原因,在不影响分析正确性的条件下应加以删除。但是,有些资料就其性质来说就不符合方差分析的基本假定。其中最常见的一种情况是处理平均数和均方有一定关系(如二项分布资料,平均数,均方;泊松分布资料的平均数与方差相等)。对这类资料不能直接进行方差分析,而因考虑采用非参数方法分析或进行适当数据转换(transformation of data)后再作方差分析。这里我们介绍几种常用的数据转换方法。
1、平方根转换 (square root transformation) 此法适用于各组均方与其平均数之间有某种比例关系的资料,尤其适用于总体呈泊松分布的资料。转换的方法是求出原数据的平方根。若原观测值中有为0的数或多数观测值小于10,则把原数据变换成对于稳定均方,使方差符合同质性的作用更加明显。变换也有利于满足效应加性和正态性的要求。
2、对数转换 (logarithmic transformation) 如果各组数据的标准差或全距与其平均数大体成比例,或者效应为相乘性或非相加性,则将原数据变换为对数(lgx或lnx)后,可以使方差变成比较一致而且使效应由相乘性变成相加性。
如果原数据包括有0,可以采用lg(x+1)变换的方法。
一般而言,对数转换对于削弱大变数的作用要比平方根转换更强。例如变数1、10、100作平方根转换是1、3.16、10,作对数转换则是0、1、2。
3、反正弦转换 (arcsine transformation) 反正弦转换也称角度转换。此法适用于如发病率、感染率、病死率、受胎率等服从二项分布的资料。转换的方法是求出每个原数据(用百分数或小数表示)的反正弦,转换后的数值是以度为单位的角度。二项分布的特点是其方差与平均数有着函数关系。这种关系表现在,当平均数接近极端值(即接近于0和100%)时,方差趋向于较小;而平均数处于中间数值附近(50%左右)时,方差趋向于较大。把数据变成角度以后,接近于0和100%的数值变异程度变大,因此使方差较为增大,这样有利于满足方差同质性的要求。一般,若资料中的百分数介于30%—70%之间时,因资料的分布接近于正态分布,数据变换与否对分析的影响不大。
应当注意的是,在对转换后的数据进行方差分析时,若经检验差异显著,则进行平均数的多重比较应用转换后的数据进行计算。但在解释分析最终结果时,应还原为原来的数值。
【例6.9】表6-47为甲、乙、丙三个地区乳牛隐性乳房炎阳性率资料,试对资料进行方差分析。
表6-47 三地区乳牛隐性乳房炎阳性率(%)
甲
94.3
64.1
47.7
43.6
50.4
80.5
57.8
乙
26.7
9.4
42.1
30.6
40.9
18.6
40.9
丙
18.0
35.0
20.7
31.6
26.8
11.4
19.7
这是一个服从二项分布的阳性率资料,且有低于30%和高于70%的,应先对阳性率资料作反正弦转换,转换结果见表6-48。
表6-48 表6-47资料的反正弦转换值地区
还原(%)
甲
76.19
53.19
43.68
41.32
372.89
53.27
64.2
45.23
63.79
49.49
乙
31.11
17.85
40.45
33.58
228.06
32.58
29.0
39.76
25.55
39.76
丙
25.10
36.27
27.06
34.20
199.89
28.56
22.8
31.18
19.73
26.35
合计
800.84
表6-48资料的方差分析,见表6-49。
表6-49 表6-48资料的方差分析变异来源
平方和
自由度
均方
F值
地区间
2461.8228
2
1230.9114
14.03**
误差
1579.4927
18
87.7500
总变异
4041.3155
20
F检验结果表明,各地区间乳牛隐性乳房炎阳性率差异极显著。下面进行多重比较。
表6-50 表6-48资料平均数多重比较表(SSR法)
地区
平均数
-28.56
-32.58
甲
53.27
24.71**
20.69**
乙
32.58
4.02
丙
28.56
因,SSR值LSR值见表6-51。
表6-51 SSR值与LSR值
dfe
秩次距k
SSR0.05
SSR0.01
LSR0.05
LSR0.01
18
2
2.97
4.07
10.51
14.41
3
3.12
4.27
11.04
15.12
对结论作解释时,应将各组平均数还原为阳性率。如表6-50中平均数53.27根据P=sin2x,还原为64.2%;均数32.58还原为29.0%;均数28.56还原为22.8%。但从变换过的数据所算出的方差或标准差不宜再换回原来的数据。
检验结果表明,甲地区乳牛隐性乳房炎阳性率极显著高于丙地区和乙地区,乙地区与丙地区阳性率差异不显著。
以上介绍了三种数据转换常用方法。对于一般非连续性的数据,最好在方差分析前先检查各处理平均数与相应处理内均方是否存在相关性和各处理均方间的变异是否较大。如果存在相关性,或者变异较大,则应考虑对数据作出变换。有时要确定适当的转换方法并不容易,可事先在试验中选取几个其平均数为大、中、小的处理试验作转换。哪种方法能使处理平均数与其均方的相关性最小,哪种方法就是最合适的转换方法。另外,还有一些别的转换方法可以考虑。例如当各处理标准差与其平均数的平方成比例时,可进行倒数转换(reciprocal transformation);对于一些分布明显偏态的二项分布资料,有人进行的转换,可使x呈良好的正态分布。
习 题
1.多个处理平均数间的相互比较为什么不宜用t检验法?
2.什么是方差分析?方差分析在科学研究中有何意义?
3.举例说明试验指标、试验因素、因素水平、试验处理、试验单位、重复等常用名词的含义?
4.单因素和两因素试验资料方差分析的数学模型有何区别?方差分析的基本假定是什么?
5.进行方差分析的基本步骤为何?
6.什么叫多重比较?多个平均数相互比较时,LSD法与一般t检验法相比有何优点?还存在什么问题?如何决定选用哪种多重比较法?
7.单一自由度正交比较中,各比较项的系数是按什么规则构成的?
8.只有两个处理的单因素试验资料既能用t检验,也可用F检验(方差分析)。试在一般数据模式的基础上证明。
9.什么是主效应、简单效应与交互作用?为什么说两因素交叉分组单独观测值的试验设计是不完善的试验设计?在多因素试验时,如何选取最优水平组合?
10.两因素系统分组资料的方差分析与交叉分组资料的方差分析有何区别?
11.什么是固定效应、随机效应?固定模型、随机模型、混合模型?什么是方差组分?估计方差组分有何意义?
12.为什么要作数据转换?常用的数据转换方法有哪几种?各在什么条件下应用?
13.在同样饲养管理条件下,三个品种猪的增重如下表,试对三个品种增重差异是否显著进行检验。
品种
增 重xij(kg)
A1
16
12
18
18
13
11
15
10
17
18
A2
10
13
11
9
16
14
8
15
13
8
A3
11
8
13
6
7
15
9
12
10
11
(MSe=8.57,F=6.42)
14.为了研究种公牛人工授精成功怀胎率,随机选定6头种公牛,每头采集一系列精样人工授精(由同一技术人员操作),下表是每头种公牛连续的各个精样人工授精的成功怀胎率(百分数)。
公牛
怀 胎 率 (%)
ni
1
46
31
37
62
30
5
2
70
59
2
3
52
44
57
40
67
64
70
7
4
47
21
70
46
14
5
5
42
64
50
69
77
81
87
7
6
35
68
59
38
57
76
57
29
60
9
合计
35
(1)作方差分析(因其中有数据低于30%或大于70%,须进行数据转换。(F=2.7406*)
(2)你认为这个资料应作为固定模型还是随机模型来处理比较合适?如果作为随机模型,对于F值达到显著水平应作何理解?
(3)计算
(4)求各方差组分(方差分量)的估计值。 (=MSe=90.881,=27.899)
(5)作为练习,试对6个平均数作多重比较(q法或SSR法)
15.用三种酸类处理某牧草种子,观察其对牧草幼苗生长的影响(指标:幼苗干重,单位:mg)。试验资料如下:
处理
幼苗干重(mg)
对照
4.23
4.38
4.10
3.99
4.25
HCl
3.85
3.78
3.91
3.94
3.86
丙酸
3.75
3.65
3.82
3.69
3.73
丁酸
3.66
3.67
3.62
3.54
3.71
(1)进行方差分析(不用LSD法、LSR进行多重比较,F=33.86**)
(2)对下列问题通过单一自由度正交比较给以回答:
①酸液处理是否能降低牧草幼苗生长?
②有机酸的作用是否不同于无机酸?
③两种有机酸的作用是否有差异?
(F1=86.22**,F2=13.13**,F3=2.26)
16.为了比较4种饲料(A)和猪的3个品种(B),从每个品种随机抽取4头猪(共12头)分别喂以4种不同饲料。随机配置,分栏饲养、位置随机排列。从60日龄起到90日龄的时期内分别测出每头猪的日增重(g),数据如下,试检验饲料及品种间的差异显著性。(FA=11.13,FB=13.21,MSe=202.0833)。
4种饲料3个品种猪60~90日龄日增重
A1
A2
A3
A4
B1
505
545
590
530
B2
490
515
535
505
B3
445
515
510
495
17.研究酵解作用对血糖浓度的影响,从8名健康人体中抽取血液并制备成血滤液。每个受试者的血滤液又可分成4份,然后随机地将4份血滤液分别放置0、45、90、135 min测定其血糖浓度,资料如下表。试检验不同受试者和放置不同时间的血糖浓度有无显著差异。
不同受试者、放置不同时间血滤液的血糖浓度(mg/100ml)
受试者编号
放置时间(min)
0
45
90
135
1
95
95
89
83
2
95
94
88
84
3
106
105
97
90
4
98
97
95
90
5
102
98
97
88
6
112
112
101
94
7
105
103
97
88
8
95
92
90
80
(F=78.6**,F=28.8**)
18.为了从3种不同原料和3种不同温度中选择使酒精产量最高的水平组合,设计了两因素试验,每一水平组合重复4次,结果如下表,试进行方差分析。
用不同原料及不同温度发酵的酒精产量原料
温 度B
B1(30℃)
B2(35℃)
B3(40℃)
A1
41
49
23
25
11
12
25
24
6
22
26
11
A2
47
59
50
40
43
38
33
36
8
22
18
14
A3
48
35
53
59
55
38
47
44
30
33
26
19
(FA=12.68**,FB=24.88**,FA×B=2.77*,MSe=67.19)
19,3头公牛交配6头母牛(各随机交配两头),其女儿第一产305天产奶量资料如下,试作方差分析,并估计方差组分。
公牛所配母牛的女儿产奶量(kg)
公牛号S
母牛序号D
女儿产奶量C
母牛女儿头数
公牛女儿头数
1
1
5700
5700
2
4
2
6900
7200
2
2
3
5500
4900
2
4
4
5500
7400
2
3
5
4600
4000
2
4
6
5300
5200
2
(提示:先将每个观测值减去4000,再除以100,将数据简化后分析,这样并不影响F检验。FS=1.28,FD(S)=37.51,母牛内MSC(D) =MSe=6.92)
20.测得某品种猪的乳头数资料列于下表。试分析公猪和母猪对仔猪乳头数的影响,并进行方差组分的估计。
某品种猪的乳头数资料公猪A
母猪B
仔猪数nij
仔猪乳头数C
A1
B11
8
14(3)
15(2)
16(3)
B12
9
15(2)
16(2)
17(5)
B13
11
12(1)
13(2)
14(5)
15(1)
16(2)
B14
10
14(2)
15(3)
16(4)
18(1)
A2
B21
9
14(1)
15(3)
16(3)
17(1)
18(1)
B22
11
13(1)
14(2)
15(5)
16(1)
17(2)
B23
12
14(4)
15(5)
16(1)
17(1)
18(1)
B24
7
13(1)
14(2)
15(1)
16(1)
17(2)
A3
B31
8
13(2)
14(5)
15(1)
B32
10
14(4)
15(6)
B33
12
13(2)
14(5)
15(2)
16(3)
合计
107
注:( )内数字系仔猪头数。(FA=2.05,FB(A) =3.28**,MSC(B)=MSe=1.22)
21,3组小白鼠在注射某种同位素24小时后脾脏蛋白质中放射性测定值如下表。问芥子气、电离辐射能否抑制该同位素进入脾脏蛋白质?(提示:先进行平方根转换,然后进行方差分析)
组别
放射性测定值(百次/min/g)
对照组
3.8
9.0
2.5
8.2
7.1
8.0
11.5
9.0
11.0
7.9
芥子气中毒组
5.6
4.0
3.0
8.0
3.8
4.0
6.4
4.2
4.0
7.0
电离辐射组
1.5
3.8
5.5
2.0
6.0
5.1
3.3
4.0
2.1
2.7
(F=9.45**)
22.用三种不同剂量的某药物治疗兔子球虫病后,粪中卵囊数的检出结果见下表。试检验三种剂量疗效差异是否显著(提示:先作对数转换lg(x+1),然后进行方差分析)。
某药物治疗兔子球虫病效果试验剂量(mg/kg)
卵 囊 数
n
(Ⅰ) 15
0
0
0
0
0
0
0
0
0
0
20
8
14
6
5
26
1
1
7
1
2
(Ⅱ) 10
0
0
0
0
1
25
8
2
3
8
20
22
38
5
3
50
10
28
15
2
1
(Ⅲ) 5
220
8
30
260
96
39
86
523
47
29
20
40
23
143
17
11
23
99
40
20
103
(F=38.11**)
23.下表为3组大白鼠营养试验中测得尿中氨氮的排出量。试检验各组氨氮排出量差异是否显著。(提示:先作对数转换lgx,然后进行方差分析)。
组别
尿中氨氮排出量(mg/6天)
A组
30
27
35
35
29
33
32
36
26
41
33
31
B组
43
45
53
44
51
53
54
37
47
57
48
42
C组
83
66
66
86
56
52
76
83
72
73
59
53
(F=78.86**)