第十章 协方差分析
第一节 协方差分析的意义
协方差分析有二个意义,一是对试验进行统计控制,二是对协方差组分进行估计,现分述如下。
一、对试验进行统计控制
为了提高试验的精确性和准确性,对处理以外的一切条件都需要采取有效措施严加控制,使它们在各处理间尽量一致,这叫试验控制。但在有些情况下,即使作出很大努力也难以使试验控制达到预期目的。例如:研究几种配合饲料对猪的增重效果,希望试验仔猪的初始重相同,因为仔猪的初始重不同,将影响到猪的增重。经研究发现:增重与初始重之间存在线性回归关系。但是,在实际试验中很难满足试验仔猪初始重相同这一要求。这时可利用仔猪的初始重(记为x)与其增重(记为y)的回归关系,将仔猪增重都矫正为初始重相同时的增重,于是初始重不同对仔猪增重的影响就消除了。由于矫正后的增重是应用统计方法将初始重控制一致而得到的,故叫统计控制。统计控制是试验控制的一种辅助手段。经过这种矫正,试验误差将减小,对试验处理效应估计更为准确。若y的变异主要由x的不同造成(处理没有显著效应),则各矫正后的间将没有显著差异(但原y间的差异可能是显著的)。若y的变异除掉x不同的影响外,尚存在不同处理的显著效应,则可期望各间将有显著差异(但原y间差异可能是不显著的)。此外,矫正后的和原y的大小次序也常不一致。所以,处理平均数的回归矫正和矫正平均数的显著性检验,能够提高试验的准确性和精确性,从而更真实地反映试验实际。这种将回归分析与方差分析结合在一起,对试验数据进行分析的方法,叫做协方差分析(analysis of covariance)。
二、估计协方差组分
在第八章曾介绍过表示两个相关变量线性相关性质与程度的相关系数的计算公式:
若将公式右端的分子分母同除以自由度(n-1),得
(10-1)
其中
是x的均方MSx,它是x的方差的无偏估计量;
是y的均方MSy,它是y的方差的无偏估计量;
称为x与y的平均的离均差的乘积和,简称均积,记为MPxy,即
MPxy== (10-2)
与均积相应的总体参数叫协方差(covariance),记为COV(x,y)或。统计学证明了,均积MPxy是总体协方差COV(x,y)的无偏估计量,即 EMPxy= COV(x,y)。
于是,样本相关系数r可用均方MSx、MSy,均积MPxy表示为:
(10-3)
相应的总体相关系数可用x与y的总体标准差、,总体协方差COV(x,y)或表示如下:
(10-4)
均积与均方具有相似的形式,也有相似的性质。在方差分析中,一个变量的总平方和与自由度可按变异来源进行剖分,从而求得相应的均方。统计学已证明:两个变量的总乘积和与自由度也可按变异来源进行剖分而获得相应的均积。这种把两个变量的总乘积和与自由度按变异来源进行剖分并获得获得相应均积的方法亦称为协方差分析。
在随机模型的方差分析中,根据均方MS和期望均方EMS的关系,可以得到不同变异来源的方差组分的估计值。同样,在随机模型的协方差分析中,根据均积MP和期望均积EMP的关系,可得到不同变异来源的协方差组分的估计值。有了这些估计值,就可进行相应的总体相关分析。这些分析在遗传、育种和生态、环保的研究上是很有用处的。
由于篇幅限制,本章只介绍对试验进行统控制的协方差分析。
第二节 单因素试验资料的协方差分析
设有k个处理、n次重复的双变量试验资料,每处理组内皆有n对观测值x、y,则该资料为具kn对x、y观测值的单向分组资料,其数据一般模式如表10—1所示。
表10—1 kn对观测值x、y的单向分组资料的一般形式
处 理
处理1
处理2
…
处理i
…
处理k
观测指标
x y
x y
…
x y
…
x y
观测值
xij、yij
(i=1,2,…k
j=1,2,…n)
x11
x12
…
x1j
…
x1n
y11
y12
…
y1j
…
y1n
x21
x22
…
x2j
…
x2n
y21
y22
…
y2j
…
y2n
…
…
…
…
…
…
xi1
xi2
…
xij
…
xin
yi1
yi2
…
yij
…
yin
…
…
…
…
…
xk1
xk2
…
xkj
…
xkn
yk1
yk2
…
ykj
…
ykn
总 和
x1.
y1.
x2.
y2.
…
xi.
yi.
…
xk.
yk.
平均数
…
…
表10—1的x和y变量的自由度和平方和的剖分参见单因素试验资料的方差分析方法一节。其乘积和的剖分则为:
总变异的乘积和是与和与的离均差乘积之和,即:
(10-5)
=kn-1
其中, 。
处理间的乘积和是与和与的离均差乘积之和乘以n,即:
(10-6)
处理内的乘积和是与和与的离均差乘积之和,即:
(10-7)
=k(n-1)
以上是各处理重复数n相等时的计算公式,若各处理重复数n不相等,分别为n1、n2、…、nk,其和为,则各项乘积和与自由度的计算公式为:
=-1 (10-8)
-=SPT-SPt
=-k =dfT-dft (10-9)
有了上述SP和df,再加上x和y的相应SS,就可进行协方差分析。
【例10.1】 为了寻找一种较好的哺乳仔猪食欲增进剂,以增进食欲,提高断奶重,对哺乳仔猪做了以下试验:试验设对照、配方1、配方2、配方3共四个处理,重复12次,选择初始条件尽量相近的长白种母猪的哺乳仔猪48头,完全随机分为4组进行试验,结果见表10—2,试作分析。
此例, =18.25+15.40+15.65+13.85=63.15
=141.80+130.10+144.80+133.80=550.50
k=4,n=12,kn=4×12=48
表10—2 不同食欲增进剂仔猪生长情况表 (单位:kg)
处 理
对照
配方1
配方2
配方3
观 测
指 标
初生重
x
50日
龄重y
初生重
x
50日
龄重y
初生重
x
50日
龄重y
初生重x
50日
龄重y
观 察 值
xij,yij
1.50 12.40
1.35 10.20
1.15 10.00
1.20 12.40
1.85 12.00
1.20 9.40
1.10 10.60
1.00 9.80
1.35 10.80
1.45 12.20
1.10 10.40
1.15 11.60
1.45 10.00
1.20 10.30
1.05 9.20
1.10 10.60
1.40 11.00
1.40 11.30
1.40 13.00
1.00 9.20
1.45 11.80
1.30 11.40
1.45 13.50
1.45 13.90
1.50 12.50
1.15 12.80
1.30 13.00
1.35 12.80
1.55 13.40
1.30 10.90
1.70 14.80
1.15 9.30
1.40 11.20
1.35 11.60
1.40 12.30
1.10 9.60
1.50 11.60
1.15 8.50
1.45 13.20
1.20 12.40
1.60 12.60
1.35 12.20
1.25 12.00
1.05 11.20
1.70 12.50
1.20 9.30
1.30 12.80
1.10 11.00
总 和 xi.,yi.
18.25 141.80
15.40 130.80
15.65 144.80
13.85 133.80
平 均
1.52 11.82
1.28 10.84
1.30 12.07
1.15 1.15
协方差分析的计算步骤如下:
(一)求x变量的各项平方和与自由度
1、总平方和及自由度
=kn-1=4×12-1=47
2、处理间平方和与自由度
=k-1=4-1=3
3、处理内平方和与自由度
=-=1.75-0.83=0.92
=-=47-3=44
(二)求y变量各项平方和与自由度
1、总平方和与自由度
=kn-1=4×12-1=47
2、处理间平方和与自由度
=k-1=4-1=3
3、处理内平方和与自由度
=-=96.76-11.68=85.08
=-=47-3=44
(三)求x和y两变量的各项离均差乘积和与自由度
1、总乘积和与自由度
=kn-1=4×12-1=47
2、处理间乘积和与自由度
=1.64
=k-1=4-1=3
3、处理内乘积和与自由度
=-=8.25-1.64=6.61
=-=47-3=44
平方和、乘积和与自由度的计算结果列于表10—3。
表10—3 x与y的平方和与乘积和表
变异来源
df
处理间(t)
3
0.83
11.68
1.64
处理内(误差)(e)
44
0.92
85.08
6.61
总变异(T)
47
1.75
96.76
8.25
(四)对x和y各作方差分析(表10—4)
表10—4 初生重与50日龄重的方差分析表
变异来源
df
x变量
y变量
F值
SS
MS
F
SS
MS
F
处理间
3
0.83
0.28
13.33**
11.68
3.89
2.02
F0.05=2.82
F0.01=4.26
处理内(误差)
44
0.92
0.021
85.08
1.93
总变异
47
1.75
96.76
分析结果表明,4种处理的供试仔猪平均初生重间存在着极显著的差异,其50 日龄平均重差异不显著。须进行协方差分析,以消除初生重不同对试验结果的影响,减小试验误差,揭示出可能被掩盖的处理间差异的显著性。
(五)协方差分析
1、误差项回归关系的分析 误差项回归关系分析的意义是要从剔除处理间差异的影响的误差变异中找出50日龄重(y)与初生重(x)之间是否存在线性回归关系。计算出误差项的回归系数并对线性回归关系进行显著性检验,若显著则说明两者间存在回归关系。这时就可应用线性回归关系来校正y值(50日龄重)以消去仔猪初生重(x)不同对它的影响。然后根据校正后的y值(校正50日龄重)来进行方差分析。如线性回归关系不显著,则无需继续进行分析。
回归分析的步骤如下:
(1)计算误差项回归系数,回归平方和,离回归平方和与相应的自由度
从误差项的平方和与乘积和求误差项回归系数:
(10-10)
误差项回归平方和与自由度
(10-11)
dfR(e)=1
误差项离回归平方和与自由度
=-=85.08-47.49=37.59 (10-12)
=-=44-1=43
(2)检验回归关系的显著性(表10—5)
表10—5 哺乳仔猪50日龄重与初生重的回归关系显著性检验表
变异来源
SS
df
MS
F
F0.01
误差回归
47.49
1
47.49
54.32**
7.255
误差离回归
37.59
43
0.8742
误差总和
85.08
44
F检验表明,误差项回归关系极显著,表明哺乳仔猪50 日龄重与初生重间存在极显著的线性回归关系。因此,可以利用线性回归关系来校正y,并对校正后的y进行方差分析。
2、对校正后的50日龄重作方差分析
(1)求校正后的50日龄重的各项平方和及自由度 利用线性回归关系对50日龄重作校正,并由校正后的50日龄重计算各项平方和是相当麻烦的,统计学已证明,校正后的总平方和、误差平方和及自由度等于其相应变异项的离回归平方和及自由度,因此,其各项平方和及自由度可直接由下述公式计算。
①校正50日龄重的总平方和与自由度,即总离回归平方和与自由度
(10-13)
=-=47-1=46
②校正50日龄重的误差项平方和与自由度,即误差离回归平方和与自由度
(10-14)
=-=44-1=43
上述回归自由度均为1,因仅有一个自变量x。
③校正50日龄重的处理间平方和与自由度
=57.87-37.59=20.28 (10-15)
=k-1=4-1=3
(2)列出协方差分析表,对校正后的50日龄重进行方差分析(表10—6)
查F表:=4.275(由线性内插法计算),由于F=7.63>,P<0.01,表明对于校正后的50日龄重不同食欲添加剂配方间存在极显著的差异。故须进一步检验不同处理间的差异显著性,即进行多重比较。
表10—6 表10-2资料的协方差分析表
变异来源
df SSx SSy SPxy b
校正50日龄重的方差分析
F
df'
SS'
MS
处理间(t)
3
0.83
11.68
1.64
机 误(e)
44
0.92
85.08
6.61
7.1848
43
37.59
0.8742
总 和(T)
47
1.75
96.76
8.25
46
57.87
校正处理间
3
20.28
6.76
7.63**
3、根据线性回归关系计算各处理的校正50日龄平均重
误差项的回归系数表示初生重对50日龄重影响的性质和程度,且不包含处理间差异的影响,于是可用根据平均初生重的不同来校正每一处理的50日龄平均重。校正50日龄平均重计算公式如下:
(10-16)
公式中:为第i处理校正50日龄平均重;
为第i处理实际50日龄平均重(见表10—2);
为第i处理实际平均初生重(见表10—2);
为全试验的平均数,
为误差回归系数,=7.1848
将所需要的各数值代入(10—16)式中,即可计算出各处理的校正50日龄平均重(见表 10—7)。
表10—7 各处理的校正50日龄平均重计算表
处 理
-
(-)
实际50日龄平均重
校正50日龄平均重-(-)
对 照
1.52-1.3156=0.2044
7.1848×0.2044=1.4686
11.82
11.82-1.1686=10.3514
配方1
1.28-1.3156=-0.0356
7.1848×(-0.0356)=-0.2588
10.84
10.84+0.2558=12.0758
配方2
1.30-1.3156=-0.0156
7.1848×(-0.0156)=-0.1121
12.07
12.07+0.1121=12.1821
配方3
1.15-1.3156=-0.1656
7.1848×(-0.1656)=-1.1898
11.15
11.15+1.1898=12.3398
4、各处理校正50日龄平均重间的多重比较
各处理校正50日龄平均重间的多重比较,即各种食欲添加剂的效果比较。
(1)t检验 检验两个处理校正平均数间的差异显著性,可应用t检验法:
(10-17)
(10-18)
式中,为两个处理校正平均数间的差异;
为两个处理校正平均数差数标准误;
为误差离回归均方;
n为各处理的重复数;
为处理i的x变量的平均数;
为处理j的x变量的平均数;
SSe(x)为x变量的误差平方和
例如,检验食欲添加剂配方1与对照校正50日龄平均重间的差异显著性:
=10.3514-12.0758=-1.7244
=37.59/43=0.8742 n=12
=1.52,=1.28, SSe(x)=0.92
将上面各数值代入(10—18)式得:
=
于是
查t值表,当自由度为43时(见表10—6误差自由度),t0.01(43)=2.70(利用线性内插法计算),|t| >t0.01(43),P<0.01,表明对照与食欲添加剂1号配方校正50日龄平均重间存在着极显著的差异,这里表现为1号配方的校正50日龄平均重极显著高于对照。 其余的每两处理间的比较都须另行算出,再进行t检验。
(2)最小显著差数法 利用t检验法进行多重比较,每一次比较都要算出各自的,比较麻烦。当误差项自由度在 20以上,x变量的变异不甚大(即x变量各处理平均数间差异不显著),为简便起见,可计算一个平均的采用最小显著差数法进行多重比较。的计算公式如下:
= (10-19)
公式中SSt(x)为x变量的处理间平方和。
然后按误差自由度查临界t值,计算出最小显著差数:
(10-20)
本例x变量处理平均数间差异极显著,不满足“x变量的变异不甚大”这一条件,不应采用此处所介绍的最小显著差数法进行多重比较。为了便于读者熟悉该方法,仍以本例的数据说明之。此时
=
由=43,查临界t值得:t0.05(43)=2.017,t0.01(43)=2.70
于是 LSD0.05=2.017×0.4353=0.878
LSD0.01=2.70×0.4353=1.175
不同食欲添加剂配方与对照校正50日龄平均重比较结果见表10—8。
表10—8 不同食欲添加剂配方与对照间的效果比较表
食欲添加剂配方
校正50日龄平均重
对照校正50日龄平均重
差数
1
12.0758
10.3514
1.7244**
2
12.1821
10.3514
1.8307**
3
12.3398
10.3514
1.9884**
多重比较结果表明:食欲添加剂配方1、2、3号与对照比较,其校正50 日龄平均重间均存在极显著的差异,这里表现为配方1、2、3号的校正50日龄平均重均极显著高于对照。
(3)最小显著极差法 当误差自由度在20以上,x变量的变异不甚大,还可以计算出平均的平均数校正标准误,利用LSR 法进行多重比较。的计算公式如下:
= (10-21)
然后由误差自由度和秩次距k查SSR表(或q表),计算最小显著极差:
(10-22)
对于【例10.1】资料,由于不满足“x变量的变异不甚大”这一条件,不应采用此处所介绍的LSR法进行多重比较。为了便于读者熟悉该方法,仍以【例10.1】的数据说明之。此时
=0.8742,n=12,SSt(x)=0.83,SSe(x)=0.92,k=4,代入(10—21)式可计算得:
=
SSR值与LSR值见表10—9。
表10—9 SSR值与LSR值表
秩次距k
2 3 4
2.86 3.01 3.10
3.82 3.99 4.10
0.883 0.929 0.957
1.179 1.232 1.266
各处理校正50日龄平均重多重比较结果见表10—10。
表10—10 各处理校正50日龄平均重多重比较表(SSR法)
处 理
-10.3514
-12.0758
-12.1821
配方3
12.3398
1.9884**
0.2640
0.1577
配方2
12.1821
1.8307**
0.1063
配方1
12.0758
1.7244**
对 照
10.3514
多重比较结果表明:食欲添加剂配方3、2、1号的哺乳仔猪校正50 日龄平均重极显著高于对照,不同食欲添加剂配方间哺乳仔猪校正50日龄平均重差异不显著。
习 题
1、何为试验控制?如何对试验进行统计控制?
2、什么是均积、协方差?均积与协方差有何关系?
3、对试验进行统计控制的协方差分析的步骤有哪些?
4、一饲养试验,设有两种中草药饲料添加剂和对照三处理,重复9次,共有27头猪参与试验,两个月增重资料如下。由于各个处理供试猪只初始体重差异较大,试对资料进行协方差分析。
中草药饲料添加剂对猪增重试验结果表 (单位:kg)
处 理
2号添加剂
1号添加剂
对照组
观测指标
初重x
增重y
初重x
增重y
初重x
增重y
观
测
值
30.5
35.5
27.5
29.5
28.5
26.5
24.5
25.0
21.5
19.5
22.5
18.5
23.0
21.5
20.0
18.5
32.0
28.5
20.5
20.5
22.5
24.5
19.0
18.0
21.0
25.5
24.5
27.5
16.5
16.0
28.5
31.5
26.0
28.5
35.0
30.5
22.5
22.5
18.5
19.0
22.5
20.5
18.5
20.5
28.5
31.5
15.5
16.0
21.5
24.5
20.5
18.5
17.0
16.0
(b=0.9832,线性回归关系极显著)。
5、四种配合饲料的比较试验,每种饲料各有供试猪10头,供试猪的初始重(kg)及试验后的日增重(kg)列于下表,试对试验结果进行协方差分析。
处 理
Ⅰ号料
Ⅱ号料
Ⅲ号料
Ⅳ号料
观测指标
始重x
增重y
始重x
增重y
始重x
增重y
始重x
增重y
观
测
值
36
0.89
28
0.64
28
0.55
32
0.52
30
0.80
27
0.81
22
0.62
27
0.58
26
0.74
27
0.73
26
0.58
25
0.64
23
0.80
24
0.67
22
0.58
23
0.62
26
0.85
25
0.77
23
0.66
27
0.54
30
0.68
23
0.67
20
0.55
28
0.54
20
0.73
20
0.64
22
0.60
20
0.55
19
0.68
18
0.65
23
0.71
24
0.44
20
0.80
17
0.59
18
0.55
19
0.51
16
0.58
20
0.57
17
0.48
17
0.51
(b=0.0073,线性回归关系极显著)