第十一章 统计控制的有关技术
出于减小试验误差的目的,试验者可以通过局部控制技术控制试验地土壤肥力的梯度影响,以及通过小区技术控制无规律的斑块状土壤肥力变化影响。但在试验完成以后,仍然会有对试验结果预料之中或预料之外的影响,此时,对这些外界影响的消除或减小统计学上称之为统计控制。本章就通称为统计控制技术的异常数据的检测和协方差分析予以介绍。
第一节 试验资料中异常数据的检测
异常数据(Outlier):误差超出误差分布允许概率限的变数资料,称之为异常数据。
一、试验资料中误差的提取除有些试验资料其误差服从非正态分布的某些特定分布外,一般来说试验误差应满足正态性,在各试验因素间的同质性,以及独立于各处理效应的特性即可加性。这经常是对田间试验资料作统计分析合理性的基础。
对农业田间试验资料中异常数据的检测,首先应将独立于各处理效应的误差项(或称误差效应项)提取出来。常见的农业田间试验资料随机误差项的提取表达式列于表11.1。
表11.1 常见农业田间试验资料随机误差效应表达式设计类型
线性可加模型及随机误差估计值表达式
完全随机


二级分组


单因素随机完全区组


二因素随机完全区组


单因素拉丁方


二因素拉丁方


二裂式裂区


条 区


举书中[例11.1]随机区组试验结果,介绍每一变数随机误差效应值的提取。
二、试验资料中异常数据的检测目前有多种异常数据的检测准则,下面将格拉布斯(Grubbs)准则和狄克逊(Dixon)准则介绍给大家。
1.格拉布斯(Grubbs)准则设X1,X2,……Xn为一独立正态分布变量列,格拉布斯于1969年导出了计算式的分布,表11.3给出了该分布0.05与0.01显著水平的临界值。
格拉布斯给出了具有最大误差效应项的对应的G值计算公式:
 。
结合例题介绍格拉布斯准则临界值表的查阅和使用。
格拉布斯准则应用总结:从上面检测例题看出,应用格拉布斯准则,每次只能检测一个数据,若判定为异常数据,则须作缺区估计和全部资料重新整理误差效应项进入第二轮检测,若数据中有较多异常数据,本方法计算工作量较大,是其缺点。
2.狄克逊准则狄克逊1953年提出了一种极差比较法的判别准则。
检测步骤:⑴ 在判别前首先应对检测对象从小到大重新排序(当然我们此时的检测对象是整理出的误差效应项),使成为
…变数列形式
⑵ 利用狄克逊给出的判别临界值和计算公式,计算并作出判断,见书中表11.6。
狄克逊准则应用评价,狄克逊准则属于非参数统计方法,其结果并未反映全部资料蕴含的关于误差的信息,而是强烈地受极端值的影响,检测精确度相对较低,因此,只有当要求精确度不是很高时,可用此法。它的优点是简便易行,当变数列较大超过表中给出的容量限时,亦可将全部误差值按一定变因(如区组或处理)分成若干组,分别进行检测。
第二节 协方差分析
协方差分析的意义和功用
1、协方差分析的定义:将总变异的乘积和与协方差按照其变异来源分解成各个组成部分的统计技术。
2、协方差分析的功用:当试验资料存在试验的目标性状y和对其可能有影响或干扰的伴随性状时,将各个y矫正到的同一水平下,以消除因的不同对结果y的影响,进而实现试验目标性状在平等基础上的比较。
3、协方差分析的步骤:
①原始资料的整理 将目标性状和伴随因素一一对应并列表,其格式和数据整理项目与该设计类型方案分析原始资料整理表相同。
②对目标性状y和伴随因素x两套数据作分别的该设计类型的方差分析。考察x变数在我们关注的变异来源项间差异是否显著,如不显著,则说明其影响不管存在与否,其在各处理间的差异均属抽样误差。因此,可不必作协方差分析。反之,则应作协方差分析。y变数的方差分析结果是不经矫正的原始数据结果,可用于矫正后与协方差分析结果的比较,以得到统计控制效率的估价。
③列规范的协方差分析表。其各变异来源与该设计类型方差分析表相同,但对各变异来源的统计数据则应包括DF、SSx、SSy、SP及误差一项的b值。并在此表右侧给出离回归分析结果。
④利用上表结果,作出x变数对目标性状回归显著性的分析推断。若结果为不显著,则用简单的方差分析对y变数进行统计分析,反之则继续下面协方差分析。
⑤同样利用上表结果,作出矫正后各欲分析的变异来源项间差异是否显著的推断,若结果为不显著,可给出经矫正后处理变异来源项间差异为不显著的结论,并与未矫正前y变数的方差分析结果进行统计控制效率比较,反之,则应继续向下分析。
⑥计算各y变数在同一变数水平下的矫正平均值,并作矫正后平均值的多重比较,并对整个试验给出专业分析。
完全随机试验资料的协方差分析完全随机试验资料的协方差分析的线性模型:
2、以完全随机试验资料的[例11.2]为例,讲解协方差分析的全部过程和各步的统计学含义。
三、其它田间试验资料的协方差分析以随机区组试验资料的[例11.3]为例,讲解具有更多变异来源的试验设计类型的协方差分析。(其线性模型为:),进而推及分析的一般规律。
本章习题
11.1 怎样看待和处理田间试验资料中出现的异常数据,为什么对可疑数据作统计学检测的同时,对其加以专业上的分析?
11.2 什么叫协方差分析?为什么要进行协方差分析?简述协方差分析的方法步骤,以及如何将各处理值矫正到x变数同一水平下的值。
11.3 四个小麦纯系穗长调查资料如下表,研究者对其中若干数值产生怀疑,试作检测。
品 系
A
B
C
D
重复调(mm)
查值
64
72
68
77
56
95
78
91
97
82
85
77
75
93
78
71
63
76
55
66
49
64
70
68
 11.4 有如下表水稻品种试验资料,由于发生缺株现象,调查时将小区株数(x)和小区产量(g/小区)一并调查,其协方差分析初步统计结果一起给出,试作协方差分析。
品 种
观 测 值
A
B
C
x
y
x
y
x
y
75
1541
70
1616
87
1872
69
1474
67
1611
78
1721
66
1489
67
1611
78
1721
57
1329
52
1401
67
1611
51
1254
51
1423
62
1555
48
1247
52
1471
55
1450
47
1254
51
1422
53
1430
变异来源
DF
SSx
SSy
SP
b
离 回 归
平方和
自由度
品种间误 差总变异
2
18
20
489.4
2060.9
2550.3
222708.2
299506.8
522215.0
8312.1
24464.4
32776.5
11.87
9096.4
100970.9
17
19
11.5 下表为玉米品种试验的每区株数(x)和产量(y)的资料:由该资料求得的二级数据一并列出,试作协方差分析,直至得到各品种在小区株数相同时的矫正平均产量。
品种
区 组
总和
平均
ⅰ
ⅱ
ⅲ
ⅳ




x
y
x
y
x
y
x
Y
A
B
C
D
E
10
12
17
14
12
18
36
40
21
42
8
13
15
14
10
17
38
36
23
36
6
8
13
17
10
14
28
35
24
38
8
11
11
15
16
15
30
29
20
52
32
44
56
60
48
64
132
140
88
168
8
11
14
15
12
16
33
35
22
42
总和

65
157
60
150
54
139
61
146
240
592
12
29.6
变异来源
SSx
SSy
SP
区 组品 种误 差总 变 异
12.4
120.0
59.6
192.0
34.0
1748.8
268.0
2050.8
19.4
156.0
114.6
290.0