第四章 方差分析第一节 概述第二节 单因素试验方差分析第三节 双因素试验方差分析第四节 多重比较什么是方差分析?
(概念要点 )
1,检验多个总体均值是否相等
通过对各观察数据误差来源的分析来判断多个总体均值是否相等
2、变量
– 一个定类尺度的自变量
2个或多个 (k 个 ) 处理水平或分类
– 一个定距或比例尺度的因变量
3、用于分析完全随机化试验设计什么是方差分析?
(一个例子)
表 8-1 该饮料在五家超市的销售情况超市 无色 粉色 橘黄色 绿色
1
2
3
4
5
26.5
28.7
25.1
29.1
27.2
31.2
28.3
30.8
27.9
29.6
27.9
25.1
28.5
24.2
26.5
30.8
29.6
32.4
31.7
32.8
【 例 8.1】 某饮料生产企业研制出一种新型饮料。饮料的颜色共有四种,
分别为 橘黄色,粉色,绿色 和无色透明。这四种饮料的营养含量、味道
、价格、包装等可能影响销售量的因素全部相同。现从地理位置相似、
经营规模相仿的五家超级市场上收集了前一时期该饮料的销售情况,见表 8-1。试分析饮料的颜色是否对销售量产生影响。
什么是方差分析?
(例子的进一步分析)
① 检验饮料的颜色对销售量是否有影响,也就是检验四种颜色饮料的平均销售量是否相同
② 设?1为无色饮料的平均销售量,?2粉色饮料的平均销售量,?3为橘黄色饮料的平均销售量,
4为绿色饮料的平均销售量,也就是检验下面的假设
① H0,?1234
② H1,?1,?2,?3,?4 不全相等
③ 检验上述假设所采用的方法就是方差分析第一节 概 述一、方差分析的必要性二、方差分析的基本思想三、方差分析的几点基本条件一、方差分析的必要性
t检验法适用于样本平均数与总体平均数及两样本平均数间的差异显著性检验,但在生产和科学研究中经常会遇到比较多个处理优劣的问题,即需进行多个平均数间的差异显著性检验。这时,若仍采用 t检验法就不适宜了。这是因为:
1、对原始资料的利用率很低;
2、破坏了原先的整体设计,将本属于单因素多水平或者多因素设计或重复测量设计割裂成多个单因素二水平的设计;
3.犯假阳性错误的概率大大增加,因为 t检验只能将每次比较时犯假阳性错误的概率控制在规定的显著性水平上(即事先给定的 α值),而多次 t检验之后犯假阳性错误的总概率将随着比较的次数 n的增大而趋向于 1;
4.当实验中同时涉及二个或二个以上处理因素时,
因素之间往往存在不可忽视的交互作用,而 t检验割裂了因素之间的内在联系,无法考察交互作用是否具有显著性意义;
5.由于不同组均数之间比较的 t检验所用的标准误(即公式的分母)在不断改变,t统计量的自由度小
(因为资料的利用率低)。 所以,多次运用 t检验的过程中,评价标准不统一。
综上所述,充分说明用 t检验处理非单因素一、二水平的设计资料是不合适的。
因此对于多个总体样本均值的假设检验,需要用方差分析方法。
二、方差分析的基本思想方差分析 (analysis of variance) 是由英国统计学家
R.A.Fisher于 1923年提出的。
方差分析的实质就是检验多个正态总体均值是否相等。
假设某单因素试验有 k个处理,每个处理有 n次重复,
共有 nk个观测值。这类试验资料的数据模式如表所示。
表中的数据是参差不齐的,数据波动的可能原因来自两个方面:一是由于因素的水平不同,二是来自偶然误差。因素的水平的变化引起的试验数据波动称为条件误差;由随机因素引起的试验数据波动称为随机误差或试验误差。
方差分析就是把试验数据的总波动分解为两部分,
一部分反映由条件误差引起的波动,另一部分反映由试验误差引起的波动。
1,随机误差
在因素的同一水平 (同一个总体 )下,样本的各观察值之间的差异
比如,同一种颜色的饮料在不同超市上的销售量是不同的
不同超市销售量的差异可以看成是随机因素的影响,或者说是由于抽样的随机性所造成的,称为随机误差
2,系统误差
在因素的不同水平 (不同总体 )下,各观察值之间的差异
比如,同一家超市,不同颜色饮料的销售量也是不同的
这种差异 可能 是由于抽样的随机性所造成的,也可能 是由于颜色本身所造成的,后者所形成的误差是由系统性因素造成的,称为 系统误差
1,组内方差
因素的同一水平 (同一个总体 )下样本数据的方差
比如,无色饮料 A1在 5家超市销售数量的方差
组内方差只包含 随机误差
2,组间方差
因素的不同水平 (不同总体 )下各样本之间的方差
比如,A1,A2,A3,A4四种颜色饮料销售量之间的方差
组间方差既包括 随机误差,也包括 系统误差方差分析,就是把数据的总偏差平方和 ST分解为反映必然性的各个因素的偏差平方和( SA,SB,SC,…… )
与反映偶然性的偏差平方和( Se),并计算它们的平均偏差平方和。在将两者进行比较,借助 F检验法,进行假设检验,从而确定因素对试验结果的影响是否显著。
(方差的比较)
1,如果不同颜色 (水平 )对销售量 (结果 )没有影响,那么在组间方差中只包含有随机误差,而没有系统误差 。 这时,组间方差与组内方差就应该很接近,两个方差的比值就会接近 1
2,如果不同的水平对结果有影响,在组间方差中除了包含随机误差外,还会包含有系统误差,这时组间方差就会大于组内方差,组间方差与组内方差的比值就会大于 1
3,当这个比值大到某种程度时,就可以说不同水平之间存在着显著差异三、方差分析的几点基本条件
1、可加性每个处理效应与误差效应是可加的。有了这一假设条件,不同效应才能被分解和最终判断处理效应是否比误差效应更显著。
ijiijx
2、正态性总体的被观察的标志遵从或近似正态分布。试验误差也应服从正态分布的独立随机变量应具备的条件。
3、独立性抽样为重复抽样或抽样比很小的非重复抽样,以保证样本的各单元互不影响,即要求每次进行的随机试验是相互独立的。
4、方差齐性各处理的方差应具备齐性,并具有一个公共总体方差。在我们进行试验中,每个水平下的处理可以看作来自一个正态总体,由于其他条件相对稳定,因此可以认为每个总体的方差是相同的,也即为具有方差齐性。
举 例
1,判断颜色对销售量是否有显著影响,实际上也就是检验具有同方差的四个正态总体的均值是否相等的问题
2,如果四个总体的均值相等,可以期望四个样本的均值也会很接近
四个样本的均值越接近,我们推断四个总体均值相等的证据也就越充分
样本均值越不同,我们推断总体均值不同的证据就越充分如果原假设成立,即 H0,m1 = m2 = m3 = m4
– 四种颜色饮料销售的均值都相等
– 没有系统误差这意味着每个样本都来自均值为、方差为?2的同一正态总体
X
f(X)
1234
如果备择假设成立,即 H1,mi (i=1,2,3,4)不全相等
– 至少有一个总体的均值是不同的
– 有系统误差这意味着四个样本分别来自均值不同的四个正态总体
X
f(X)
3124
第二节 单因素试验方差分析一、单因素方差分析问题的提法二、单因素方差分析的前提条件三、利用 Excel进行单因素方差分析一、单因素方差分析问题的提法假设试验所考察的因素有 k个水平,在每一个水平上重复进行了 n次试验,可得试验数据的模式如下:
根据试验数据判断因素对试验结果是否显著影响。
二、单因素方差分析的前提条件单因素方差分析是建立在以下假说的基础上的:
1、在每一个水平上试验结果是一个随机变量,
且服从正态分布。
2、所有 k个不同水平对应的 k个正态总体的方差是相等的。也就是具有方差齐性。
3,k个总体是相互独立的,样本与样本之间也是相互独立的。
要检验的假设是:假设试验因素不同水平对试验结果没有显著影响,如果拒绝该假设,则认为至少有两个水平之间的差异是显著的,该因素对试验结果有显著影响;反之,如果接受该假设,则认为该因素对试验结果无显著影响,试验结果在各水平之间的不同仅仅是由于随机误差引起的。
三、利用 Excel进行单因素方差分析例:以淀粉为原料生产葡萄糖的过程中,残留有许多糖蜜,
可以作为生产酱色的原料。在生产酱色之前应尽可能除杂,
以保证酱色的质量。为此对除杂方法进行选择。在试验中选用五种不同的除杂方法,每种方法作四次重复,结果见表。请判断除杂方法对试验结果是否显著影响。
除杂方法 除杂量
A1 25.6 22.2 28.0 29.8
A2 24.4 30.0 29.0 27.5
A3 25.0 27.7 23.0 32.2
A4 28.8 28.0 31.5 25.9
A5 20.6 21.2 22.0 21.2
操作步骤:
1、输入数据
2、点击“工具”菜单中的“数据分析”选项,出现下面的对话框。然后选择“方差分析:单因素方差分析”选项,确定。
3、选择对话框中相应的选项,然后确定,可得分析统计结果。
4、对试验结果进行说明如下,a=0.05
a=0.01
结果说明其中表格的第二部分则是方差分析的结果。
SS 列分别给出了四个分组的组间方差、组内方差以及总方差;
DF 列分别给出了对应方差的自由度;
MS列是平均值方差,由 SS 除于 DF 得到,它是总体方差的两个估计值;
F列是 F 统计量的计算结果,它是最终的计算结果,通过将它与一定置信水平下的 F 临界值 F crit 比较,可以判断均值相等的假设是否成立。
P-value 列,是单尾概率值。
P>0.05,不显著; 0.01<P<0.05,显著; P<0.01,极显著 。
从以上的结果分析可知,0.01<P=0.02<0.05,充分说明了,五种除杂方法对试验结果有显著影响。
说明:不同水平下的试验重复次数可以不一样,实际的计算过程有所不同,但是利用 Excel分析的操作方法相同。
【 例 】 为了对几个行业的服务质量进行评价,
消费者协会在零售业,旅游业,航空公司,家电制造业分别抽取了不同的样本,其中零售业抽取 7家,旅游业抽取了 6家,航空公司抽取 5
家,家电制造业抽取了 5家,然后记录了一年中消费者对总共 23家服务企业投诉的次数,结果如表 9.7。 试分析这四个行业的服务质量是否有显著差异? (?= 0.05)
消费者对四个行业的投诉次数观察值
( j )
行业 ( A )
零售业 旅游业 航空公司 家电制造业
1
2
3
4
5
6
7
57
55
46
45
54
53
47
62
49
60
54
56
55
51
49
48
55
47
70
68
63
69
60
第三节 双因素试验方差分析一、双因素无重复试验方差分析二、双因素等重复试验方差分析双因素试验资料的方差分析是指对试验指标同时受到两个试验因素作用的试验资料的方差分析。它的基本思想和方法与单因素试验方差分析相似,前提条件仍然是要满足 独立、方差齐性、正态 。所不同的是在双因素实验中,有可能出现交互作用。按照是否进行重复试验,
双因素方差分析又分为两种,下面分别给予介绍。
一、双因素无重复试验方差分析
1、问题的提法设试验考察 A,B两个因素,A因素分 a个水平,B因素分 b个水平。两者交叉搭配形成 ab
个水平组合即处理,试验因素 A,B在试验中处于平等地位。对于 A,B两个试验因素的全部 ab
个水平组合,每个水平组合只有一个观测值,
全试验共有 ab个观测值,其数据模式如表所示。
两因素单独观测值试验资料的数学模型为:
μ为总平均数;
),,2,1;,,2,1( bjai
x ijljiijl
αi,βj分别为 Ai,Bj的效应;
αi=μi-μ,βj=μj-μ;
μi,μj分别为 Ai,Bj观测值总体平均数,
且 Σαi=0,Σβj=0;
εijl为随机误差,相互独立,且服从 N(0,σ2)。
要求分别检验 A,B两个因素对试验结果有无显著影响。
假设:因素 A对试验结果无显著影响;
因素 B对试验结果无显著影响。
然后计算方差,进行显著性检验。
下面举例介绍用 Excel来进行双因素无重复试验方差分析。
2,Excel在双因素无重复试验方差分析上的应用例:酿造厂有化验员三人,担任发酵粉颗粒检验,
每天从发酵粉中抽样一次进行检验,连续 10天的检验结果见表。试以显著性水平 a=0.05检验三名化验员的化验技术有无显著差异(假设颗粒百分率服从正态分布,方差齐性),以及每天的颗粒百分率间有无显著差异。
日 期化验员 B1 B2 B3 B4 B5 B6 B7 B8 B9 B10
A1 10.10 4.70 3.10 3.00 7.80 8.20 7.80 6.00 4.90 3.40
A2 10.00 4.90 3.10 3.20 7.80 8.20 7.70 6.20 5.10 3.40
A3 10.20 4.80 3.00 3.10 7.80 8.40 7.90 6.10 5.00 3.30
操作步骤:
1、输入数据
2、点击“工具”菜单中的“数据分析”选项,出现下面的对话框。然后选择“方差分析:无重复双因素分析”选项,
确定。
3、选择对话框中相应的选项,然后确定,可得分析统计结果。
4、对试验结果进行说明如下:
a=0.05
a=0.01
结果说明其中表格的第二部分则是方差分析的结果。
SS 列分别给出了行方差、列方差、误差方差以及总方差;
DF 列分别给出了对应方差的自由度;
MS列是平均值方差,由 SS 除于 DF 得到,它是总体方差的两个估计值;
F列是 F 统计量的计算结果,它是最终的计算结果,通过将它与一定置信水平下的 F 临界值 F crit 比较,可以判断假设是否成立;
P-value 列,是单尾概率值。
P>0.05,不显著; 0.01<P<0.05,显著; P<0.01,极显著 。
从本例的计算结果可以看出:
对于行与行之间(也就是化验员之间)对试验结果没有显著影响( P=0.23>0.05);
而列与列之间(即日期之间)对试验结果有极显著影响( P=0.00<0.01)。
不同品牌的彩电在各地区的销售量数据品牌
(因素 A)
销售地区 ( 因素 B )
B1 B2 B3 B4 B5
A1
A2
A3
A4
365
345
358
288
350
368
323
280
343
363
353
298
340
330
343
260
323
333
308
298
【 例 】 有四个品牌的彩电在五个地区销售,为分析彩电的品牌 (因素 A)和销售地区 (因素 B)对销售量是否有影响,对每个品牌在各地区的销售量取得以下数据,见下表 。 试分析品牌和销售地区对彩电的销售量是否有显著影响?
二、双因素等重复试验方差分析在进行两因素或多因素的试验时,除了研究每一因素对试验指标的影响外,往往更希望研究因素之间的交互作用。若两因素间有交互作用,则每个水平组合中只设一个试验单位 (观察单位 )的试验设计是不正确的或不完善的。进行两因素或多因素试验时,一般应设置重复,以便正确估计试验误差,深入研究因素间的交互作用。
设 A与 B两因素分别具有 a与 b个水平,共有
ab个水平组合,每个水平组合有 n次重复,则全试验共有 abn个观测值。这类试验结果的数据模式如表所示。
1、问题的提法两因素有重复观测值试验资料的数学模型为,
其中,为总平均数;
αi为 Ai的效应;
βj为 Bj的效应;
(αβ) ij为 Ai与 Bj的互作效应,
),,2,,1;,,2,1;,,2,1(
)(
nlbjai
x ijlijjiijl
,0)()()(,0,0
1 1 1 11 1
n
i
b
j
a
i
b
j
ijijij
a
i
b
j
ji
jiij
jiijij
..
)()()()(
分别为 Ai,Bj,Ai Bj观测值总体平均数;且
ijji,,
为随机误差,相互独立,且都服从 N(0,
σ2)。
ijl?
要求分别检验 A,B及其交互作用 A× B因素对试验结果有无显著影响。
假设:因素 A对试验结果无显著影响;
因素 B对试验结果无显著影响 ;
交互作用 A× B对试验结果无显著影响。
然后计算方差,进行显著性检验。
下面举例介绍用 Excel来进行双因素等重复试验方差分析。
2,Excel在双因素等重复试验方差分析上的应用例:用三种压力( B1,B2,B3)和四种温度( A1、
A2,A3,A4 )组成几种试验方案,得到产品得率资料如表。试分析压力和温度以及它们的交互作用对产品得率有无显著影响( a=0.05)。
温度
A1 A2 A3 A4
压力
B1
52 48 34 45
43 37 42 58
39 39 38 42
B2
41 50 36 44
47 41 39 46
53 30 44 60
B3
49 36 37 43
38 48 40 56
42 47 32 41
操作步骤:
1、输入数据(注意,数据的输入格式,重复只能输入在列上 )
2、点击“工具”菜单中的“数据分析”选项,出现下面的对话框。然后选择“方差分析:可重复双因素分析”选项,
确定。
3、选择对话框中相应的选项,然后确定,可得分析统计结果。
4、对试验结果进行说明如下:
a=0.05
a=0.01
结果说明其中表格的第五部分则是方差分析的结果。
SS 列分别给出了行方差、列方差、交互作用方差、误差方差以及总方差;
DF 列分别给出了对应方差的自由度;
MS列是平均值方差,由 SS 除于 DF 得到,它是总体方差的两个估计值;
F列是 F 统计量的计算结果,它是最终的计算结果,通过将它与一定置信水平下的 F 临界值 F crit 比较,可以判断假设是否成立;
P-value 列,是单尾概率值。
P>0.05,不显著; 0.01<P<0.05,显著; P<0.01,极显著 。
从本例的计算结果可以看出:
对于行与行之间(也就是压力)对试验结果没有显著影响( P=0.80>0.05);
而列与列之间(即温度)对试验结果有显著影响
( 0.01<P=0.02<0.05);
两个因素之间的交互作用对试验结果无显著影响
( P=0.97>0.05)。
第四节 多重比较
F值显著或极显著,否定了无效假设 HO,表明试验的总变异主要来源于处理间的变异,试验中各处理平均数间存在显著或极显著差异,但并不意味着每两个处理平均数间的差异都显著或极显著,也不能具体说明哪些处理平均数间有显著或极显著差异,哪些差异不显著。
因而,有必要进行两两处理平均数间的比较,
以具体判断两两处理平均数间的差异显著性。
统计上把多个平均数两两间的相互比较称为多重比较 (multiple comparisons)。
多重比较的方法甚多,常用的有 最小显著差数法 (LSD法 )和 最小显著极差法 (LSR法 ),现分别介绍如下。
(一)最小显著差数法
(LSD法,least significant difference)
此法的基本作法是,在 F检验显著的 前提下,先计算出显著水平为 α的最小显著差数,然后将任意两个处理平均数的差数的绝对值 与其比较。
LSD
.,ji xx?
若 > LSDα时,则 与 在 α水平上差异显著;反之,则在 α水平上差异不显著。最小显著差数的计算如下:
式中,为在 F检验中误差自由度下,显著水平为 α的临界 t值,为 均数差异标准误,
计算如下:
.,ji xx?,ix,jx
)( edft?
.,ji xxS?
nMSS exx ji /2.,
..)( jie xxdfaa StL S D
其中 为 F检验中的误差均方,n为各处理的重复数。
当显著水平 α=0.05和 0.01时,从 t 值表中查出和,代入式中:
利用 LSD法进行多重比较时,可按如下步骤进行:
(1) 列出平均数的多重比较表 比较表中各处理按其平均数从大到小自上而下排列;
eMS
)(05.0 edft )(01.0
edft
..
..
)(01.001.0
)(05.005.0
jie
jie
xxdf
xxdf
StL S D
StL S D
除杂方法 -21.25 -26.4 -26.98 -27.73
A4 28.55 7.30 2.15 1.57 0.82
A2 27.73 6.48 1.33 0.75
A3 26.98 5.73 0.58
A1 26.4 5.15
A5 21.25
ix ix ix ix ix
(2)计算最小显著差数 和 ;
05.0LSD 01.0LSD
..
..
)(01.001.0
)(05.005.0
jie
jie
xxdf
xxdf
StL S D
StL S D
nMSS exx ji /2., 83.34/66.72., ji xxS
78.596.19 4 7.2
19.496.11 3 1.2
01.0
05.0
LS D
LS D
(3)将平均数多重比较表中两两平均数的差数与,比较,作出统计推断。19.4
05.0?L S D 78.501.0?L S D
除杂方法 -21.25 -26.4 -26.98 -27.73
A4 28.55 7.30** 2.15 1.57 0.82
A2 27.73 6.48** 1.33 0.75
A3 26.98 5.73* 0.58
A1 26.40 5.15*
A5 21.25
ix ix ix ix ix
小于 者不显著,在差数的右上方标记
,ns”,或不标记符号;
介于 与 之间者显著,在差数的右上方标记,*”;
大于 者极显著,在差数的右上方标记
,**”。
05.0LSD
05.0LSD
01.0LSD
01.0LSD
关于 LSD 法的应用有以下几点说明:
1,LSD 法实质上就是 t 检验法。 它是将 t 检验中由所求得的 t之绝对值 与临界 ta 值的比较转为将各对均数差值的绝对值 与最小显著差数 的比较而作出统计推断的 。 但是,由于 LSD法是利用 F检验中的误差自由度 df e 查 临界 tα值,利用误差均方 计算均数差异标 准误,因而法又不同于每次利用两组数据进行多个平 均数两两比较的检验法 。它解决了本章开头指出的 检 验 法检验过程烦琐,无统一的试验误差且估计误差的精确性和检验的灵敏性低这两个问题。但 法并未解决推断的可靠性降低、犯 I型错误的概率变大的问题。
)/)((,..,ji xxji Sxxt
.,ji xx?
.,ji xxa St?
eMS
.,ji xxS?
LSD
2、有人提出,与检验任何两个均数间的差异相 比较,LSD法适用于各处理组与对照组比较而处理组间不进行比较的比较形式。实际上关于这种形式的比较更适用的方法有顿纳特
(Dunnett)法 。
3、因为 LSD法实质上是 t检验,故有人指出其最适宜的比较形式是:在进行试验设计时就确定各处理只是固定的两个两个相比,每个处理平均数在比较中只比较一次。例如,在一个试验中共有 4个处理,
设 计 时 已 确 定 只是处理 1与处理 2、处理 3与处理
4(或 1与 3,2与 4;或 1与 4,2与 3)比较,而 其它的处理间不进行比较。因为这种比较形式实际上不涉及多个均数的极差问题,所以不会增大犯 I型错误的概率。
综上所述,对于多个处理平均数所有可能的两两比较,LSD法的优点在于方法比较简便,克服一般检验法所具有的某些缺点,但是由于没有考虑相互比较的处理平均数依数值大小排列上的秩次,故仍有推断可靠性低、犯 I型错误概率增大的问题。为克服此弊病,统计学家提出了最小显著极差法。
(二 )最小显著极差法
(LSR法,Least significant ranges)
LSR法的特点是把平均数的差数看成是平均数的极差,根据极差范围内所包含的处理数 (称为 秩次距 )k的不同而采用不同的检验尺度,以克服 LSD法的不足。这些在显著水平 α上依秩次距 k的不同而采用的不同的检验尺度叫做 最小显著极差 LSR。
例如有 10 个要相互比较,先将 10个 依其数值大小顺次排列,两极端平均数的差数 (极差 )的显著性,由其差数是否大于秩次距 k=10时的最小显著极差决定 (≥为显著,<为不显著);而后是秩次距 k=9 的平均数的极差的显著性,则由极差是否大于 k=9 时 的最小显著极差决定; …… 直到任何两个相邻平均数的差数的显著性由这些差数是否大于秩次距
k=2 时的最小显著极差决定为止。因此,有 k个平均数相互比较,就有 k-1 种秩次距 (k,k-1,k-2,…,2),因而需求得 k-1个最小显著极差 (LSRα,k),分别作为判断具有相应秩次距的平均数的极差是否显著的标准。
x x
因为 LSR法是一种极差检验法,所以当一个平均数大集合的极差不显著时,其中所包含的各个较小集合极差也应一概作不显著处理。
LSR法克服了 LSD法的不足,但检验的工作量有所增加。常用的 LSR法有 q检验法 和 新复极差法 两种。
1,q检验法 (q test)
此法是以统计量 q的概率分布为基础的。 q值由下式求得:
xSRq /?
式中,R为极差,为标准误,分布依赖于误差自由度 dfe及秩次距 k。
利用 q检验法进行多重比较时,为了简便起见,
不是将由上式算出的 q值与临界 q值 比较,
而是将极差与 比较,从而作出统计推断。
即为 α水平上的最小显著极差。
nMSS ex /?
),( kdfa eq
xkdfa Sq e ),(
xkdfa Sq e ),(
xkdfaka SqL S R e ),(,?
当显著水平 α=0.05和 0.01时,从 附 表 (q值表 )中根据自由度 及 秩 次 距 k 查出 和代入上式得实际利用 q检验法进行多重比较时,可按如下步骤进行:
edf ),(05.0 kdf eq ),(01.0 kdf eq
xkdfk
xkdfk
SqL S R
SqL S R
e
e
),(01.0,01.0
),(05.0,05.0
(1)列出平均数多重比较表 ;
除杂方法 -21.25 -26.4 -26.98 -27.73
A4 28.55 7.30 2.15 1.57 0.82
A2 27.73 6.48 1.33 0.75
A3 26.98 5.73 0.58
A1 26.40 5.15
A5 21.25
ix ix ix ix ix
(2)由自由度 dfe、秩次距 k查临界 q值,计算最小显著极差 LSR0.05,k,LSR0.01,k;
38.14/66.7/ nMSS ex
xkdfk
xkdfk
SqL S R
SqL S R
e
e
),(01.0,01.0
),(05.0,05.0
dfe 秩次距 K q0.05 q0.01 LSR0.05 LSR0.01
15
2 3.01 4.17 4.15 5.76
3 3.67 4.84 5.07 6.68
4 4.08 5.25 5.63 7.25
5 4.37 5.56 6.03 7.67
除杂方法 -21.25 -26.4 -26.98 -27.73
A4 28.55 7.30* 2.15 1.57 0.82
A2 27.73 6.48* 1.33 0.75
A3 26.98 5.73* 0.58
A1 26.40 5.15*
A5 21.25
ix ix ix ix ix
2、新复极差法 (new multiple range method)
此法是由邓肯 (Duncan) 于 1955年提出,故又称 Duncan法,此法还称 SSR法 (shortest significant ranges)。
新复极差法与 q检验法的检验步骤相同,唯一不同的是计算最小显著极差时需查 SSR表而不是查 q值表。最小显著极差计算公式为
xkdfaka SS S RL S R e ),(,?
其中是根据显著水平 α、误差自由度 dfe、
秩次距 k,由 SSR表查得的临界 SSR。 α=0.05
和 α=0.01 水平下 的 最小显著极差为:
nMSS ex /?
xkdfk
xkdfk
SSSRL S R
SSSRL S R
e
e
),(01.0,01.0
),(05.0,05.0
所得的最小显著极差值在秩次距 K>2时比 q检验时小。
df
e
秩次距 K SSR0.05 SSR0.01 LSR0.05 LSR0.01
15
2 3.01 4.17 4.15 5.75
3 3.16 4.37 4.36 6.03
4 3.25 4.50 4.49 6.21
5 3.31 4.58 4.57 6.32
除杂方法 -21.25 -26.4 -26.98 -27.73
A4 28.55 7.30** 2.15 1.57 0.82
A2 27.73 6.48** 1.33 0.75
A3 26.98 5.73* 0.58
A1 26.40 5.15*
A5 21.25
ix ix ix ix ix
除杂方法 -21.25 -26.4 -26.98 -27.73
A4 28.55 7.3** 2.15 1.57 0.82
A2 27.73 6.48** 1.33 0.75
A3 26.98 5.73* 0.58
A1 26.4 5.15*
A5 21.25 LSD
ix ix ix ix ix
除杂方法 -21.25 -26.4 -26.98 -27.73
A4 28.55 7.3* 2.15 1.57 0.82
A2 27.73 6.48* 1.33 0.75
A3 26.98 5.73* 0.58
A1 26.4 5.15*
A5 21.25 q检验
ix ix ix ix ix
除杂方法 -21.25 -26.4 -26.98 -27.73
A4 28.55 7.3** 2.15 1.57 0.82
A2 27.73 6.48** 1.33 0.75
A3 26.98 5.73* 0.58
A1 26.4 5.15*
A5 21.25 Duncan法
ix ix ix ix ix
当各处理重复数不等时,为简便起见,不论
LSD法还是 LSR法,可用下式计算出一个各处理平均的重复数 n0,以代替计算 或 所需的 n。
式中 k为试验的处理数,(i=1,2,…,k)为第 i处理的重复数。
.,ji xxS? xS
i
i
i n
n
n
k
n
2
0 1
1
in
以上介绍的三种多重比较方法,其检验尺度有如下关系:
LSD法 ≤新复极差法 ≤q检验法当秩次距 k=2时,取等号; 秩次距 k ≥3时,取小于号。在多重比较中,LSD法的尺度最小,q检验法尺度最大,新复极差法尺度居中。用上述排列顺序前面方 法检验显著的差数,用后面方法检验未必显著;用后面 方法检验显著的差数,用前面方法检验必然显著。
一般地讲,一个试验资料,究竟采用哪一种多重比较方法,主要应根据否定一个正确的 H0 和接受一个不正确的 H0的相对重要性来决定。如果否定正确的
H0是事关重大或后果严重的,或对试验要求严格时,
用 q检验法较为妥当 ;如果接受一个不正确的 H0是事关重大或后果严重的,则宜用新复极差法。
生物试验中,由于试验误差较大,常采用新复极差法; F检验显著后,为了简便,也可采用 LSD法。
(三 )多重比较结果的表示法各平均数经多重比较后,应以简明的形式将结果表示出来,常用的表示方法有以下两种。
1、三角形表法 此法是将多重比较结果直接标记在平均数多重比较表上。此法的优点是简便直观,缺点是占的篇幅较大。因此,在科技论文中应用较少。
2、标记字母法此法是先将各处理平均数由大到小自上而下排列 ;然后在最大平均数后标记字母 a,
并将该平均数与以下各平均数依次相比,凡差异不显著标记同一字母,直到某一个与其差异显著的平均数标记字母 b ;再以标有字母
b的平均数为标准,与上方比它大的各个平均数比较,凡差异不显著一律再加标 b,直至显著为止;
再以标记有字母 b的最大平均数为标准,与下面各未标记字母的平均数相比,凡差异不显著,
继续标记字母 b,直至某一个与其差异显著的平均数标记 c; …… ;
如此重复下去,直至最小一个平均数被标记、
比较完毕为止。这样,各平均数间凡有一个相同字母的即为差异不显著,凡无相同字母的即为差异显著。
用小写拉丁字母表示显著水平 α=0.05,用大写拉丁字母表示显著水平 α=0.01。
在利用字母标记法表示多重比较结果时,常在三角形法的基础上进行。此法的优点是占篇幅小,在科技文献中常见。
标注方法举例:
除杂方法 0.05 0.01
A4 28.55 a A
A2 27.73 a A
A3 26.98 a AB
A1 26.4 a AB
A5 21.25 b B
ix
除杂方法 -21.25 -26.4 -26.98 -27.73
A4 28.55 7.3** 2.15 1.57 0.82
A2 27.73 6.48** 1.33 0.75
A3 26.98 5.73* 0.58
A1 26.4 5.15*
A5 21.25
ix
dfe 秩次距 K SSR0.05 SSR0.01 LSR0.05 LSR0.01
15
2 3.01 4.17 4.15 5.75
3 3.16 4.37 4.36 6.03
4 3.25 4.50 4.49 6.21
5 3.31 4.58 4.57 6.32
ix ix ix ix
(概念要点 )
1,检验多个总体均值是否相等
通过对各观察数据误差来源的分析来判断多个总体均值是否相等
2、变量
– 一个定类尺度的自变量
2个或多个 (k 个 ) 处理水平或分类
– 一个定距或比例尺度的因变量
3、用于分析完全随机化试验设计什么是方差分析?
(一个例子)
表 8-1 该饮料在五家超市的销售情况超市 无色 粉色 橘黄色 绿色
1
2
3
4
5
26.5
28.7
25.1
29.1
27.2
31.2
28.3
30.8
27.9
29.6
27.9
25.1
28.5
24.2
26.5
30.8
29.6
32.4
31.7
32.8
【 例 8.1】 某饮料生产企业研制出一种新型饮料。饮料的颜色共有四种,
分别为 橘黄色,粉色,绿色 和无色透明。这四种饮料的营养含量、味道
、价格、包装等可能影响销售量的因素全部相同。现从地理位置相似、
经营规模相仿的五家超级市场上收集了前一时期该饮料的销售情况,见表 8-1。试分析饮料的颜色是否对销售量产生影响。
什么是方差分析?
(例子的进一步分析)
① 检验饮料的颜色对销售量是否有影响,也就是检验四种颜色饮料的平均销售量是否相同
② 设?1为无色饮料的平均销售量,?2粉色饮料的平均销售量,?3为橘黄色饮料的平均销售量,
4为绿色饮料的平均销售量,也就是检验下面的假设
① H0,?1234
② H1,?1,?2,?3,?4 不全相等
③ 检验上述假设所采用的方法就是方差分析第一节 概 述一、方差分析的必要性二、方差分析的基本思想三、方差分析的几点基本条件一、方差分析的必要性
t检验法适用于样本平均数与总体平均数及两样本平均数间的差异显著性检验,但在生产和科学研究中经常会遇到比较多个处理优劣的问题,即需进行多个平均数间的差异显著性检验。这时,若仍采用 t检验法就不适宜了。这是因为:
1、对原始资料的利用率很低;
2、破坏了原先的整体设计,将本属于单因素多水平或者多因素设计或重复测量设计割裂成多个单因素二水平的设计;
3.犯假阳性错误的概率大大增加,因为 t检验只能将每次比较时犯假阳性错误的概率控制在规定的显著性水平上(即事先给定的 α值),而多次 t检验之后犯假阳性错误的总概率将随着比较的次数 n的增大而趋向于 1;
4.当实验中同时涉及二个或二个以上处理因素时,
因素之间往往存在不可忽视的交互作用,而 t检验割裂了因素之间的内在联系,无法考察交互作用是否具有显著性意义;
5.由于不同组均数之间比较的 t检验所用的标准误(即公式的分母)在不断改变,t统计量的自由度小
(因为资料的利用率低)。 所以,多次运用 t检验的过程中,评价标准不统一。
综上所述,充分说明用 t检验处理非单因素一、二水平的设计资料是不合适的。
因此对于多个总体样本均值的假设检验,需要用方差分析方法。
二、方差分析的基本思想方差分析 (analysis of variance) 是由英国统计学家
R.A.Fisher于 1923年提出的。
方差分析的实质就是检验多个正态总体均值是否相等。
假设某单因素试验有 k个处理,每个处理有 n次重复,
共有 nk个观测值。这类试验资料的数据模式如表所示。
表中的数据是参差不齐的,数据波动的可能原因来自两个方面:一是由于因素的水平不同,二是来自偶然误差。因素的水平的变化引起的试验数据波动称为条件误差;由随机因素引起的试验数据波动称为随机误差或试验误差。
方差分析就是把试验数据的总波动分解为两部分,
一部分反映由条件误差引起的波动,另一部分反映由试验误差引起的波动。
1,随机误差
在因素的同一水平 (同一个总体 )下,样本的各观察值之间的差异
比如,同一种颜色的饮料在不同超市上的销售量是不同的
不同超市销售量的差异可以看成是随机因素的影响,或者说是由于抽样的随机性所造成的,称为随机误差
2,系统误差
在因素的不同水平 (不同总体 )下,各观察值之间的差异
比如,同一家超市,不同颜色饮料的销售量也是不同的
这种差异 可能 是由于抽样的随机性所造成的,也可能 是由于颜色本身所造成的,后者所形成的误差是由系统性因素造成的,称为 系统误差
1,组内方差
因素的同一水平 (同一个总体 )下样本数据的方差
比如,无色饮料 A1在 5家超市销售数量的方差
组内方差只包含 随机误差
2,组间方差
因素的不同水平 (不同总体 )下各样本之间的方差
比如,A1,A2,A3,A4四种颜色饮料销售量之间的方差
组间方差既包括 随机误差,也包括 系统误差方差分析,就是把数据的总偏差平方和 ST分解为反映必然性的各个因素的偏差平方和( SA,SB,SC,…… )
与反映偶然性的偏差平方和( Se),并计算它们的平均偏差平方和。在将两者进行比较,借助 F检验法,进行假设检验,从而确定因素对试验结果的影响是否显著。
(方差的比较)
1,如果不同颜色 (水平 )对销售量 (结果 )没有影响,那么在组间方差中只包含有随机误差,而没有系统误差 。 这时,组间方差与组内方差就应该很接近,两个方差的比值就会接近 1
2,如果不同的水平对结果有影响,在组间方差中除了包含随机误差外,还会包含有系统误差,这时组间方差就会大于组内方差,组间方差与组内方差的比值就会大于 1
3,当这个比值大到某种程度时,就可以说不同水平之间存在着显著差异三、方差分析的几点基本条件
1、可加性每个处理效应与误差效应是可加的。有了这一假设条件,不同效应才能被分解和最终判断处理效应是否比误差效应更显著。
ijiijx
2、正态性总体的被观察的标志遵从或近似正态分布。试验误差也应服从正态分布的独立随机变量应具备的条件。
3、独立性抽样为重复抽样或抽样比很小的非重复抽样,以保证样本的各单元互不影响,即要求每次进行的随机试验是相互独立的。
4、方差齐性各处理的方差应具备齐性,并具有一个公共总体方差。在我们进行试验中,每个水平下的处理可以看作来自一个正态总体,由于其他条件相对稳定,因此可以认为每个总体的方差是相同的,也即为具有方差齐性。
举 例
1,判断颜色对销售量是否有显著影响,实际上也就是检验具有同方差的四个正态总体的均值是否相等的问题
2,如果四个总体的均值相等,可以期望四个样本的均值也会很接近
四个样本的均值越接近,我们推断四个总体均值相等的证据也就越充分
样本均值越不同,我们推断总体均值不同的证据就越充分如果原假设成立,即 H0,m1 = m2 = m3 = m4
– 四种颜色饮料销售的均值都相等
– 没有系统误差这意味着每个样本都来自均值为、方差为?2的同一正态总体
X
f(X)
1234
如果备择假设成立,即 H1,mi (i=1,2,3,4)不全相等
– 至少有一个总体的均值是不同的
– 有系统误差这意味着四个样本分别来自均值不同的四个正态总体
X
f(X)
3124
第二节 单因素试验方差分析一、单因素方差分析问题的提法二、单因素方差分析的前提条件三、利用 Excel进行单因素方差分析一、单因素方差分析问题的提法假设试验所考察的因素有 k个水平,在每一个水平上重复进行了 n次试验,可得试验数据的模式如下:
根据试验数据判断因素对试验结果是否显著影响。
二、单因素方差分析的前提条件单因素方差分析是建立在以下假说的基础上的:
1、在每一个水平上试验结果是一个随机变量,
且服从正态分布。
2、所有 k个不同水平对应的 k个正态总体的方差是相等的。也就是具有方差齐性。
3,k个总体是相互独立的,样本与样本之间也是相互独立的。
要检验的假设是:假设试验因素不同水平对试验结果没有显著影响,如果拒绝该假设,则认为至少有两个水平之间的差异是显著的,该因素对试验结果有显著影响;反之,如果接受该假设,则认为该因素对试验结果无显著影响,试验结果在各水平之间的不同仅仅是由于随机误差引起的。
三、利用 Excel进行单因素方差分析例:以淀粉为原料生产葡萄糖的过程中,残留有许多糖蜜,
可以作为生产酱色的原料。在生产酱色之前应尽可能除杂,
以保证酱色的质量。为此对除杂方法进行选择。在试验中选用五种不同的除杂方法,每种方法作四次重复,结果见表。请判断除杂方法对试验结果是否显著影响。
除杂方法 除杂量
A1 25.6 22.2 28.0 29.8
A2 24.4 30.0 29.0 27.5
A3 25.0 27.7 23.0 32.2
A4 28.8 28.0 31.5 25.9
A5 20.6 21.2 22.0 21.2
操作步骤:
1、输入数据
2、点击“工具”菜单中的“数据分析”选项,出现下面的对话框。然后选择“方差分析:单因素方差分析”选项,确定。
3、选择对话框中相应的选项,然后确定,可得分析统计结果。
4、对试验结果进行说明如下,a=0.05
a=0.01
结果说明其中表格的第二部分则是方差分析的结果。
SS 列分别给出了四个分组的组间方差、组内方差以及总方差;
DF 列分别给出了对应方差的自由度;
MS列是平均值方差,由 SS 除于 DF 得到,它是总体方差的两个估计值;
F列是 F 统计量的计算结果,它是最终的计算结果,通过将它与一定置信水平下的 F 临界值 F crit 比较,可以判断均值相等的假设是否成立。
P-value 列,是单尾概率值。
P>0.05,不显著; 0.01<P<0.05,显著; P<0.01,极显著 。
从以上的结果分析可知,0.01<P=0.02<0.05,充分说明了,五种除杂方法对试验结果有显著影响。
说明:不同水平下的试验重复次数可以不一样,实际的计算过程有所不同,但是利用 Excel分析的操作方法相同。
【 例 】 为了对几个行业的服务质量进行评价,
消费者协会在零售业,旅游业,航空公司,家电制造业分别抽取了不同的样本,其中零售业抽取 7家,旅游业抽取了 6家,航空公司抽取 5
家,家电制造业抽取了 5家,然后记录了一年中消费者对总共 23家服务企业投诉的次数,结果如表 9.7。 试分析这四个行业的服务质量是否有显著差异? (?= 0.05)
消费者对四个行业的投诉次数观察值
( j )
行业 ( A )
零售业 旅游业 航空公司 家电制造业
1
2
3
4
5
6
7
57
55
46
45
54
53
47
62
49
60
54
56
55
51
49
48
55
47
70
68
63
69
60
第三节 双因素试验方差分析一、双因素无重复试验方差分析二、双因素等重复试验方差分析双因素试验资料的方差分析是指对试验指标同时受到两个试验因素作用的试验资料的方差分析。它的基本思想和方法与单因素试验方差分析相似,前提条件仍然是要满足 独立、方差齐性、正态 。所不同的是在双因素实验中,有可能出现交互作用。按照是否进行重复试验,
双因素方差分析又分为两种,下面分别给予介绍。
一、双因素无重复试验方差分析
1、问题的提法设试验考察 A,B两个因素,A因素分 a个水平,B因素分 b个水平。两者交叉搭配形成 ab
个水平组合即处理,试验因素 A,B在试验中处于平等地位。对于 A,B两个试验因素的全部 ab
个水平组合,每个水平组合只有一个观测值,
全试验共有 ab个观测值,其数据模式如表所示。
两因素单独观测值试验资料的数学模型为:
μ为总平均数;
),,2,1;,,2,1( bjai
x ijljiijl
αi,βj分别为 Ai,Bj的效应;
αi=μi-μ,βj=μj-μ;
μi,μj分别为 Ai,Bj观测值总体平均数,
且 Σαi=0,Σβj=0;
εijl为随机误差,相互独立,且服从 N(0,σ2)。
要求分别检验 A,B两个因素对试验结果有无显著影响。
假设:因素 A对试验结果无显著影响;
因素 B对试验结果无显著影响。
然后计算方差,进行显著性检验。
下面举例介绍用 Excel来进行双因素无重复试验方差分析。
2,Excel在双因素无重复试验方差分析上的应用例:酿造厂有化验员三人,担任发酵粉颗粒检验,
每天从发酵粉中抽样一次进行检验,连续 10天的检验结果见表。试以显著性水平 a=0.05检验三名化验员的化验技术有无显著差异(假设颗粒百分率服从正态分布,方差齐性),以及每天的颗粒百分率间有无显著差异。
日 期化验员 B1 B2 B3 B4 B5 B6 B7 B8 B9 B10
A1 10.10 4.70 3.10 3.00 7.80 8.20 7.80 6.00 4.90 3.40
A2 10.00 4.90 3.10 3.20 7.80 8.20 7.70 6.20 5.10 3.40
A3 10.20 4.80 3.00 3.10 7.80 8.40 7.90 6.10 5.00 3.30
操作步骤:
1、输入数据
2、点击“工具”菜单中的“数据分析”选项,出现下面的对话框。然后选择“方差分析:无重复双因素分析”选项,
确定。
3、选择对话框中相应的选项,然后确定,可得分析统计结果。
4、对试验结果进行说明如下:
a=0.05
a=0.01
结果说明其中表格的第二部分则是方差分析的结果。
SS 列分别给出了行方差、列方差、误差方差以及总方差;
DF 列分别给出了对应方差的自由度;
MS列是平均值方差,由 SS 除于 DF 得到,它是总体方差的两个估计值;
F列是 F 统计量的计算结果,它是最终的计算结果,通过将它与一定置信水平下的 F 临界值 F crit 比较,可以判断假设是否成立;
P-value 列,是单尾概率值。
P>0.05,不显著; 0.01<P<0.05,显著; P<0.01,极显著 。
从本例的计算结果可以看出:
对于行与行之间(也就是化验员之间)对试验结果没有显著影响( P=0.23>0.05);
而列与列之间(即日期之间)对试验结果有极显著影响( P=0.00<0.01)。
不同品牌的彩电在各地区的销售量数据品牌
(因素 A)
销售地区 ( 因素 B )
B1 B2 B3 B4 B5
A1
A2
A3
A4
365
345
358
288
350
368
323
280
343
363
353
298
340
330
343
260
323
333
308
298
【 例 】 有四个品牌的彩电在五个地区销售,为分析彩电的品牌 (因素 A)和销售地区 (因素 B)对销售量是否有影响,对每个品牌在各地区的销售量取得以下数据,见下表 。 试分析品牌和销售地区对彩电的销售量是否有显著影响?
二、双因素等重复试验方差分析在进行两因素或多因素的试验时,除了研究每一因素对试验指标的影响外,往往更希望研究因素之间的交互作用。若两因素间有交互作用,则每个水平组合中只设一个试验单位 (观察单位 )的试验设计是不正确的或不完善的。进行两因素或多因素试验时,一般应设置重复,以便正确估计试验误差,深入研究因素间的交互作用。
设 A与 B两因素分别具有 a与 b个水平,共有
ab个水平组合,每个水平组合有 n次重复,则全试验共有 abn个观测值。这类试验结果的数据模式如表所示。
1、问题的提法两因素有重复观测值试验资料的数学模型为,
其中,为总平均数;
αi为 Ai的效应;
βj为 Bj的效应;
(αβ) ij为 Ai与 Bj的互作效应,
),,2,,1;,,2,1;,,2,1(
)(
nlbjai
x ijlijjiijl
,0)()()(,0,0
1 1 1 11 1
n
i
b
j
a
i
b
j
ijijij
a
i
b
j
ji
jiij
jiijij
..
)()()()(
分别为 Ai,Bj,Ai Bj观测值总体平均数;且
ijji,,
为随机误差,相互独立,且都服从 N(0,
σ2)。
ijl?
要求分别检验 A,B及其交互作用 A× B因素对试验结果有无显著影响。
假设:因素 A对试验结果无显著影响;
因素 B对试验结果无显著影响 ;
交互作用 A× B对试验结果无显著影响。
然后计算方差,进行显著性检验。
下面举例介绍用 Excel来进行双因素等重复试验方差分析。
2,Excel在双因素等重复试验方差分析上的应用例:用三种压力( B1,B2,B3)和四种温度( A1、
A2,A3,A4 )组成几种试验方案,得到产品得率资料如表。试分析压力和温度以及它们的交互作用对产品得率有无显著影响( a=0.05)。
温度
A1 A2 A3 A4
压力
B1
52 48 34 45
43 37 42 58
39 39 38 42
B2
41 50 36 44
47 41 39 46
53 30 44 60
B3
49 36 37 43
38 48 40 56
42 47 32 41
操作步骤:
1、输入数据(注意,数据的输入格式,重复只能输入在列上 )
2、点击“工具”菜单中的“数据分析”选项,出现下面的对话框。然后选择“方差分析:可重复双因素分析”选项,
确定。
3、选择对话框中相应的选项,然后确定,可得分析统计结果。
4、对试验结果进行说明如下:
a=0.05
a=0.01
结果说明其中表格的第五部分则是方差分析的结果。
SS 列分别给出了行方差、列方差、交互作用方差、误差方差以及总方差;
DF 列分别给出了对应方差的自由度;
MS列是平均值方差,由 SS 除于 DF 得到,它是总体方差的两个估计值;
F列是 F 统计量的计算结果,它是最终的计算结果,通过将它与一定置信水平下的 F 临界值 F crit 比较,可以判断假设是否成立;
P-value 列,是单尾概率值。
P>0.05,不显著; 0.01<P<0.05,显著; P<0.01,极显著 。
从本例的计算结果可以看出:
对于行与行之间(也就是压力)对试验结果没有显著影响( P=0.80>0.05);
而列与列之间(即温度)对试验结果有显著影响
( 0.01<P=0.02<0.05);
两个因素之间的交互作用对试验结果无显著影响
( P=0.97>0.05)。
第四节 多重比较
F值显著或极显著,否定了无效假设 HO,表明试验的总变异主要来源于处理间的变异,试验中各处理平均数间存在显著或极显著差异,但并不意味着每两个处理平均数间的差异都显著或极显著,也不能具体说明哪些处理平均数间有显著或极显著差异,哪些差异不显著。
因而,有必要进行两两处理平均数间的比较,
以具体判断两两处理平均数间的差异显著性。
统计上把多个平均数两两间的相互比较称为多重比较 (multiple comparisons)。
多重比较的方法甚多,常用的有 最小显著差数法 (LSD法 )和 最小显著极差法 (LSR法 ),现分别介绍如下。
(一)最小显著差数法
(LSD法,least significant difference)
此法的基本作法是,在 F检验显著的 前提下,先计算出显著水平为 α的最小显著差数,然后将任意两个处理平均数的差数的绝对值 与其比较。
LSD
.,ji xx?
若 > LSDα时,则 与 在 α水平上差异显著;反之,则在 α水平上差异不显著。最小显著差数的计算如下:
式中,为在 F检验中误差自由度下,显著水平为 α的临界 t值,为 均数差异标准误,
计算如下:
.,ji xx?,ix,jx
)( edft?
.,ji xxS?
nMSS exx ji /2.,
..)( jie xxdfaa StL S D
其中 为 F检验中的误差均方,n为各处理的重复数。
当显著水平 α=0.05和 0.01时,从 t 值表中查出和,代入式中:
利用 LSD法进行多重比较时,可按如下步骤进行:
(1) 列出平均数的多重比较表 比较表中各处理按其平均数从大到小自上而下排列;
eMS
)(05.0 edft )(01.0
edft
..
..
)(01.001.0
)(05.005.0
jie
jie
xxdf
xxdf
StL S D
StL S D
除杂方法 -21.25 -26.4 -26.98 -27.73
A4 28.55 7.30 2.15 1.57 0.82
A2 27.73 6.48 1.33 0.75
A3 26.98 5.73 0.58
A1 26.4 5.15
A5 21.25
ix ix ix ix ix
(2)计算最小显著差数 和 ;
05.0LSD 01.0LSD
..
..
)(01.001.0
)(05.005.0
jie
jie
xxdf
xxdf
StL S D
StL S D
nMSS exx ji /2., 83.34/66.72., ji xxS
78.596.19 4 7.2
19.496.11 3 1.2
01.0
05.0
LS D
LS D
(3)将平均数多重比较表中两两平均数的差数与,比较,作出统计推断。19.4
05.0?L S D 78.501.0?L S D
除杂方法 -21.25 -26.4 -26.98 -27.73
A4 28.55 7.30** 2.15 1.57 0.82
A2 27.73 6.48** 1.33 0.75
A3 26.98 5.73* 0.58
A1 26.40 5.15*
A5 21.25
ix ix ix ix ix
小于 者不显著,在差数的右上方标记
,ns”,或不标记符号;
介于 与 之间者显著,在差数的右上方标记,*”;
大于 者极显著,在差数的右上方标记
,**”。
05.0LSD
05.0LSD
01.0LSD
01.0LSD
关于 LSD 法的应用有以下几点说明:
1,LSD 法实质上就是 t 检验法。 它是将 t 检验中由所求得的 t之绝对值 与临界 ta 值的比较转为将各对均数差值的绝对值 与最小显著差数 的比较而作出统计推断的 。 但是,由于 LSD法是利用 F检验中的误差自由度 df e 查 临界 tα值,利用误差均方 计算均数差异标 准误,因而法又不同于每次利用两组数据进行多个平 均数两两比较的检验法 。它解决了本章开头指出的 检 验 法检验过程烦琐,无统一的试验误差且估计误差的精确性和检验的灵敏性低这两个问题。但 法并未解决推断的可靠性降低、犯 I型错误的概率变大的问题。
)/)((,..,ji xxji Sxxt
.,ji xx?
.,ji xxa St?
eMS
.,ji xxS?
LSD
2、有人提出,与检验任何两个均数间的差异相 比较,LSD法适用于各处理组与对照组比较而处理组间不进行比较的比较形式。实际上关于这种形式的比较更适用的方法有顿纳特
(Dunnett)法 。
3、因为 LSD法实质上是 t检验,故有人指出其最适宜的比较形式是:在进行试验设计时就确定各处理只是固定的两个两个相比,每个处理平均数在比较中只比较一次。例如,在一个试验中共有 4个处理,
设 计 时 已 确 定 只是处理 1与处理 2、处理 3与处理
4(或 1与 3,2与 4;或 1与 4,2与 3)比较,而 其它的处理间不进行比较。因为这种比较形式实际上不涉及多个均数的极差问题,所以不会增大犯 I型错误的概率。
综上所述,对于多个处理平均数所有可能的两两比较,LSD法的优点在于方法比较简便,克服一般检验法所具有的某些缺点,但是由于没有考虑相互比较的处理平均数依数值大小排列上的秩次,故仍有推断可靠性低、犯 I型错误概率增大的问题。为克服此弊病,统计学家提出了最小显著极差法。
(二 )最小显著极差法
(LSR法,Least significant ranges)
LSR法的特点是把平均数的差数看成是平均数的极差,根据极差范围内所包含的处理数 (称为 秩次距 )k的不同而采用不同的检验尺度,以克服 LSD法的不足。这些在显著水平 α上依秩次距 k的不同而采用的不同的检验尺度叫做 最小显著极差 LSR。
例如有 10 个要相互比较,先将 10个 依其数值大小顺次排列,两极端平均数的差数 (极差 )的显著性,由其差数是否大于秩次距 k=10时的最小显著极差决定 (≥为显著,<为不显著);而后是秩次距 k=9 的平均数的极差的显著性,则由极差是否大于 k=9 时 的最小显著极差决定; …… 直到任何两个相邻平均数的差数的显著性由这些差数是否大于秩次距
k=2 时的最小显著极差决定为止。因此,有 k个平均数相互比较,就有 k-1 种秩次距 (k,k-1,k-2,…,2),因而需求得 k-1个最小显著极差 (LSRα,k),分别作为判断具有相应秩次距的平均数的极差是否显著的标准。
x x
因为 LSR法是一种极差检验法,所以当一个平均数大集合的极差不显著时,其中所包含的各个较小集合极差也应一概作不显著处理。
LSR法克服了 LSD法的不足,但检验的工作量有所增加。常用的 LSR法有 q检验法 和 新复极差法 两种。
1,q检验法 (q test)
此法是以统计量 q的概率分布为基础的。 q值由下式求得:
xSRq /?
式中,R为极差,为标准误,分布依赖于误差自由度 dfe及秩次距 k。
利用 q检验法进行多重比较时,为了简便起见,
不是将由上式算出的 q值与临界 q值 比较,
而是将极差与 比较,从而作出统计推断。
即为 α水平上的最小显著极差。
nMSS ex /?
),( kdfa eq
xkdfa Sq e ),(
xkdfa Sq e ),(
xkdfaka SqL S R e ),(,?
当显著水平 α=0.05和 0.01时,从 附 表 (q值表 )中根据自由度 及 秩 次 距 k 查出 和代入上式得实际利用 q检验法进行多重比较时,可按如下步骤进行:
edf ),(05.0 kdf eq ),(01.0 kdf eq
xkdfk
xkdfk
SqL S R
SqL S R
e
e
),(01.0,01.0
),(05.0,05.0
(1)列出平均数多重比较表 ;
除杂方法 -21.25 -26.4 -26.98 -27.73
A4 28.55 7.30 2.15 1.57 0.82
A2 27.73 6.48 1.33 0.75
A3 26.98 5.73 0.58
A1 26.40 5.15
A5 21.25
ix ix ix ix ix
(2)由自由度 dfe、秩次距 k查临界 q值,计算最小显著极差 LSR0.05,k,LSR0.01,k;
38.14/66.7/ nMSS ex
xkdfk
xkdfk
SqL S R
SqL S R
e
e
),(01.0,01.0
),(05.0,05.0
dfe 秩次距 K q0.05 q0.01 LSR0.05 LSR0.01
15
2 3.01 4.17 4.15 5.76
3 3.67 4.84 5.07 6.68
4 4.08 5.25 5.63 7.25
5 4.37 5.56 6.03 7.67
除杂方法 -21.25 -26.4 -26.98 -27.73
A4 28.55 7.30* 2.15 1.57 0.82
A2 27.73 6.48* 1.33 0.75
A3 26.98 5.73* 0.58
A1 26.40 5.15*
A5 21.25
ix ix ix ix ix
2、新复极差法 (new multiple range method)
此法是由邓肯 (Duncan) 于 1955年提出,故又称 Duncan法,此法还称 SSR法 (shortest significant ranges)。
新复极差法与 q检验法的检验步骤相同,唯一不同的是计算最小显著极差时需查 SSR表而不是查 q值表。最小显著极差计算公式为
xkdfaka SS S RL S R e ),(,?
其中是根据显著水平 α、误差自由度 dfe、
秩次距 k,由 SSR表查得的临界 SSR。 α=0.05
和 α=0.01 水平下 的 最小显著极差为:
nMSS ex /?
xkdfk
xkdfk
SSSRL S R
SSSRL S R
e
e
),(01.0,01.0
),(05.0,05.0
所得的最小显著极差值在秩次距 K>2时比 q检验时小。
df
e
秩次距 K SSR0.05 SSR0.01 LSR0.05 LSR0.01
15
2 3.01 4.17 4.15 5.75
3 3.16 4.37 4.36 6.03
4 3.25 4.50 4.49 6.21
5 3.31 4.58 4.57 6.32
除杂方法 -21.25 -26.4 -26.98 -27.73
A4 28.55 7.30** 2.15 1.57 0.82
A2 27.73 6.48** 1.33 0.75
A3 26.98 5.73* 0.58
A1 26.40 5.15*
A5 21.25
ix ix ix ix ix
除杂方法 -21.25 -26.4 -26.98 -27.73
A4 28.55 7.3** 2.15 1.57 0.82
A2 27.73 6.48** 1.33 0.75
A3 26.98 5.73* 0.58
A1 26.4 5.15*
A5 21.25 LSD
ix ix ix ix ix
除杂方法 -21.25 -26.4 -26.98 -27.73
A4 28.55 7.3* 2.15 1.57 0.82
A2 27.73 6.48* 1.33 0.75
A3 26.98 5.73* 0.58
A1 26.4 5.15*
A5 21.25 q检验
ix ix ix ix ix
除杂方法 -21.25 -26.4 -26.98 -27.73
A4 28.55 7.3** 2.15 1.57 0.82
A2 27.73 6.48** 1.33 0.75
A3 26.98 5.73* 0.58
A1 26.4 5.15*
A5 21.25 Duncan法
ix ix ix ix ix
当各处理重复数不等时,为简便起见,不论
LSD法还是 LSR法,可用下式计算出一个各处理平均的重复数 n0,以代替计算 或 所需的 n。
式中 k为试验的处理数,(i=1,2,…,k)为第 i处理的重复数。
.,ji xxS? xS
i
i
i n
n
n
k
n
2
0 1
1
in
以上介绍的三种多重比较方法,其检验尺度有如下关系:
LSD法 ≤新复极差法 ≤q检验法当秩次距 k=2时,取等号; 秩次距 k ≥3时,取小于号。在多重比较中,LSD法的尺度最小,q检验法尺度最大,新复极差法尺度居中。用上述排列顺序前面方 法检验显著的差数,用后面方法检验未必显著;用后面 方法检验显著的差数,用前面方法检验必然显著。
一般地讲,一个试验资料,究竟采用哪一种多重比较方法,主要应根据否定一个正确的 H0 和接受一个不正确的 H0的相对重要性来决定。如果否定正确的
H0是事关重大或后果严重的,或对试验要求严格时,
用 q检验法较为妥当 ;如果接受一个不正确的 H0是事关重大或后果严重的,则宜用新复极差法。
生物试验中,由于试验误差较大,常采用新复极差法; F检验显著后,为了简便,也可采用 LSD法。
(三 )多重比较结果的表示法各平均数经多重比较后,应以简明的形式将结果表示出来,常用的表示方法有以下两种。
1、三角形表法 此法是将多重比较结果直接标记在平均数多重比较表上。此法的优点是简便直观,缺点是占的篇幅较大。因此,在科技论文中应用较少。
2、标记字母法此法是先将各处理平均数由大到小自上而下排列 ;然后在最大平均数后标记字母 a,
并将该平均数与以下各平均数依次相比,凡差异不显著标记同一字母,直到某一个与其差异显著的平均数标记字母 b ;再以标有字母
b的平均数为标准,与上方比它大的各个平均数比较,凡差异不显著一律再加标 b,直至显著为止;
再以标记有字母 b的最大平均数为标准,与下面各未标记字母的平均数相比,凡差异不显著,
继续标记字母 b,直至某一个与其差异显著的平均数标记 c; …… ;
如此重复下去,直至最小一个平均数被标记、
比较完毕为止。这样,各平均数间凡有一个相同字母的即为差异不显著,凡无相同字母的即为差异显著。
用小写拉丁字母表示显著水平 α=0.05,用大写拉丁字母表示显著水平 α=0.01。
在利用字母标记法表示多重比较结果时,常在三角形法的基础上进行。此法的优点是占篇幅小,在科技文献中常见。
标注方法举例:
除杂方法 0.05 0.01
A4 28.55 a A
A2 27.73 a A
A3 26.98 a AB
A1 26.4 a AB
A5 21.25 b B
ix
除杂方法 -21.25 -26.4 -26.98 -27.73
A4 28.55 7.3** 2.15 1.57 0.82
A2 27.73 6.48** 1.33 0.75
A3 26.98 5.73* 0.58
A1 26.4 5.15*
A5 21.25
ix
dfe 秩次距 K SSR0.05 SSR0.01 LSR0.05 LSR0.01
15
2 3.01 4.17 4.15 5.75
3 3.16 4.37 4.36 6.03
4 3.25 4.50 4.49 6.21
5 3.31 4.58 4.57 6.32
ix ix ix ix