第八章 方差分析与回归分析
第一节 单因素试验的方差分析
在科学试验、生产实践和社会生活中,影响一个事件的因素往往很多。例如,在工业生产中,产品的质量往往受到原材料、设备、技术及员工素质等因素的影响;又如,在工作中,影响个人收入的因素也是多方面的,除了学历、专业、工作时间、性别等方面外,还受到个人能力、经历及机遇等偶然因素的影响,虽然在这众多因素中,每一个因素的改变都可能影响最终的结果,但有些因素影响较大,有些因素影响较小,故在实际问题中,就有必要找出对事件最终结果有显著影响的那些因素,方差分析就是根据试验的结果进行分析,通过建立数学模型,鉴别各个因素影响效应的一种有效方法.
分布图示
★ 引言 ★ 基本概念
★ 例1 ★ 例2
★ 假设前提 ★ 方差分析的任务
★ 偏差平方和及其分解
★ 和的统计特性
★ 检验方法
★ 例3 ★ 例4
★ 习题8-1
★ 返回
内容要点一、基本概念在方差分析中,我们将要考察的对象的某种特征称为试验指标,影响试验指标的条件称为因素,因素可分为两类,一类是人们可以控制的(如上例的原材料、设备、学历、专业等因素);另一类人们无法控制的(如上例中员工素质与机遇等因素).
今后,我们所讨论的因素都是指可控制因素。因素所处的状态,称为该因素的水平,如果在一项试验中只有一个因素在改变,则称为单因素试验;如果多于一个因素在改变,则称为多因素试验,为方便起见,今后用大写字母等表示因素,用大写字母加下标表示该因素的水平,如等.
二、假设前提设单因素A具有r个水平,分别记为在每个水平下,要考察的指标可以看成一个总体,故有个总体,并假设:
(1) 每个总体均服从正态分布;
(2) 每个总体的方差相同;
从每个总体中抽取的样本相互独立.
那么,要比较各个总体的均值是否一致,就是要检验各个总体的均值是否相等,设第个总体的均值为,则假设检验为 
备择假设为 
通常备择假设可以不写.
在水平下,进行次独立试验,得到试验数据为记数据的总个数为n =
由假设有 (和未知),即有~故可视为随机误差.记=,从而得到如下数学模型:
 (1)
方差分析的任务:
1) 检验该模型中r个总体的均值是否相等;
2) 作出未知参数,的估计.
为了更仔细地描述数据,常在方差分析中引入总平均和效应的概念,称各均值的加权平均

为总平均,其中n= 再引入

表示在水平下总体的均值与总平均的差异,称其为因子的第个水平的效应,易见,效应间有如下关系式:

利用上述记号,前述数学模型可改写为
 (2)
而前述检验假设则等价于:

三、偏差平方和及其分解
为了使造成各之间的差异的大小能定量表示出来,我们先引入:
记在水平下数据和记为,,其样本均值为=因素A下的所有水平的样本总均值为
==,
为了通过分析对比产生样本
,,
之间差异性的原因,从而确定因素A的影响是否显著,我们引入偏差平方和来度量各个体间的差异程度:
 (3)
能反映全部试验数据之间的差异,又称为总偏差平方和.
如果成立,则个总体间无显著差异,也就是说因素对指标没有显著影响,所有的可以认为来自同一个总体,各个间的差异只是由随机因素引起的。若不成立,则在总偏差中,除随机因素引起的差异外,还包括由因素的不同水平的作用而产生的差异,如果不同水平作用产生的差异比随机因素引起的差异大的多,就认为因素对指标有显著影响,否则,认为无显著影响,为此,可将总偏差中的这两种差异分开,然后进行比较。

 (4)
其中 
反映在每个水平下的样本均值与样本总均值的差异,它是由因素A取不同水平引起的,称为组间(偏差)平方和,也称为因素A的偏差平方和.
表示在水平下样本值与该水平下的样本均值之间的差异,它是由随机误差引起的,称为误差(偏差)平方和,也称为组内(偏差)平方和.
等式称为平方和分解式,事实上
==
=+
根据和的定义知
,
所以
==
四、与的统计特性
如果成立,则所有的都服从正态分布,且相互独立,由第五章第三节的定理,可以证明:
1) 
2) ~,且  所以为的无不偏估计.
3) ~,且,因此为的无偏估计.
4) 相互独立.
五、检验方法
如果组间差异比组内差异大的多,即说明因素的各水平间有显著差异,个总体不能认为是同一个正态总体,应认为不成立,此时,比值有偏大的趋势,为此,选用统计量
=
在为真时,有
F =~ F
对给定的检验水平,查的值,由样本观察值计算,,从而计算出统计量F的观察值,由于不真时,值偏大,导致F值偏大,因此,
1) 若F>时,拒绝,表示因素A的各水平下的效应有显著差异;
2) 若F<时,则接受,表示因素A的各水平下的效应无显著差异.
实际分析中,常采用如下简便算法和记号:
, =
=,=,=
为表达的方便和直观,将上面的分析过程和结果制成一个表格,称这个表为单因素方差分析表:
表8-1B单因素方差分析表

例题选讲例1 (E01) 设有三台机器,用来生产规格相同的铝合金薄板.取样,测量薄板的厚度精确至千分之一厘米,得结果如下表所示.
铝合金板的厚度机器Ⅰ
机器Ⅱ
机器Ⅲ
0.236
0.257
0.258
0.238
0.253
0.264
0.248
0.255
0.259
0.245
0.254
0.267
0.243
0.261
0.262
这里,试验的指标是薄板的厚度,机器为因素,不同的三台机器就是这个因素的三个不同的水平,如果假定除机器这一因素外,材料的规格、操作人员的水平等其它条件都相同,这就是单因素试验,试验的目的是为了考察各台机器所生产的薄板的厚度有无显著的差异,即考察机器这一因素对厚度有无显著的影响,如果厚度有显著差异,就表明机器这一因素对厚度的影响是显著的.
例2 (E02) 某食品公司对一种食品设计了四种新包装,为了考察哪种包装最受欢迎,选了十个有近似相同销售量的商店作试验,其中两种包装各指定两个商店销售,另两种包装各指定三个商店销售,在试验期中各商店的货架排放位置、空间都尽量一致,营业员的促销方法也基本相同,观察在一定时期的销售量,数据如下表所示:
销售量包装
商店
商店数
1
2
3

12
18
2

14
12
13
3

19
17
21
3

24
30
2
在本例中,我们要比较的是四种包装的销售量是否一致,为此把包装类型看成是一个因子,记为因子A,它有四种不同的包装,就看成是因子A的四个水平,记为.一般将第种包装在第个商店的销售量记为
 (在本例中,).
由于商店间的差异已被控制在最小的范围内,因此一种包装在不同商店里的销售量被看作为一种包装的若干次重复观察,所以可以把一种包装看作一个总体,为比较四种包装的销售量是否相同,相当于要比较的四个总体的均值是否一致,简化起见,需要给出若干假定,把所要回答的问题归结为下个统计问题,然后设法解决它.
例3 (E03) 在例1 中,检验假设()
不全相等.
解 这里



的自由度依次为  得方差分析表如下:
方差来源
平方和
自由度
均方和
比





总和
0.00124533
14
因 故在水平下拒绝 认为各台机器生产的薄板厚度有显著的差异.
例4 (E04) 在例2 中,检验假设()
不全相等.
解 这里   
    


的自由度依次为    得方差分析如下:
方差来源
平方和
自由度
均方和
F值
因素
误差
258
46
3
6
86
7.67

总和
304
9
因 故在水平下拒绝,即认为四种包装的销售量有显著差异,这说明不同包装受欢迎的程度不同.