第六章 试验设计与方差分析
一、试验设计初步。
????1 、试验及其模型;
????2 、处理设计:单因素试验、多因素试验;
????3 、试验误差:系统误差、随机误差、错失误差;
????4 、试验的排列:设置重复、随机化、区组化、拉丁方试验。
二、方差分析 —ANOVA
????方差分析( analysis of variance , ANOVA )
????在研究一个变量时,能够解决多个总体的均值是否相等的检验问题;
????在研究多个变量对不同总体的影响时,它也是分析各个自变量对因变量影响的一种方法。
????1 .方差分析的内容
????首先我们对多个总体均值是否相等这一假设进行检验。
????例 6.1
????某饮料生产企业研制出一种新型饮料 . 饮料的颜色共有四种 : 橘黄色、粉色、绿色和无色透明。这四种饮料的营养含量、味道、价格、包装等可能影响销售量的因素全部相同。现从地理位置相似、经营规模相仿的五家超市上收集了该种饮料的销售情况。
????该饮料在五家超市的销售情况:
超市
无色
粉色
橘黄色
绿色
1
2
3
4
5
26.5
28.7
25.1
29.1
27.2
31.2
28.3
30.8
27.9
29.6
27.9
25.1
28.5
24.2
26.5
30.8
29.6
32.4
31.7
32.8
均值
27.32
29.56
26.44
31.46
????进行方差分析:
????问题:饮料的颜色是否对销售量产生影响?
????在其他条件相同的情况下,上述问题就归结为一个检验问题,即:检验饮料颜色对销售量是否有影响?
????即:
????2 .方差分析的原理
????从方差分析的目的看,是要检验四种颜色的饮料的销售均值是否相等,我们可用方差比较的方法来判断。
????首先,四种颜色的销售情况可看作为分为四个组:
颜色
组内平均数
组内平方和 SSA
组间平方和 SSE
无色
27.32
10.688
?
?
76.8455
粉色
29.56
8.572
橘黄色
26.44
13.192
绿色
31.46
6.632
合计
-
39.084
总平方和 SST
????由此可知:差异的产生来自两个方面:
????一方面是由不同颜色的差异造成的,既不同的饮料颜色对销售量产生了影响
????另一方面是由于抽选样本的随机性而产生的差异,即各颜色内的随机误差,如相同颜色的饮料在不同的商场销售量也不同。
????这两个方面产生的差异可以用两个方差来计量:
????一个称为水平之间(组间)方差 ( 组间平方和除以自由度 (r-1) , r 为组数 ) ,一个称为水平内部(组内)方差(组内平方和除以自由度( n-1) , n 为样本容量总数)。
????水平之间的方差既包括系统性因素,也包括随机性因素;水平内部方差仅包括随机性因素。如果不同的水平(饮料颜色)对结果没有影响,那么在水平之间的方差中,就仅仅有随机因素的差异,而没有系统性差异,它与水平内部方差就应该近似,从而应有:
????即,两个方差的比值就会接近于 1 。反之,水平之间的方差就会大于水平内的方差,当这个比值达到某个程度,或者说达到某临界点,就可做出判断,既不同的水平之间存在着显著差异。
????因此,方差分析就是通过不同方差的比价,做出拒绝原假设或不能拒绝原假设的判断。
????水平间的方差和水平内方差之比是一个统计量,这个统计量服从 F 分布:
?
????3 .方差分析的种类
????分析多个变量时,称为多元方差分析 Multivariate
????4 .应用方差分析的条件
????各组的观察数据,要看作是从服从正态分布的总体随机抽取的样本;
????各组的观察数据,是从具有相同方差的相互独立的总体中抽取得到的。
三、一元单因素方差分析
????例 6.1 中有一个变量和一个因素,即:变量 dependent variable :饮料的销售量;因素 factor :饮料的颜色。
????用 Spss 处理数据:
????Spss 数据:饮料的颜色
????Spss 选项: Analyze — Compare Mean — One-Way ANOVA
????SPSS 输出结果:
?
???SPSS 单因素方差分析的进一步分析
????Spss 单因素方差分析的前提检验
????由于方差分析的前提是各水平下的总体服从方差相等的正态分布。其中,正态分布的要求不是很严格,但对于方差相等的要求是比较严格的,因此,我们有必要对方差分析的前提进行检验。检验的方法是: Homogeneity-of -variance
????Spss 选项:在 One-Way ANOVA 中选择 Option ,选定 Homogeneity-of –variance 即可。
????Spss 输出结果:
???Spss 单因素方差分析的多重比较检验
????通过上面的检验,我们只能判断控制变量的不同水平是否对观察变量产生了显著影响。我们还想进一步了解:究竟是哪一个水平对观察变量产生了显著影响,即那种颜色的饮料对销售量有显著影响。这就是单因素方差分析的多重比较检验。检验结果输出如下:
四、一元多因素方差分析。
????1 、只考虑主效应的方差分析;
????2 、考虑交互效应的方差分析;
????3 、考虑多变量的方差分析;
????4 、协方差分析。
????例 6.2
????某商家有如下的数据,研究这个问题的主要目的是看销售额是否受到促销方式、售后服务和奖金这三个自变量的影响,以及怎样的影响。
????Dependent variable 因变量:销售额
????Factor 因素:促销方式、售后服务
????Covariate 协变量:奖金
????数据文件: Sales.sav
???当有两个或两个以上因素,进行方差分析时,不仅要考虑每个因素的主效应,往往还要考虑因素与因素之间的交互效应。
????主效应就是每个因素对因变量的单独影响,而交互效应是当两个或更多的因素的某些水平同时出现时除了主效应之外的附加影响。
????1 .只考虑主效应的方差分析
????首先假定自变量受到的仅仅有不同因素的主效应( main effect )而没有交互效应( interaction )和协变量的影响。
????即:
????因变量 = 因素 A 主效应 + 因素 B 的主效应 + 随机误差项
????销售额 = 促销方式 + 售后服务 + 随机误差项
????以例 6.2 来说,当只考虑主效应时,假定主动促销比被动促销可以多产生 8 万元效益,而有售后服务比没有售后服务多产生 9 万元效益。那么在没有交互作用时,同时采取主动促销和售后服务会产生 8 + 9 = 17 万元的效益(称为可加的)。
????但如果存在交互效应,那么同时采取主动促销和售后服务会产生一个附加的效应即交互效应(一般来说也可能是正面的,也可能是负面的),这时的总效应就不是 17 万元了。
????用 Spss 处理数据:
????Spss 选项: Analyze— Gereral Linear Model — Univariate
????选择效应分析: Model— custom— Main effect
???Spss 主效应输出结果:
???没有交互作用的模型可以从下面点图中直观看出。图中下面一条折线连接了没有售后服务时三种促销状况的销售均值,而上面一条连接了有售后服务时三种促销状况的销售均值。由于模型选择为无交互作用,所以这两条线是平行的。从该图可以看出,两个因子效应综合效应是简单的加法。
?
????2 .考虑交互效应的方差分析
????考虑交互效应的方差分析为:
????因变量 = 因素 A 主效应 + 因素 B 的主效应 + 因素 A 与 B 的交互效应 + 随机误差
????即:
????销售额 = 促销方式 + 售后服务 + 促销方式与售后服务的交互效应 + 随机误差项
????用 Spss 处理数据:
????SPSS 选项: Model— Custom ,
??? 在 Build Terms 中选择 Interaction ,先把 promot(F) 和 service(F) 选入 Model ,再把 promot(F) 和 service(F) 同时选入 Model (出现 “promot*service” );
????SPSS 输出结果:
????方差分析表的意义:
????图示:
????3 .考虑协变量的多因素方差分析
????在进行方差分析时,要求控制变量(因素)是可控的,但实际中,有些因素的不同水平很难人为控制,但他们确确实实对观测变量产生显著的影响。在方差分析中如果忽略这些因素的存在,而单单去分析其他因素对观测变量的影响,往往会夸大或缩小这些因素的影响作用,使得分析结论不正确。
????协方差分析
????如:我们研究销售额时,仅仅考虑促销方式和售后服务,而不去考虑销售人员的奖金对销售情况的影响,显然是不全面的。因此为了更加准确地研究控制变量不同水平对观测变量的影响,应尽量排除其他能够排出的因素对分析的影响作用。
????协方差分析是将那些很难控制的因素作为协变量,在排除协变量影响的条件下,分析控制变量对观察变量的影响,从而更加准确地对控制因素进行评价。
????方差分析中的影响变量(因素)都是定性变量,而协方差分析中的协变量应是定量变量,即连续数值型,协变量之间没有交互影响,且与控制变量之间也没有交互影响。
????现在加上作为协变量的定量变量奖金,看它对销售有没有影响,这时的线性模型就又多了一个如同回归一样的代表自变量奖金的一项:
????因变量 = 因素 A 主效应 + 因素 B 的主效应(观察变量) + 因素 A 与 B 的交互效应 + 协变量 + 随机误差
????用 Spss 处理数据:
????Spss 选项:只要将奖金( bonus )这个变量放入 Covariate 中即可。
????SPSS 输出结果:
????多因素方差分析的其他选项:
????Model 选项:建立多因素方差分析的模型。
????Contrast 选项:对控制变量各水平的观察变量的差异进行对比检验。
????Post Hoc 选项:进行多重比较检验。
????Plots 选项:以图形的方式展现各控制变量之间是否有交互影响。
五、多元方差分析
????多元方差分析的原理与一元方差分析的原理一致(略)。
????下面通过对一套数据资料建立不同模型来说明多元方差分析。
????Spss 数据:方差分析 2.sav
????因变量:人均收入水平 INC 、 15 岁及以上人口上学或毕业比例 EDU
????因素:民族( 3 个)、城乡
????第一模型:单因素二元模型
????按民族一个因素分组
????研究目的:通过样本数据检验这三个民族在社会经济发展上是否存在显著差异?
???? 即:
????多元方差的假设
?
????SPSS 选项: Analyze— General Linear Model — Multivariate
????人均收入、教育比例 ——→ Dependent Var
????民族 ——→ Fixed Factors
????Spss 的多元显著性检验
????一元方差分析结果
????第一模型的多元方差分析检验结果显著,我们就可拒绝民族之间无差异的假设,即肯定民族之间存在差异。
????此外,研究人员往往还希望知道哪些民族不同于一般水平。因为多元方差分析的结果肯定了至少有一个民族与其他民族不同,但并不知道是否有明显差异的民族是一个还是多个。并且也不知道这些与总体不同的是哪些民族。
????在一元方差分析发现存在有的分组与其他分组显著不同以后,可以进行一系列分组之间的两两比较。但是这个方法不能用在多元方差分析中,因为多元方差分析发现的差别可能产生于联合分布之中,单一反映变量的比较根本发现不了这种差异。但是我们可以按照分组来两两进行多元方差分析来寻找那些有明显不同的组。
????多元方差分析的应用条件
????因变量之间需要一定程度的线性相关。因变量必须是定量变量。
????各样本组的样本规模应尽量大一些,且各组的样本规模应尽量相近。
????各因变量为正态分布且方差相等。
????各因变量为多元正态分布。
????多元方差分析假设条件的检查
????关于因变量是否具有相同方差的检验
????关于因变量是否正态分布的判断
????关于因变量是否具有足够的相关检验
????关于第一模型分析的小结
????第一模型的分析结果揭示了一个重要的事实:
????即在对因变量进行单个的方差分析不能检查出分组差异的情况下,多元方差分析则能够反映出实际中存在的分组差别。反过来,多元方差分析不显著的分组变量在做一元方差分析时也未必不显著。所以这两者之间病区相互引伸出对方结果的联系。
????第二模型:双因素二元饱和模型
????第二模型中的因素:民族、城乡
????饱和模型:即包括主效应,又包括因素之间的交互作用。
????在 spss 中,饱和模型是默认状态,不需要设置。
????第三模型:双因素二元非饱和模型
????非饱和模型:既不考虑因素之间的交互作用,只进行各因素的主效应分析。
????多元方差分析小结
????分析结果说明,只有民族一个因素存在显著差异,因此我们应该用第一个模型的检验结果报告。
????在实际研究中,通常是先检验更复杂的模型,并通过逐步淘汰不显著的因素,得到完全显著的模型。
?
????思考题:
?????? 请以你日常生活中熟悉的情形为例,设计一试验方案。
?????? 按你设计的方案进行试验,并计算系统误差和随机误差。
?????? 请用简洁的语言说明方差分析的基本思路。
?