田间试验统计：第三章.DOC

分类：农学格式：doc 日期：2005年07月28日

第三章试验资料的整理
田间试验的观察、测量和记载而得到的试验数据一般称为试验资料。
用编制次数分布表、绘制次数分布图等形式，对资料进行科学的整理，从而初步揭示试验研究对象的本质及规律。
然后，概括出反映试验资料特征的数量指标，为试验资料的统计分析提供基础。
第一节统计学的几个基本概念为学习从本章开始的生物统计内容，首先要了解统计学的几个基本名词术语。
１、总体：具有共同性质的个体所组成的集团，称为总体。
总体又分无限总体和有限总体。无限总体所含个体多得无所计数。有限总体包有限的。
一般构成总体的所有个体数目以Ｎ表示，称为总体容量。
２、样本：从总体中随机抽出若干个体称为样本．样本一般均指随机样本。
样本内个体的数目以n表示，称为样本容量。试验所取得的数据也是样本。
在统计上，把样本容量n>30者，称为大样本；把样本容量n≤30者，称为小样本。
３、参数：由总体的全部观察值而算得的描述总体特征的数值，称为参数（如总体平均数等）。
４、统计数：由样本的全部观察值算得的描述样本特征的数值，称为统计数，（如样本平均数等）。样本统计数是总体相应参数的估计值。
５、观察值,每一个体的某一性状测定值叫做观察值。
６、变数,若干有变异的观察值叫随机变数或简称变数。
观察值是一个具体的数值，而变数则是一群具有变异性的观察值的总称。
第二节试验资料的分类田间试验中所得的试验资料，因性状不同一般可分为如下两大类：
一、数量性状资料数量性状是指可用测量和计数方法表示的性状。这类性状资料又可分为两种：
１．连续性变数,指由度量、称量或测量方法所获得的数据，其观察值不一定是整数，在任何两个相邻的观察值之间可以有微小差异的其它数值存在。例如称重水稻每穗粒重时，在2g至3g之间，可以有2.55g或2.8g等数值存在。如株高、产量、穗长、粒重等均为连续性变数。
２．间断性变数,指由计数方法获得的数据，每个观察值必须以整数表示。如苗数、分蘖数、荚数、果穗数、昆虫头数等，只能以整数表示，不可能在一株玉米上有1.6个果穗，或在一株水稻上出现2.7个分蘖。由于两个相邻整数间是不连续的，故称为间断性变数。
二、质量性状资料质量性状是指能观察而不能测量的性状，即属性性状。如芒的有无、籽粒颜色、荚的开裂性、茸毛的有无等。要从这类性状获得数量资料，可采用下列两种方法：
１．统计次数法。在一定群体内，根据某种质量性状的表现对全部个体进行分组，分别统计归入每组的个体数。例如在320株水稻植株中其柱头颜色有紫、黄两种，经计数其中有240株为紫色柱头，另80株为黄色柱头。这类资料也称次数资料。
２．给分法（给予每类质量性状以相当的数量方法）。例如小麦子粒颜色有红有白，可令是红色的数量为0，是白色的数量为1。则在这个小麦子粒群中只有“0”、“1”两种数量，然后，统计“0”、“1”的出现次数，即可得到和数量性状相似的资料。
第三节次数分布我们在田间试验所得到的试验资料，不论是连续性变数还是间断性变数，它们的出现都是有一定的数量范围的。如果我们将其可能出现的整个范围分成若干个互斥的区间，再统计出各个区间内的观察值个数（次数），则可发现，表面上杂乱无章的变数，是有一定的分布规律的。这种由不同区间内观察值出现的次数组成的分布，就叫做变数的次数分布，简称次数分布。通过次数分布，可以初步了解变数的分布特点，也便于进一步的计算和分析。
一、次数分布表将次数分布做成表格形式，叫做次数分布表。编制次数分布表的方法，因变数种类不同而有所差异。
１．连续性变数资料的次数分布表现以表3.1的100株小麦株高资料为例，试编制次数分布表。
（１）求极差：最大观察值—最小观察值＝极差，以R表示，R为整个样本资料的变异幅度。从表3.1中找出最大观察值为106cm，最小观察值为78cm，极差为R=106-78=28cm。
（２）确定组数和组距根据极差的大小把资料分为若干个组。组与组之间的距离，称为组距，用i表示。组数和组距是相互决定的，在确定组数和组距时应考虑：①观察值个数的多少；②极差的大小；③便于计算；④能反映出资料的真实面貌。样本大小与组数多少的关系可参照表3.2。
表3.1资料的观察值个数为100，查表3.2可分为8~16组，决定分为10组。这样其组距便是：

组距得2.8，选用较接近的整数3。此结果比较理想，否则可另定组数。
（３）确定各组的组限组限即为每一组范围的上、下两个界限值，有了上、下两个界限后，才能使各个观察值划归到一定的组内。确定组限首先是确定第一组下限，有了第一组下限后，把下限加上组距，则为第一组的上限；第一组的上限也是第二组的下限，第二组的下限加组距，即为第二组的上限；以下各组依此类推。
第一组下限值以资料中最小观察值减为宜，如本例最小观察值是78，，则第一组下限便是为78-1.5=76.5，第一组上限则为76.5+3=79.5，因此，本例各组的组限为：
组别
下限
上限
第一组
76.5
79.5
第二组
79.5
82.5
第三组
82.5
85.5

第十组
103.5
106.5
由于相邻两组的上限和下限是同一值，而一个观察值只归入一组，不可重复，如有压线观察值，可自行规定归入上组还是归入下组。
（４）计算组中值有了组限，即可编制次数分布表，但是各组如只用下限和上限来区分，计算上不方便，所以各组还应定出一个“组中点值”（组中值）作为该组的代表，组中值用表示，组中值=（下限+上限）/2。本例第一组组中值为。
（５）各观察值归组并统计各组次数可按资料中各观察值的次序，把各数值逐一归于各组，一般用划“正”字来计数，待全部观察值归组后，即可求得各组的次数，制成次数分布表（表3.3）。
从表3.3可以看出，100株小麦株高的变异范围在76.5~106.5cm之间；大部分株高在90cm左右，而以88.5~91.5cm之间株数最多。从而可以对该小麦品种株高性状有所了解。另外需要指出，这个次数分布两头少，中间多，形成一个左右大致对称的分布，这种分布有助于我们直观的理解正态分布，正态分布是在第四章将讨论的一个重要内容。
2．间断性变数的次数分布表
3．属性变数资料的整理二、次数分布图试验资料除用次数分布表来表示外，也可用图形来表示，次数分布图可以更形象地表明次数分布情况。常用的图示形式有方柱形图、多边形图和条形图等。
无论哪一种形式的次数分布图，一般都是在试验资料整理成次数分布表的基础上进行。为使绘成的图形显得匀称，横坐标与纵坐标长度比例要适宜，一般以5:4或6:5为好。用横坐标表示各组的组限或组中值，用纵坐标来表示各组的次数，标准绘制图应用现成坐标纸来完成。
１．方柱形图适用于表示连续性变数的次数分布。现以表3.1 100株小麦株高的次数分布为例加以说明。该表共有10组，所以在横轴上分为10等分（因第一组的下限不是从零开始，故第一等分应离开原点一些，并在其前加折断号），并标上各组的组限，在纵轴上等距标定次数，因表3.1资料最多一组的次数为28，故在纵轴上要分出不低于28等分。查表3.3，第一组次数为2，则在第一组的上、下限处绘两条纵线，其高度等于纵坐标上的2个单位，并用一横线连接两纵线的顶端，即成方柱形。其余各组依次绘制，即可绘制成方柱形次数分布图（图3.1）。
２．多边形图多边形图也是表示连续性变数次数分布的一种图示形式，而且续性变数次数分布的一种图示形式，而且在同一图上可比较两组以上的资料。
３．条形图适用描述间断性变数和属性变数资料的次数分布。条形图在制作上与方柱形图相比，有两点有所不同：一是横轴标的是间断的组中值或分类性状；二是表示各组或各类次数多少的图形，用的是互不相联的条形，其它与柱形图绘制要求基本一样。现将表3.6资料绘制成条形图于图3.3，具体制作过程不再赘述。
条形图中的条形，如若换成线表示，就成为另外一种示图――线形图，其制作更易些。
第四节平均数从次数分布表或次数分布图中，可以看出一资料变数的分布特点，即集中性和离散性。集中性是指资料中的各观察值总是以某一数值为中心分布；离散性是指资料中各观察值的离散、变异程度。但是从次数分布表和次数分布图中只能看出一个大致趋势，且不能以此做统计处理。因此，为了使资料得到完整的描述，还需要从中概括出一些能够反映资料特征的数量指标，这些数量指标称为试验资料的特征数。变数集中性这一特征，通常用平均数来描述。
平均数是数量资料的代表值，它表示数量资料的中心位置，可作为资料的代表与其它资料进行比较，是人们生产、科研和生活中最常用的特征数。
平均数有多种，应用最广泛的是算术平均数。
一、算术平均数
１．定义一个数量资料中各个观察值的总和除以观察值个数所得的商，即为算术平均数，样本算术平均数用表示，其计算公式为

(i=1,2,…,n) (3.1)
式中：为累加符号，表示从第一个观察值x1一直加到第n个观察值xn的总和，n为样本容量即样本内观察值个数。上式可简写为
(3.2)
总体平均数用表示，其公式为
(3.3)
无限总体的平均数实际上无法计算，只是一个理论值。
２．算术平均数的计算方法
(1)直接法按照(3.2)式直接计算。
[例3.1]称得某小麦品种千粒重5份，分别为34、32.5、33.5、32、33(g)，试求其平均千粒重。

(2)加权法如资料中各个观察值xi（i=1,2,…），具有不同的次数（fi），这个次数在统计上称为“权”，且f1+f2+…+fk=，这时可用加权法计算平均数，其公式为
(3.4)
可简写为 (3.5)
用这种方法计算出的算术平均数，称为加权算术平均数。
[例3.2]随机抽取某大豆品种12个荚，数每荚大豆粒数为3、1、3、2、4、3、3、2、2、4、3、3，试计算每荚平均豆粒数。

已经编制了次数分布表的资料，可在次数分布表的基础上由(3.5)式计算加权算术平均数。这时(3.5)式中的x为次数分布表中各组的组中值；f为各组的次数；n为总次数。
[例3.3]由表3.3资料计算100株小麦平均株高。
由表3.7算得，代入(3.5)式有

即100株小麦平均株高为90.75cm。表3.7 100株小麦株高的平均数计算
3．算术平均数的性质
(1)各观察值与其平均数之差（简称离均差）的总和等于零，即。用简写式证明如下
（3.6）
(2)各个观察值与平均数的差数平方的总和，比各个观察值与任何一个数值的差数平方的总和都小，即。亦可简述为离均差平方的总和为最小。用简写式证明如下：
设a为任何数值，可能比大或比小，但不等于，用算式表示即，表示与a的差数。

以公式3.6知，，由此
故
移项
（3.7）
因而证实了，离均差平方和比观察值离任一其它数值的差数平方和都小。
二、几何平均数一个数量资料中如有个观察值，相乘积开次方所得数值，即为几何平均数，用G表示。
(3.8)
上述可用计算器直接算出，也可转换成对数运算。
几何平均数常用于表示某现象的平均发展速度，如计算若干天内，某种植物株高、根长生长量或某种昆虫繁殖量，每天各为上天的平均倍数等，用几何平均数能比算术平均数更准确地反映实际情况。
[例3.4]调查某麦田百株蚜虫发生情况如表3.8，试求百株蚜虫平均每天繁殖量各为上天的多少倍？
首先算出蚜虫每天繁殖量为上天的倍数，如6月28日为6月27日的340/100=3.09倍，6月29日为6月28日的810/340=2.38倍等，然后，将这些数据代入3.8式。则有表3.8 百株蚜虫繁殖量

即百株麦蚜在4天中，平均每天繁殖量各为上天的1.95倍。
我们可以验证：6月27日百株麦蚜为110头，4天后为110×1.954=1 590（头），与7月1日实际虫数相符。如若用算术平均数计算就不会符合了。这说明此类问题用几何平均数计算更为确切。
三、中数将资料中的所有观察值从小到大依次排列，居中间位置的观察值称为中数，用Md表示。
例如2,3,4,5,6的中数是4。若观察值个数为偶数，则以中间两个观察值的算术平均数为中数。例如2,3,4,5的中数。
在农业试验上，以50％为标准的各种生育期、发生期以及杀虫剂毒力的致死中量、致死中浓度等，用的都是中数。
四、众数在资料中出现次数最多的一个数值称为众数(mode)，用表示。
例如
(3.9)
式中：L为次数最多组的下限，f1为次数最多组上一组的次数，f2为次数最多组下一组的次数，i为组距。
以表3.3数据为例

即表3.3资料的众数为89.75，用上式算出的众数，在理论上要比次数最多的组中值90要精确。
几种平均数之间的关系：在观察值为正态分布的情况下，算术平均数、众数、中数三个数重合，若为同一资料，一般。
第五节变异数平均数作为数量资料的代表值，其代表性的强弱取决于资料内各观察值变异程度的大小。但是仅靠平均数并不能了解资料中各观察值间的变异程度大小，也无法知道平均数的代表性如何，例如有A、B两组数据：
A组 60、58、60,61、61
B组 10、110、50、90、40
假设这是两个都自称新育成的矮杆小麦株高资料（且随机抽取的很有代表性的样本），我们能仅靠平均数就对它们作出正确评价吗？虽然两组的平均数都是60，但两组数据的变异程度有很大不同，它们平均数的代表性亦大不一样。所以只用平均数表示资料的特征是不够的，为了更全面地描述一个数量资料，还必须有一个度量其变异程度的特征数，这个特征数叫变异数。最常用的变异数有极差、方差、标准差和变异系数。
一、极差极差(range)又称全距，用R表示，它表示资料的变异范围。R大表示变异范围大，其代表性差；若R小表示变异范围小，其代表性好。如上面两组数据中，RA=61-58=3，RB=110 -10=100，RA<RB，说明A组数据的变异范围小，A的代表性好于B。
极差虽然可以对资料的变异程度有所说明，但是比较粗放。
例如另有C组数据10、110、60、60、60，可以直观地看出整个资料的变异程度小于B组，但这两组的R都相等。显然，极差不是根据全部观察值求得的，而是由最大和最小两个极端观察值决定的，因此，没有充分利用资料中的全部信息，使得类似B、C两组数据间的变异及平均数的代表性，用R无法正确反映。另外，对于同一总体，抽出的不同样本，其极差波动也比较大。
二、方差为了正确反映资料的变异度，较合理的方法是根据样本中的全部观察值来度量。这时需选定一个数值作为共同比较的标准，因为平均数是数量资料的代表值，所以用它作为比较的标准，让资料中每个观察值都与相减，即得各个离均差(x-)。设想再求和，用其来反映变异度的大小。但3.6式已证明=0，这样就达不到目的。如果各个离均差的平方再相加，得到各离均差平方的总和（简称平方和，缩写为SS），则可反映出资料的变异度。平方和的定义公式为
(3.10)
这样还不完善，例如再有D组数据10、110，其平方和与C组相等，但两组的变异度是不一样的，因此，要体现出观察值数目n的影响，用(n-1)来除平方和，即可得到全面反映资料变异度的变异数，将这个平均的平方和称为方差(variance)。样本方差用s2表示，其公式为
(3.11)
总体方差用表示，其公式为
(3.12)
3.11和3.12式中，n-1称自由度，N为总体容量。习惯上把样本的s2又称均方(mean of squares)，总体的称为方差，S2是的无偏估计值。方差在统计分析上有广泛的应用。
三、标准差
１．定义虽然方差概括了资料中每个观察值所提供的信息，全面的反映了其变异度，但是由于采用了平方的形式，度量单位也随之平方了（如平方克、平方厘米），这在反映有度量单位事物时不好解释，另外平方使数值量也增大了，与实际变异度有相当差距，方差只适于反映不需考虑上述情况事物的变异度。为此，把方差开平方还原，就得到一个新的变异数―标准差(standard deviation)。标准差是方差的平方根，样本标准差用s表示，其公式为
(3.13)
总体标准差公式
(3.14)
用标准差表示事物的变异性，不仅保留了方差的优点，而且在度量单位上与平均数一致，在数量水平上也客观实际，因此，标准差能够很好地表示出样本（或总体）中每个观察值的平均变异度。
关于自由度的说明：样本标准差（或方差）之所以不用样本容量n，而用自由度n-1作为除数。这是因为我们通常所掌握的样本资料，不知的数值，不得不用样本平均数来代替。由于与总有差异，由公式3.7可知，如以代替a，则。因此，由算出的标准差将偏小，现用n-1可校正偏小的弊病。自由度记作DF(degree of freedom)，其具体数值则常用v表示。
２．标准差的计算
(1)直接法按照3.13式直接计算。
[例3.5]有5株大麦单株粒重资料如下：3、7、6、4、5，n=5、、，试计算标准差（单位g）

(2)矫正数法以上计算可以看出，标准差的计算主要在于计算平方和，可把定义平方和的公式推导为

统计上把称为矫正数，记作C，即。
因此有
(3.16)
用此公式计算[例3.5]标准差，可先用一竖式算出和，再代入3.16式
x
x2
3
7
6
4
5
9
49
36
16
25

矫正数法是实际使用最多的方法，尤其计算器按键均以此式设计，据此式用计算器计算十分便捷。
(3)加权法与加权法计算平均数一样，当资料中观察值较多，并且已经编制了次数分布表，可借助于次数分布表计算标准差，其公式为
(3.17)
上式可以写成矫正数法公式
(3.18)
[例3.6]由表3.3计算100株小麦株高的标准差。
由表3.7可得
代入(3.18)式有
即100株小麦的株高标准差为5.44(cm)。
四、变异系数标准差是衡量一个样本变异程度的重要特征数，但是要对两个样本的变异程度作比较时，必须是在两个样本的单位、平均数和性质相同的情况下才可进行。为了能对单位、平均数和性质不同样本间的变异度进行比较，需要用一个表示相对变异程度的变异数，变异系数(coefficient of variation)就是这样的一种变异数，记作CV，其计算公式
(3.19)
CV是一个不带单位的纯数，以％表示，表示单位量的变异。
[例3.7] A小麦品种株高的为95±9.02(cm)，B小麦品种株高的为75±8.50(cm)，问两个小麦品种株高整齐度哪个比较好？
如只从标准差看，品种A比B的变异大，但两者的均数不同，不宜用标准差直接比较。用CV表示则
A小麦品种　
B小麦品种
经计算CV比较，实际上A品种小麦株高的整齐度好于B品种。

课件简介

课件名称：	田间试验统计
课件分类：	农学
课件类型：	参考资料
文件大小：	1.23MB
下载次数：	39
评论次数：	14
用户评分：	7.4