第三章 试验资料的整理
田间试验的观察、测量和记载而得到的试验数据一般称为试验资料。
用编制次数分布表、绘制次数分布图等形式,对资料进行科学的整理,从而初步揭示试验研究对象的本质及规律。
然后,概括出反映试验资料特征的数量指标,为试验资料的统计分析提供基础。
第一节 统计学的几个基本概念为学习从本章开始的生物统计内容,首先要了解统计学的几个基本名词术语。
1、总体:具有共同性质的个体所组成的集团,称为总体。
总体又分无限总体和有限总体。无限总体所含个体多得无所计数。有限总体包有限的。
一般构成总体的所有个体数目以N表示,称为总体容量。
2、样本:从总体中随机抽出若干个体称为样本.样本一般均指随机样本。
样本内个体的数目以n表示,称为样本容量。试验所取得的数据也是样本。
在统计上,把样本容量n>30者,称为大样本;把样本容量n≤30者,称为小样本。
3、参数:由总体的全部观察值而算得的描述总体特征的数值,称为参数(如总体平均数等)。
4、统计数:由样本的全部观察值算得的描述样本特征的数值,称为统计数,(如样本平均数等)。样本统计数是总体相应参数的估计值。
5、观察值,每一个体的某一性状测定值叫做观察值。
6、变数,若干有变异的观察值叫随机变数或简称变数。
观察值是一个具体的数值,而变数则是一群具有变异性的观察值的总称。
第二节 试验资料的分类田间试验中所得的试验资料,因性状不同一般可分为如下两大类:
一、数量性状资料数量性状是指可用测量和计数方法表示的性状。这类性状资料又可分为两种:
1.连续性变数,指由度量、称量或测量方法所获得的数据,其观察值不一定是整数,在任何两个相邻的观察值之间可以有微小差异的其它数值存在。例如称重水稻每穗粒重时,在2g至3g之间,可以有2.55g或2.8g等数值存在。如株高、产量、穗长、粒重等均为连续性变数。
2.间断性变数,指由计数方法获得的数据,每个观察值必须以整数表示。如苗数、分蘖数、荚数、果穗数、昆虫头数等,只能以整数表示,不可能在一株玉米上有1.6个果穗,或在一株水稻上出现2.7个分蘖。由于两个相邻整数间是不连续的,故称为间断性变数。
二、质量性状资料质量性状是指能观察而不能测量的性状,即属性性状。如芒的有无、籽粒颜色、荚的开裂性、茸毛的有无等。要从这类性状获得数量资料,可采用下列两种方法:
1.统计次数法。在一定群体内,根据某种质量性状的表现对全部个体进行分组,分别统计归入每组的个体数。例如在320株水稻植株中其柱头颜色有紫、黄两种,经计数其中有240株为紫色柱头,另80株为黄色柱头。这类资料也称次数资料。
2.给分法(给予每类质量性状以相当的数量方法)。例如小麦子粒颜色有红有白,可令是红色的数量为0,是白色的数量为1。则在这个小麦子粒群中只有“0”、“1”两种数量,然后,统计“0”、“1”的出现次数,即可得到和数量性状相似的资料。
第三节 次数分布我们在田间试验所得到的试验资料,不论是连续性变数还是间断性变数,它们的出现都是有一定的数量范围的。如果我们将其可能出现的整个范围分成若干个互斥的区间,再统计出各个区间内的观察值个数(次数),则可发现,表面上杂乱无章的变数,是有一定的分布规律的。这种由不同区间内观察值出现的次数组成的分布,就叫做变数的次数分布,简称次数分布。通过次数分布,可以初步了解变数的分布特点,也便于进一步的计算和分析。
一、次数分布表将次数分布做成表格形式,叫做次数分布表。编制次数分布表的方法,因变数种类不同而有所差异。
1.连续性变数资料的次数分布表现以表3.1的100株小麦株高资料为例,试编制次数分布表。
(1)求极差:最大观察值—最小观察值=极差,以R表示,R为整个样本资料的变异幅度。从表3.1中找出最大观察值为106cm,最小观察值为78cm,极差为R=106-78=28cm。
(2)确定组数和组距 根据极差的大小把资料分为若干个组。组与组之间的距离,称为组距,用i表示。组数和组距是相互决定的,在确定组数和组距时应考虑:①观察值个数的多少;②极差的大小;③便于计算;④能反映出资料的真实面貌。样本大小与组数多少的关系可参照表3.2。
表3.1资料的观察值个数为100,查表3.2可分为8~16组,决定分为10组。这样其组距便是:
组距得2.8,选用较接近的整数3。此结果比较理想,否则可另定组数。
(3)确定各组的组限 组限即为每一组范围的上、下两个界限值,有了上、下两个界限后,才能使各个观察值划归到一定的组内。确定组限首先是确定第一组下限,有了第一组下限后,把下限加上组距,则为第一组的上限;第一组的上限也是第二组的下限,第二组的下限加组距,即为第二组的上限;以下各组依此类推。
第一组下限值以资料中最小观察值减为宜,如本例最小观察值是78,,则第一组下限便是为78-1.5=76.5,第一组上限则为76.5+3=79.5,因此,本例各组的组限为:
组 别
下 限
上 限
第一组
76.5
79.5
第二组
79.5
82.5
第三组
82.5
85.5
第十组
103.5
106.5
由于相邻两组的上限和下限是同一值,而一个观察值只归入一组,不可重复,如有压线观察值,可自行规定归入上组还是归入下组。
(4)计算组中值 有了组限,即可编制次数分布表,但是各组如只用下限和上限来区分,计算上不方便,所以各组还应定出一个“组中点值”(组中值)作为该组的代表,组中值用表示,组中值=(下限+上限)/2。本例第一组组中值为。
(5)各观察值归组并统计各组次数 可按资料中各观察值的次序,把各数值逐一归于各组,一般用划“正”字来计数,待全部观察值归组后,即可求得各组的次数,制成次数分布表(表3.3)。
从表3.3可以看出,100株小麦株高的变异范围在76.5~106.5cm之间;大部分株高在90cm左右,而以88.5~91.5cm之间株数最多。从而可以对该小麦品种株高性状有所了解。另外需要指出,这个次数分布两头少,中间多,形成一个左右大致对称的分布,这种分布有助于我们直观的理解正态分布,正态分布是在第四章将讨论的一个重要内容。
2.间断性变数的次数分布表
3.属性变数资料的整理二、次数分布图试验资料除用次数分布表来表示外,也可用图形来表示,次数分布图可以更形象地表明次数分布情况。常用的图示形式有方柱形图、多边形图和条形图等。
无论哪一种形式的次数分布图,一般都是在试验资料整理成次数分布表的基础上进行。为使绘成的图形显得匀称,横坐标与纵坐标长度比例要适宜,一般以5:4或6:5为好。用横坐标表示各组的组限或组中值,用纵坐标来表示各组的次数,标准绘制图应用现成坐标纸来完成。
1.方柱形图 适用于表示连续性变数的次数分布。现以表3.1 100株小麦株高的次数分布为例加以说明。该表共有10组,所以在横轴上分为10等分(因第一组的下限不是从零开始,故第一等分应离开原点一些,并在其前加折断号),并标上各组的组限,在纵轴上等距标定次数,因表3.1资料最多一组的次数为28,故在纵轴上要分出不低于28等分。查表3.3,第一组次数为2,则在第一组的上、下限处绘两条纵线,其高度等于纵坐标上的2个单位,并用一横线连接两纵线的顶端,即成方柱形。其余各组依次绘制,即可绘制成方柱形次数分布图(图3.1)。
2.多边形图 多边形图也是表示连续性变数次数分布的一种图示形式,而且续性变数次数分布的一种图示形式,而且在同一图上可比较两组以上的资料。
3.条形图 适用描述间断性变数和属性变数资料的次数分布。条形图在制作上与方柱形图相比,有两点有所不同:一是横轴标的是间断的组中值或分类性状;二是表示 各组或各类次数多少的图形,用的是互不相联的条形,其它与柱形图绘制要求基本一样。现将表3.6资料绘制成条形图于图3.3,具体制作过程不再赘述。
条形图中的条形,如若换成线表示,就成为另外一种示图――线形图,其制作更易些。
第四节 平均数从次数分布表或次数分布图中,可以看出一资料变数的分布特点,即集中性和离散性。集中性是指资料中的各观察值总是以某一数值为中心分布;离散性是指资料中各观察值的离散、变异程度。但是从次数分布表和次数分布图中只能看出一个大致趋势,且不能以此做统计处理。因此,为了使资料得到完整的描述,还需要从中概括出一些能够反映资料特征的数量指标,这些数量指标称为试验资料的特征数。变数集中性这一特征,通常用平均数来描述。
平均数是数量资料的代表值,它表示数量资料的中心位置,可作为资料的代表与其它资料进行比较,是人们生产、科研和生活中最常用的特征数。
平均数有多种,应用最广泛的是算术平均数。
一、算术平均数
1.定义一个数量资料中各个观察值的总和除以观察值个数所得的商,即为算术平均数,样本算术平均数用表示,其计算公式为
(i=1,2,…,n) (3.1)
式中:为累加符号,表示从第一个观察值x1一直加到第n个观察值xn的总和,n为样本容量即样本内观察值个数。上式可简写为
(3.2)
总体平均数用表示,其公式为
(3.3)
无限总体的平均数实际上无法计算,只是一个理论值。
2.算术平均数的计算方法
(1)直接法 按照(3.2)式直接计算。
[例3.1]称得某小麦品种千粒重5份,分别为34、32.5、33.5、32、33(g),试求其平均千粒重。
(2)加权法 如资料中各个观察值xi(i=1,2,…),具有不同的次数(fi),这个次数在统计上称为“权”,且f1+f2+…+fk=,这时可用加权法计算平均数,其公式为
(3.4)
可简写为 (3.5)
用这种方法计算出的算术平均数,称为加权算术平均数。
[例3.2]随机抽取某大豆品种12个荚,数每荚大豆粒数为3、1、3、2、4、3、3、2、2、4、3、3,试计算每荚平均豆粒数。
已经编制了次数分布表的资料,可在次数分布表的基础上由(3.5)式计算加权算术平均数。这时(3.5)式中的x为次数分布表中各组的组中值;f为各组的次数;n为总次数。
[例3.3]由表3.3资料计算100株小麦平均株高。
由表3.7算得,代入(3.5)式有
即100株小麦平均株高为90.75cm。表3.7 100株小麦株高的平均数计算
3.算术平均数的性质
(1)各观察值与其平均数之差(简称离均差)的总和等于零,即。用简写式证明如下
(3.6)
(2)各个观察值与平均数的差数平方的总和,比各个观察值与任何一个数值的差数平方的总和都小,即。亦可简述为离均差平方的总和为最小。用简写式证明如下:
设a为任何数值,可能比大或比小,但不等于,用算式表示即,表示与a的差数。
以公式3.6知,,由此
故
移项
(3.7)
因而证实了,离均差平方和比观察值离任一其它数值的差数平方和都小。
二、几何平均数一个数量资料中如有个观察值,相乘积开次方所得数值,即为几何平均数,用G表示。
(3.8)
上述可用计算器直接算出,也可转换成对数运算。
几何平均数常用于表示某现象的平均发展速度,如计算若干天内,某种植物株高、根长生长量或某种昆虫繁殖量,每天各为上天的平均倍数等,用几何平均数能比算术平均数更准确地反映实际情况。
[例3.4]调查某麦田百株蚜虫发生情况如表3.8,试求百株蚜虫平均每天繁殖量各为上天的多少倍?
首先算出蚜虫每天繁殖量为上天的倍数,如6月28日为6月27日的340/100=3.09倍,6月29日为6月28日的810/340=2.38倍等,然后,将这些数据代入3.8式。则有表3.8 百株蚜虫繁殖量
即百株麦蚜在4天中,平均每天繁殖量各为上天的1.95倍。
我们可以验证:6月27日百株麦蚜为110头,4天后为110×1.954=1 590(头),与7月1日实际虫数相符。如若用算术平均数计算就不会符合了。这说明此类问题用几何平均数计算更为确切。
三、中 数将资料中的所有观察值从小到大依次排列,居中间位置的观察值称为中数,用Md表示。
例如2,3,4,5,6的中数是4。若观察值个数为偶数,则以中间两个观察值的算术平均数为中数。例如2,3,4,5的中数。
在农业试验上,以50%为标准的各种生育期、发生期以及杀虫剂毒力的致死中量、致死中浓度等,用的都是中数。
四、众 数在资料中出现次数最多的一个数值称为众数(mode),用表示。
例如
(3.9)
式中:L为次数最多组的下限,f1为次数最多组上一组的次数,f2为次数最多组下一组的次数,i为组距。
以表3.3数据为例
即表3.3资料的众数为89.75,用上式算出的众数,在理论上要比次数最多的组中值90要精确。
几种平均数之间的关系:在观察值为正态分布的情况下,算术平均数、众数、中数三个数重合,若为同一资料,一般。
第五节 变异数平均数作为数量资料的代表值,其代表性的强弱取决于资料内各观察值变异程度的大小。但是仅靠平均数并不能了解资料中各观察值间的变异程度大小,也无法知道平均数的代表性如何,例如有A、B两组数据:
A组 60、58、60,61、61
B组 10、110、50、90、40
假设这是两个都自称新育成的矮杆小麦株高资料(且随机抽取的很有代表性的样本),我们能仅靠平均数就对它们作出正确评价吗?虽然两组的平均数都是60,但两组数据的变异程度有很大不同,它们平均数的代表性亦大不一样。所以只用平均数表示资料的特征是不够的,为了更全面地描述一个数量资料,还必须有一个度量其变异程度的特征数,这个特征数叫变异数。最常用的变异数有极差、方差、标准差和变异系数。
一、极 差极差(range)又称全距,用R表示,它表示资料的变异范围。R大表示变异范围大,其代表性差;若R小表示变异范围小,其代表性好。如上面两组数据中,RA=61-58=3,RB=110 -10=100,RA<RB,说明A组数据的变异范围小,A的代表性好于B。
极差虽然可以对资料的变异程度有所说明,但是比较粗放。
例如另有C组数据10、110、60、60、60,可以直观地看出整个资料的变异程度小于B组,但这两组的R都相等。显然,极差不是根据全部观察值求得的,而是由最大和最小两个极端观察值决定的,因此,没有充分利用资料中的全部信息,使得类似B、C两组数据间的变异及平均数的代表性,用R无法正确反映。另外,对于同一总体,抽出的不同样本,其极差波动也比较大。
二、方 差为了正确反映资料的变异度,较合理的方法是根据样本中的全部观察值来度量。这时需选定一个数值作为共同比较的标准,因为平均数是数量资料的代表值,所以用它作为比较的标准,让资料中每个观察值都与相减,即得各个离均差(x-)。设想再求和,用其来反映变异度的大小。但3.6式已证明=0,这样就达不到目的。如果各个离均差的平方再相加,得到各离均差平方的总和(简称平方和,缩写为SS),则可反映出资料的变异度。平方和的定义公式为
(3.10)
这样还不完善,例如再有D组数据10、110,其平方和与C组相等,但两组的变异度是不一样的,因此,要体现出观察值数目n的影响,用(n-1)来除平方和,即可得到全面反映资料变异度的变异数,将这个平均的平方和称为方差(variance)。样本方差用s2表示,其公式为
(3.11)
总体方差用表示,其公式为
(3.12)
3.11和3.12式中,n-1称自由度,N为总体容量。习惯上把样本的s2又称均方(mean of squares),总体的称为方差,S2是的无偏估计值。方差在统计分析上有广泛的应用。
三、标准差
1.定 义虽然方差概括了资料中每个观察值所提供的信息,全面的反映了其变异度,但是由于采用了平方的形式,度量单位也随之平方了(如平方克、平方厘米),这在反映有度量单位事物时不好解释,另外平方使数值量也增大了,与实际变异度有相当差距,方差只适于反映不需考虑上述情况事物的变异度。为此,把方差开平方还原,就得到一个新的变异数―标准差(standard deviation)。标准差是方差的平方根,样本标准差用s表示,其公式为
(3.13)
总体标准差公式
(3.14)
用标准差表示事物的变异性,不仅保留了方差的优点,而且在度量单位上与平均数一致,在数量水平上也客观实际,因此,标准差能够很好地表示出样本(或总体)中每个观察值的平均变异度。
关于自由度的说明:样本标准差(或方差)之所以不用样本容量n,而用自由度n-1作为除数。这是因为我们通常所掌握的样本资料,不知的数值,不得不用样本平均数来代替。由于与总有差异,由公式3.7可知,如以代替a,则。因此,由算出的标准差将偏小,现用n-1可校正偏小的弊病。自由度记作DF(degree of freedom),其具体数值则常用v表示。
2.标准差的计算
(1)直接法 按照3.13式直接计算。
[例3.5]有5株大麦单株粒重资料如下:3、7、6、4、5,n=5、、,试计算标准差(单位g)
(2)矫正数法 以上计算可以看出,标准差的计算主要在于计算平方和,可把定义平方和的公式推导为
统计上把称为矫正数,记作C,即。
因此有
(3.16)
用此公式计算[例3.5]标准差,可先用一竖式算出和,再代入3.16式
x
x2
3
7
6
4
5
9
49
36
16
25
矫正数法是实际使用最多的方法,尤其计算器按键均以此式设计,据此式用计算器计算十分便捷。
(3)加权法 与加权法计算平均数一样,当资料中观察值较多,并且已经编制了次数分布表,可借助于次数分布表计算标准差,其公式为
(3.17)
上式可以写成矫正数法公式
(3.18)
[例3.6]由表3.3计算100株小麦株高的标准差。
由表3.7可得
代入(3.18)式有
即100株小麦的株高标准差为5.44(cm)。
四、变异系数标准差是衡量一个样本变异程度的重要特征数,但是要对两个样本的变异程度作比较时,必须是在两个样本的单位、平均数和性质相同的情况下才可进行。为了能对单位、平均数和性质不同样本间的变异度进行比较,需要用一个表示相对变异程度的变异数,变异系数(coefficient of variation)就是这样的一种变异数,记作CV,其计算公式
(3.19)
CV是一个不带单位的纯数,以%表示,表示单位量的变异。
[例3.7] A小麦品种株高的为95±9.02(cm),B小麦品种株高的为75±8.50(cm),问两个小麦品种株高整齐度哪个比较好?
如只从标准差看,品种A比B的变异大,但两者的均数不同,不宜用标准差直接比较。用CV表示则
A小麦品种
B小麦品种
经计算CV比较,实际上A品种小麦株高的整齐度好于B品种。