第六章 次数资料的统计分析
第三章述及,试验资料可分为两种类型,即数量性状资料和质量性状资料。对于质量性状资料往往难于用数量水平表示,而只能用某种属性性状出现的次数表示。例如将有芒白粒小麦与无芒红粒小麦杂交,在后代会出现有芒白粒、有芒红粒、无芒白粒、无芒红粒等植株类型,每一种类型代表一种属性。对于每一种类型的个体,表达其属性程度,用量值很难测定,而统计各种类型出现的次数却显然是合理而又方便的。
此外,数量性状有时也能用次数表示。例如:植株的高度,我们测量每一个个体的高度得到的变数是连续性变数,如果把植株的高度按一定标准分成高、中、矮三种类型,计数各类型的株数,则得到的资料也是次数资料。另外,间断性变数也能用次数表示,例如在玉米群体中,按果穗的多少有0(空杆)、1(单穗)、2(双穗)等,如果记录每株的穗数,就是间断性变数;如果统计空杆、单穗、双穗等类型出现的次数,就是一种次数资料。
因此,不论质量性状或数量性状,都是可以用次数表示的。凡是试验结果用某种类型出现的次数表示的,叫做次数资料或计数资料。
第一节 次数资料的测验
对次数资料的假设测验可通过分布进行,这里用到了分布的一个应用公式:
 (6.1)
式中O 为次数变数的实际观察次数,E 为对应于O 的理论次数,K为组数。
本应用公式由K,Pearson 于1899年提出,并指出,当自由度大于1时,其与分布相近似;当自由度大于1,且Ei不少于5时,其与分布近似相当好;仅当自由度等于1时,两者稍有出入,应予以矫正。这一次数资料统计量的一大优点就是对所研究的对象属于何种分布并无要求,这就使得它的应用范围相当广泛而简便,而且从应用范围上讲,它既可应用于二项分布资料,也可应用于分类数大于2的多项分布(multinomial distribution)资料,因此,从统计功能上讲,其涵盖了后面将要介绍的二项分布资料假设测验。
一、次数资料适合性的假设测验这一假设测验是测验某一次数资料的样本结果是否符合假设的理论次数分布,下面以实例讲解。
〔例6.1〕某地农田杂草谱调查表明,在常规耕作方法下,田间三种主要杂草分布比率为,一年生杂草:一年生阔叶:宿根性杂草=30:30:40。今采用深翻后,得调查结果如下,试测验杂草谱分布有无发生改变?
表6.1 田间杂草谱分布适合性测验资料杂 草 类 别
一年生杂草
一年生阔叶
宿根性杂草
总次数
实测次数(O)
理论次数(E)
21
16.2
23
16.2
10
21.6
54
54
①HO:深翻后,杂草谱分布未发生改变;对HA:深翻后,杂草谱分布发生了改变。
②显著水平 
③由(6.1)式计算值

④推断:由于计算得=10.51>=5.99,故否定HO而接受HA,即深翻后比之常规耕作方法田间三种主要杂草分布比率发生了显著改变。
对于上述测验,需作两点说明。
①计算样本与理论分布适合性的分布自由度为该样本分类数减1。此来源于计算各理论值E 时,受到总次数确定的限制。
②适合性测验的接受备择假设与统计上的>相联系,另,本假设测验为的右尾一尾测验。书后附表4恰为分布的右尾概率临界值表,故通常无须标明有关一尾的说明。
二、次数资料独立性的假设测验当次数资料每一变数均具有两种不同的调查目标性状时,其原始资料成为二维数据资料。其具有如表6.2的数据结构。
此时,若欲对两类目标性状之间的独立性进行测验,即构成次数资料的独立性测验。
表6.2 次数资料独立性测验的数据结构横向分类(A)
纵向分类 (B)
总计Ri
1
2 … j … C
1
2

i

r
O11
O21

Oi1

Or1
O12…O1j…O1c
O22…O2j…O2c
┆ ┆ ┆
Oi2…Oij…Oic
┆ ┆ ┆
Or2…Orj…Orc
R1
R2

Ri

Rr
总计Cj
C1 C2… Cj …Cc

〔例6.2〕测定不同密度下玉米每株穗数的分布,得结果于表6.3,试测验穗数分布是否与密度大小有关?
表6.3 不同密度下玉米每株穗数的分布密度(万株/hm2)
空杆株
一穗株
双穗及以上株
总计
3
6
9
12
12(73.40)
60(152.21)
246(219.49)
416(288.90)
224(219.60)
549(455.39)
659(656.69)
765(864.32)
76(19.00)
39(39.40)
28(56.82)
47(74.78)
312
647
933
1228
总计
734
2196
190
3120
①假设H0,玉米每株穗数的分布与密度大小无关; 对 HA,玉米每株穗数的分布与密度大小有关。
②显著水平 =0.05
③计算
…
④推断 由于所得=392.62>> =12.59,故应否定HO假设,而接受HA,即不同密度对玉米每株穗数分布有显著影响。
上面分析的几点说明
①表6.3例中各变数实际观测值Oij与对应的理论值Eij并列给出,其中Eij列在实测值Oij旁边的括号中。
②Eij值的计算为两边缘总和的乘积与全部次数资料总和的商。即
Eij=(Ri×Cj)/n
如上例:E11= (312×734)/3120=73.40
其计算依据来自于HO二事件相互独立的假设和独立事件交事件的乘法定理。即

③独立性测验的接受备择假设与>相联系,与适合性测验相类似,也是分布的右尾一尾测验。
④由于独立性测验资料的两边缘总和均受到总和n的限制,故其每一向分类性状的自由度均为其分类数减1。因此,独立性测验的自由度为两向分类自由度之乘积。即

三、次数资料假设测验的连续性矫正
分布是连续性变数的分布,而次数资料属间断性变数资料,研究表明,当测验资料的自由度等于1时,算得的值将有所偏大,因此应予以矫正,统计上称为连续性矫正。既然次数资料连续性矫正的条件是自由度等于1,则仅有两种情况须作连续性矫正,即适合性测验时资料分类数为二,独立性测验时两向分类数均为二的次数资料。矫正的测验计算公式为
 (6.2)
适合性测验例
〔例6.3〕以纯种的紫花豌豆与白花豌豆杂交,杂种F2代得到289株,其中紫花208株,白花81株,试测验该结果是否符合3:1的理论比率?
表6.4 豌豆花色遗传规律的适合性测验表现型
紫 花
白 花
总 数
实测株数(O)
理论株数(E)
208
216.75
81
72.25
289
289
①假设HO:F2代紫花性状与白花性状分离符合3:1的遗传规律;对HA:二性状分离不符合3:1的比率。
②显著水平 =0.05
③统计计算,由于本资料为分类数为二的二项分布次数资料,应予连续性矫正。

④推断:由于计算结果=1.2560<=3.84,故应接受HO,即认为此二性状符合3:1的分离比率。
独立性测验例
〔例6.4〕 病毒病会严重影响马铃薯的产量,有人曾研究播种期早晚与马铃薯感染病毒病的关系,得结果于表6.5,试予分析。
表6.5 马铃薯播期与染病情况调查资料播 种 期
病 株
健 株
总 数
8月1日
8月15日
94(90.92)
74(77.08)
57(60.08)
54(50.92)
151
128
总 数
168
111
279
①假设HO,马铃薯染病情况与播期无关;对HA,马铃薯染病情况与播期有关。
②显著水平 
③统计计算 由于本独立性测验两向分类数均为二,应采用矫正方式。

④推断:由于计算得=0.401<=3.84,故应接受无效假设HO,即上设计播期的早晚与马铃薯发病情况无关。
应该注意到,在作次数资料的测验时,其测验的分辨能力是与观测总次数相关的;也即,一般来讲较大的样本容量有较高的判断灵敏度。由于这一特性,所有次数调查数据均不能简约成成数或百分数,而使其抽样容量成比例变小。同理,次数调查的某一项资料数小于5时,应将其与相邻组合并为一组,以避免过小。
统计学家将上面讲述的测验方式进行整理,整理的公式与前面讲述的公式结果是同一的,但其优点是可直接用实测值进行计算,而无须计算各对应的理论值。这些整理公式列在下面表6.6中,供使用者参考。
表6.6 各类测验同功能应用公式类 型
公 式
说 明
1.分类数为2的适合性测验O1:O2是否为r:1
2.分类数大于2的多项分布资料的适合性测验
3.2行2列资料的独立性测验
4.2行c列(c>2)次数资料的独立性测验
5.r行c列(r>2,c>2)次数资料的独立性测验




2=n
n,总次数。
mi,Oi的理论比率,如对9:3:3:1作测验则m1=。
Cj,j列总次数。
Ri,i行总次数。
同上。
同上。
第二节 二项分布百分数资料的假设测验
在农业科学研究中经常遇到“非此即彼”的性状,如害虫经药物处理后只有死和活两种情况,每一害虫不是死就是活,两者必居其一。又如种子的发芽试验,每一种子不是发芽就是不发芽,等等。这类试验资料可以用次数表示,也可以用百分数表示,都服从二项分布。二项分布百分数的假设测验从理论上讲应按二项分布进行,即从(p+q)n的展开式中求出所需的概率,然后根据概率的大小作出推断。这种方法虽然比较精确,但很麻烦,所以常用正态近似法来代替。因为二项分布中,在样本容量n较大,p不过分小,np和nq又均大于5时,二项分布趋向于正态分布。因此,在符合正态近似的条件下(参见4.8)可以将百分数资料按正态分布处理,从而作出近似的测验。
单个样本百分数的假设测验这是测验一个样本百分数和某一理论百分数的差异显著性,或者说是测验的总体百分数是否等于。
由于二项成数(百分数)分布的标准误为

故有  (6.3)
由于二项分布是间断性分布,分布是连续性分布,因此用测验法处理二项分布资料时,结果会有出入,补救的方法是采用连续性矫正,在作连续性矫正时公式可表达为
 (6.4)
如果样本容量很大,np是nq都大于30,二项分布更逼近正态分布,在此情况下,就可以不进行连续性矫正。
〔例6.5〕 某种子站引进一批小麦种子,平均发芽率是90%,为了防止种子带菌,对这批种子进行药物处理,现从处理后的种子中,随机抽出400粒进行发芽试验,结果发芽种子数356粒,不发芽44粒。问药物处理对种子发芽率是否有影响?
这里=0.90,,n=400
①假设H0,==0.9,即处理后的小麦种子平均发芽率仍为90%;对HA,≠。
②显著水平 
③测验计算 =0.90,=1-=1-0.90=0.10
=0.015
= -0.667
由于np、nq均大于30,故可不作连续性矫正。
④推断 实得(1.96),故接受H0,推断用药物处理小麦种子对发芽率没有影响。
〔例6.6〕 某种农药防治粘虫,平均粘虫死亡率为60%,现研制一种新农药进行试验,在50头供试粘虫中,结果有38头死亡,试测验新农药的杀虫效果是否不同于原农药。
这里,,n=50
①假设H0:p=p0=0.60;对HA:p≠p0
②显著水平 
③测验计算 =0.60,=1-=1-0.60=0.40


由于np、nq都大于5,但nq<30,故需作连续性矫正。
④推断 实得,>,故否定H0,推断新农药的杀虫效果与原农药有显著的不同。
〔例6.7〕 调查某大麻开花的株数为76株,其中36株为雌株,40株为雄株。根据遗传学的原理,雌雄株的比例为1:1,即雌株与雄株的理论百分数各为50%。试测验所调查的结果是否符合雌雄1:1的理论比率。
假设H0,p=0.5,即该大麻雌雄株符合1:1的理论比率,雌株的百分率是50%;
对HA,p ≠0.5
②显著水平 
③测验计算 ,n=76 p=q=0.5

=-0.46
此例np、nq都大于30,故不需作连续性矫正。
④推断 实得(1.96),故接受H0,推断该大麻雌雄株分离符合1:1的理论比率,雌株百分数和p =0.5的相差归属于抽样误差。
以上资料也可直接用次数进行测验,第4章讲过,二项分布资料可用百分数(成数)表示也可用次数(总和数)表示。上面的例子都是用百分数表示的测验方法,它们也可以直接用次数进行测验。当二项资料用次数表示时,二项次数分布的平均数,标准差,因此,有
 (6.5)
当需作连续性矫正时
 (6.6)
例6.7 资料可直接用次数进行测验。
这里n=76,理论比率=0.5,雌株理论株数应为=76×0.5=38株,雄株理论株数也为76×0.5=38株。
①假设H0,np=38株;对HA,np ≠38株
②显著水平 
③测验计算 (株)

结果等同于用百分数进行测验。
此例np、nq都大于30,不需进行连续性矫正,当需进行连续性矫正时
=0.34
矫正后的值小于未矫正的。
二、两个样本百分数相比较的假设测验两个样本百分数相比较的差异显著性测验是测验两个样本百分数和所属的总体百分数p1和p2是否相等,这类测验在实际应用中更为普遍。
在试验中总体的理论百分数p是未知的,而需比较的是样本的结果,由于这种比较的样本大小不同,所以就不能用样本中某性状出现的次数进行比较,只能用百分数来比较。例如,两个小麦品种发芽率比较,甲品种试验100粒,发芽95粒;乙品种试验150粒,发芽120粒,这就不能拿95粒与120粒相比较,必须在百分数的基础上进行比较。
与单个样本百分数测验一样,在两个样本百分数差异显著性测验中,如果两个样本的和>5,可用正态近似法进行测验。这种测验是假设两个总体百分数相等(p1-p2=0),两个样本百分数分别从两个二项总体抽出,差数为-,它服从平均数为零,标准差为的差数分布,用这个分布测验样本百分数差数是否显著或两个总体百分数是否相等。
两个样本百分数差数标准误为
 (6.7)
式中:,,p1q1、p2q2分别为两个样本百分数和所属的两个二项总体的方差。
但在一般情况下,二项总体方差是未知的,在假定的情况下,用两个样本百分数和的加权平均数来取代式(6.7)中的和,取代和。

 (6.8)
上式中的和分别代表两个样本某属性性状出现的次数,和为两样本的样本容量。因而两样本百分数差数标准误和u值分别为
 (6.9)
 (6.10)
〔例6.8〕 调查某地某小麦品种受白粉病感染的情况,调查高坡地该小麦品种368株,发现感病307株,感病率;调查低洼地该小麦品种315株,发现感病290株,感病率。试测验两块麦田的感病率有无显著差异?
①假设H0:,即该品种在高坡地和低洼地种植的总体感病率相等;对HA:≠
②显著水平 
③测验计算 



④推断 实得(1.96),否定H0,接受HA。推断该小麦品种在高坡地种植与在低洼地种植感病率有显著差异。
〔例6.9〕 现研究一种新型有机磷杀虫农药,在1000头虫子中杀死810头,原类似的杀虫农药在1000头虫子中杀死678头。问新型的有机磷杀虫农药杀虫率是否高于原类似农药?
①假设H0:≤,即新型有机磷农药杀虫率并不高于原类似农药;对HA,p1>p2
②显著水平 ,一尾测验(两尾概率为0.02时的临界u值)
③测验计算   




④推断 实得,故否定H0,接受HA。推断新型有机磷农药的杀虫率极显著高于原类似农药。
和单个样本百分数差异显著性测验一样,当两个样本或比较小时(如<30),为使百分数差数更适合正态分布,测验时也应作连续性矫正,矫正后的uc值可表达为
 (6.11)
〔例6.10〕用A和B两种药剂的混合液处理25头棉铃虫,结果死亡15头,存活10头,单用B药剂处理24头,结果死亡9头,存活15头。问两种处理的杀虫效果是否有显著差异?
①假设H0:p1=p2,两种处理杀虫效果没有差异;对HA:p1≠p2
②显著水平 
③测验计算   
 


本例、、和都小于30,故需进行连续性矫正。
④推断 实得,故接受H0:p1=p2。推断药剂A和药剂B混合施用防治棉铃虫的效果与单用药剂B的效果无显著差异。
第三节 二项总体百分数的区间估计
一、单个总体百分数p的区间估计单个百分数的置信区间可按二项分布来估计,即根据样本容量和某一属性的个体数在已编制好的统计表上直接查得总体百分数的置信上、下限,这样既方便又准确。但此表只包括一小部分,应用时有一定的局限性。常用的方法是正态近似法,即在>30,和>5的情况下,由正态分布估计总体的置信区间。
即 ≤≤
则有  (6.12)

上式中:ua为置信概率下两尾概率为时的临界u值
 (6.13)
是的估计值。
〔例6.11〕 某玉米田抽样调查200株玉米,其中受玉米螟为害的有50株。试以95%置信概率估计该玉米田玉米螟的为害率。
已知 =200,,,



推断:此田块玉米螟的受害率为19%-31%,估计的可靠度为95%。
二、两个总体百分数差数()的区间估计这是由两个样本百分数和的相差估计两总体百分数差数(p1-p2)的置信区间。这种估计也是在已经明确两个百分数间有显著差异时才有意义。上已述及,二项分布资料在较大,np、nq不过分小(均大于5)时可用正态近似法处理,因此该区间估计也可按正态分布估计。在置信度下,p1-p2的置信区间为
〔〕≤≤〔〕

 (6.14)
上式中  (6.15)
〔例6.12〕 普通小麦与黑麦杂交,进行人工授粉处理的有200朵花,结实的花数为40朵;药剂辅助人工授粉处理的有300朵花,结实的花数有90朵。试以95%可靠度估计两种不同处理结实率相差的置信区间。
已知 n1=200,,,,,
,

代入(6.14)得


推断 进行人工授粉的结实率比用药剂辅助人工授粉的结实率低2.4%~17.6%,此估计的可靠度为95%。
习 题
6.1 什么是适合性测验?什么是独立性测验?用测验次数资料时什么情况下应进行连续性矫正?
6.2 水稻紫柱头品种和黄柱头品种杂交,F2代500株中有365株紫柱头,135株黄柱头。问F2中紫柱头与黄柱头的比率是否符合3:1?
6.3 检查甲小麦品种200穗,其中受吸浆虫危害42穗;检查乙小麦品种150穗,其中受害27穗。试测验甲、乙两品种的抗虫性是否有显著差异。
6.4 下表是不同灌溉方式下水稻叶片衰老情况的调查资料,试测验稻叶衰老情况是否与灌溉方式有关。
灌溉方式
绿叶数
黄叶数
枯叶数
总 数
深水浅水湿润
146
183
152
7
9
14
7
13
16
160
205
182
总数
481
30
36
547
6.5 什么情况下可以用正态分布来近似地测验二项分布的百分数资料?什么情况下应进行连续性矫正?
6.6 用单个样本百分数测验的方法分析6.2题的资料。并估计紫柱头总体百分率95%置信度的置信区间。
6.7 用两个样本百分数差异测验的方法分析6.3题的资料,并估计甲、乙两品种总体受害率差异95%置信度的置信区间。
6.8 某杂交组合F2代有4种表现型B-C-,B-cc,bbC-,bbcc,其实际观察次数分别为132,42,38,14。试测验是否符合9:3:3:1的理论比率。