第七章 次数资料分析——(2检验
前面介绍了计量资料的统计分析方法((t检验法与方差分析法。在畜牧、水产等科学研究中,除了分析计量资料以外,还常常需要对次数资料、等级资料进行分析。等级资料实际上也是一种次数资料。次数资料服从二项分布或多项分布,其统计分析方法不同于服从正态分布的计量资料。本章将分别介绍对次数资料、等级资料进行统计分析的方法。
第一节 统计量与分布
一、统计量的意义为了便于理解,现结合一实例说明 (读作卡方) 统计量的意义。根据遗传学理论,动物的性别比例是1:1。统计某羊场一年所产的876只羔羊中,有公羔428只,母羔448只。按1:1的性别比例计算,公、母羔均应为438只。以A表示实际观察次数,T表示理论次数,可将上述情况列成表7-1。
表7-1 羔羊性别实际观察次数与理论次数性别
实际观察次数A
理论次数T
A-T
(A-T)2/T
公
428()
438()
-10
0.2283
母
448()
438()
10
0.2283
合计
876
876
0
0.4566
从表7-1看到,实际观察次数与理论次数存在一定的差异,这里公、母各相差10只。 这个差异是属于抽样误差(把对该羊场一年所生羔羊的性别统计当作是一次抽样调查)、还是羔羊性别比例发生了实质性的变化?要回答这个问题,首先需要确定一个统计量用以表示实际观察次数与理论次数偏离的程度;然后判断这一偏离程度是否属于抽样误差,即进行显著性检验。为了度量实际观察次数与理论次数偏离的程度,最简单的办法是求出实际观察次数与理论次数的差数。从表7-1看出:A1-T1 =-10,A2-T2=10,由于这两个差数之和为0,显然不能用这两个差数之和来表示实际观察次数与理论次数的偏离程度。为了避免正、负抵消,可将两个差数A1-T1、A2-T2平方后再相加,即计算∑(A-T)2,其值越大,实际观察次数与理论次数相差亦越大,反之则越小。但利用∑(A-T)2表示实际观察次数与理论次数的偏离程度尚有不足。例如某一组实际观察次数为505、理论次数为500,相差5;而另一组实际观察次数为26,理论次数为21,相差亦为5。显然这两组实际观察次数与理论次数的偏离程度是不同的。因为前者是相对于理论次数500相差5,后者是相对于理论次数21相差5。为了弥补这一不足,可先将各差数平方除以相应的理论次数后再相加,并记之为,即
 (7-1)
也就是说是度量实际观察次数与理论次数偏离程度的一个统计量,(2越小,表明实际观察次数与理论次数越接近;=0,表示两者完全吻合;越大,表示两者相差越大。
对于表7-1的资料,可计算得
=
表明实际观察次数与理论次数是比较接近的。
二、分布
上面在属于离散型随机变量的次数资料的基础上引入了统计量,它近似地服从统计学中一种连续型随机变量的概率分布((分布。下面对统计学中的分布作一简略介绍。
设有一平均数为μ、方差为的正态总体。现从此总体中独立随机抽取n个随机变量:x1、x2、…、xn,并求出其标准正态离差:
,,…,
记这n个相互独立的标准正态离差的平方和为:
== (7-2)
它服从自由度为n的分布,记为
 ~ (2 (n);
若用样本平均数代替总体平均数μ,则随机变量
(2= (7-3)
服从自由度为n-1的分布,记为
~ 
因此,分布是由正态总体随机抽样得来的一种连续型随机变量的分布。显然,≥0,即的取值范围是[0,+∞(;分布密度曲线是随自由度不同而改变的一组曲线。随自由度的增大,曲线由偏斜渐趋于对称;df≥30时, 接近平均数为 的正态分布。图7-1给出了几个不同自由度的概率分布密度曲线。
三、的连续性矫正
由(7-1)式计算的只是近似地服从连续型随机变量分布。在对次数资料进行检验利用连续型随机变量分布计算概率时,常常偏低,特别是当自由度为1时偏差较大。Yates(1934)提出了一个矫正公式,矫正后的值记为:
= (7-4)
当自由度大于1时,(7-1)式的分布与连续型随机变量分布相近似,这时,可不作连续性矫正,但要求各组内的理论次数不小于5。若某组的理论次数小于5,则应把它与其相邻的一组或几组合并,直到理论次数大于5为止。
第二节 适合性检验
一、适合性检验的意义
判断实际观察的属性类别分配是否符合已知属性类别分配理论或学说的假设检验称为适合性检验。在适合性检验中,无效假设为H0:实际观察的属性类别分配符合已知属性类别分配的理论或学说;备择假设为HA:实际观察的属性类别分配不符合已知属性类别分配的理论或学说。并在无效假设成立的条件下,按已知属性类别分配的理论或学说计算各属性类别的理论次数。因所计算得的各个属性类别理论次数的总和应等于各个属性类别实际观察次数的总和,即独立的理论次数的个数等于属性类别分类数减1。也就是说,适合性检验的自由度等于属性类别分类数减1。若属性类别分类数为k,则适合性检验的自由度为k-1 。然后根据(7-1)或(7-4)计算出(2或(2c。将所计算得的(2或(2c值与根据自由度k-1查(2值表(附表8)所得的临界(2值:(20.05、(20.01比较:若(2 (或(2c)<(20.05,P>0.05,表明实际观察次数与理论次数差异不显著,可以认为实际观察的属性类别分配符合已知属性类别分配的理论或学说;若(20.05≤(2 (或(2c)<(20.01,0.01<P≤0.05,表明实际观察次数与理论次数差异显著,实际观察的属性类别分配不符合已知属性类别分配的理论或学说; 若(2 ( 或(2c)≥(20.01,P≤0.01,表明实际观察次数与理论次数差异极显著,实际观察的属性类别分配极显著不符合已知属性类别分配的理论或学说。
二、适合性检验的方法下面结合实例说明适合性检验方法。
【例7.1】 在进行山羊群体遗传检测时,观察了260只白色羊与黑色羊杂交的子二代毛色,其中181只为白色,79只为黑色,问此毛色的比率是否符合孟德尔遗传分离定律的3∶1比例?
检验步骤如下:
(一)提出无效假设与备择假设
H0:子二代分离现象符合3∶1的理论比例。
HA:子二代分离现象不符合3∶1的理论比例。
(二)选择计算公式 由于本例是涉及到两组毛色(白色与黑色),属性类别分类数k=2,自由度df=k-1=2-1=1,须使用公式(7—4)来计算。
(三)计算理论次数 根据理论比率3∶1求理论次数:
白色理论次数:T1=260×3/4=195
黑色理论次数:T2=260×1/4=65
或 T2=260-T1=260-195=65
(四)计算
表7—2 (2c计算表性 状
实际观察次数(A)
理论次数(T)
A-T

白 色
181
195
-14
0.935
黑 色
79
65
+14
2.804
总 和
260
260
0
3.739

(五)查临界(2值,作出统计推断 当自由度df=1时,查得(20.05(1) =3.84,计算的(2c<(20.05(1),故P>0.05,不能否定H0,表明实际观察次数与理论次数差异不显著,可以认为白色羊与黑色羊的比率符合孟德尔遗传分离定律3∶1的理论比例。
【例7.2】 在研究牛的毛色和角的有无两对相对性状分离现象时,用黑色无角牛和红色有角牛杂交,子二代出现黑色无角牛192头,黑色有角牛78头,红色无角牛72头,红色有角牛18头,共360头。试问这两对性状是否符合孟德尔遗传规律中9∶3∶3∶1的遗传比例?
检验步骤:
(一)提出无效假设与备择假设
H0:实际观察次数之比符合9∶3∶3∶1的理论比例。
HA:实际观察次数之比不符合9∶3∶3∶1的分离理论比例。
(二)选择计算公式 由于本例的属性类别分类数k=4:自由度df=k-1=4-1=3>1,故利用(7—1)式计算。
(三)计算理论次数 依据各理论比率9:3:3:1计算理论次数:
黑色无角牛的理论次数T1:360×9/16=202.5;
黑色有角牛的理论次数T2:360×3/16=67.5;
红色无角牛的理论次数T3:360×3/16=67.5;
红色有角牛的理论次数T4:360×1/16=22.5。
或 T4=360-202.5-67.5-67.5=22.5
(四)列表计算
表7—3 计算表类 型
实际观察次数A
理论次数T
A-T
(A-T)2/T
黑色无角牛
192(A1)
202.5(T1)
-10.5
0.5444
黑色有角牛
78(A2)
67.5(T2)
+10.5
1.6333
红色无角牛
72(A3)
67.5(T3)
+4.5
1.6333
红色有角牛
18(A4)
22.5(T4)
-4.5
0.9000
总 计
360
360
0
4.711
==0.5444+1.6333+1.6333+0.9=4.711
(五)查临界值,作出统计推断 当df=3时,(20.05(3)=7.815,因<0。05(3),P>0.05,不能否定H0,表明实际观察次数与理论次数差异不显著,可以认为毛色与角的有无两对性状杂交二代的分离现象符合孟德尔遗传规律中9∶3∶3∶1的遗传比例。
*三、显著性检验的再分割法
当实际观察次数与理论次数经检验差异显著或极显著时,还应对其结果进行再分割检验,下面举例说明。
【例7.3】 两对相对性状杂交子二代4种表现型A-B-、A-bb、aaB-、aabb的观察次数依次为152、39、53、6,问这两对相对性状的遗传是否符合孟德尔遗传规律中9∶3∶3∶1的比例。
检验步骤同【例7.2】,计算结果见表7—4。
表7—4 计算表表现型
实际观察次数A
理论次数T
A-T
(A-T)2/T
A-B-
152
140.625
11.375
0.920
A-bb
39
46.875
-7.875
1.323
aa B-
53
46.875
6.125
0.800
aa bb
6
15.625
-9.625
5.929
总 和
250
250
0
=8.972
表中理论次数依9∶3∶3∶1理论比率计算:
A-B-的理论次数T1:250×9/16=140.625;
A-bb的理论次数T2=aaB-的理论次数T3:250×3/16=46.875;
aa bb的理论次数T4:250×1/16=15.625。
或 T4=250-140.625-46.875-46.875=15.625
由表7—5可知(2=8.972,由df=3查(2值表得:(20.05(3)=7.815,(20.01(3)=11.345。因为(20.05(3)< (2< (20.01(3),故0.01<P<0.05,表明实际观察次数与理论观察次数差异显著,即该资料不符合9∶3∶3∶1的遗传规律,有必要进一步检验,以具体确定哪样的表现型的实际观察次数不符合9∶3∶3∶1的比例。这时须采用(2检验的再分割法。
(2检验的再分割法的具体作法是:将一张列联表的总(2统计量,分割为数目等于该表总自由度的多个分量。每个分量的(2值对应于由原始数据所产生的一特殊列联表,且每个分量独立于其它分量,这样各分量的(2值之和等于总(2值。这种可加性只有在所分割的列联表是相互独立、各分量的(2值不作矫正的条件下成立。
下面我们利用(2检验的再分割法对【例7.3】的资料进行进一步检验。
1,检验A-B-,A-bb,aaB- 3种表现型是否符合9∶3∶3的比例。分割后(2值(记为)的计算见表7—5。
表7—5 计算表(理论比例9∶3∶3)
表现型
实际观察次数A
理论次数T
A-T
(A-T)2/T
A-B-
152
146.400
5.600
0.214
A-bb
39
48.800
-9.800
1.968
aaB-
53
48.800
4.200
0.361
总和
244
244
0
2.543
=0.214+1.968+0.361=2.543
由df1=3-1=2,查(2值表得,(20..05(2)=5.991,<(20..05,P>0.05,表明实际观察次数与理论观察次数差异不显著,可以认为3种表现型符合9∶3∶3的理论比例。于是,我们再分析表现型aabb是否与其它三种表现型的合并组比例不符合1:15的理论比例。
2,检验aabb表现型与其它三种表现型的合并组是否符合1:15的比例,分割后(2值(记为)的计算见表7-6。
表7—6 分割表(理论比例1∶15)
表现型
实际观察次数A
理论次数T
A-T
(A-T)2/T
aabb
6
15.625
-9.625
5.929
其它三种表现型合并组
244
234.375
9.625
0.395
总 和
250
250.000
0
6.324
=5.929+0.395=6.324
由df2 =2-1=1,查(2表得,(20..05(12)=3.841,(20..05(1)=6.635,由于(20..05(1)< (22< (20..01(1),故0.01<P<0.05,表明实际观察次数与理论次数差异显著,即aabb表现型与其它三种表现型组合不符合1∶15的比例,这样的结论可为我们进一步研究这个问题提供线索。
(2经分割后,=2.543,=6.324,+=8.867与总(2=8.922略有差异,这是由于计算的舍入误差所造成;总自由度df=3,df1=2,df2=1,所以总df=df1+df2。如果分割后(2值或自由度之和不等于(2值或总自由度,说明所分割的列联表相互不独立。
*四、资料分布类型的适合性检验实际观测得来的资料是否服从某种理论分布,亦可应用适合性检验来判断。在正态分布的适合性检验中,由于理论次数是由样本总次数、平均数与标准差决定的,用去3个自由度,所以自由度为k-3(k为组数);而在二项分布和波松分布的适合性检验中,由于其理论次数由总次数与均数求得,丧失2个自由度,所以自由度为k-2。但应注意,当组段内理论次数小于5时,必须与相邻组段进行合并,直至合并的理论次数大于5时为止。下面分别举例说明。
(一)实际观测资料服从正态分布的适合性检验
【例7.4】 检验200头大白猪仔猪一月窝重的资料是否服从正态分布。
表7—7 200头大白猪仔猪一月龄窝重服从正态分布的适合性检验表组限
(1)
组中值(x)
(2)
实际次数(f)
(3)
上限(l)
(4)
l-
(5)
u=(x-)/Sc
(6)
累加概率(a)
(7)
各组概率
(8)
理论次数
(9)
(2
(10)
<8
8(
16(
12
20
0
4 10
6
8
16
24
-57.6
-49.6
-41.6
-2.57
-2.21
-1.85
0.0051
0.0136
0.0322
0.0051
0.0085
0.0186
1.016
1.704 6.44
3.720
1.9680
24(
28
9
32
-33.6
-1.50
0.0668
0.0346
6.920
0.6252
32(
36
10
40
-25.6
-1.14
0.1271
0.0603
12.060
0.3519
40(
44
13
48
-17.6
-0.78
0.2177
0.0906
18.120
1.4467
48(
52
17
56
-9.6
-0.43
0.3336
0.1159
23.180
1.6476
56(
60
26
64
-1.6
-0.07
0.4721
0.1385
27.700
0.1043
64(
68
35
72
6.4
0.29
0.6141
0.1420
28.400
1.5338
72(
76
28
80
14.4
0.64
0.7389
0.1248
24.960
0.3703
80(
84
21
88
22.4
1.00
0.8413
0.1024
20.480
0.0132
88(
92
16
96
30.4
1.35
0.9115
0.0702
14.040
0.2736
96(
100
8
104
38.4
1.71
0.9564
0.0449
8.980
0.1069
104(
112(
>120
108
116
4
3 7
0
112
120
46.4
54.4
2.07
2.42
0.9808
0.99224
0.0244
0.0114
0.0078
4.880
2.288 8.72
1.552
0.3393
合计
200
1.0000
200.00
8.7308
1、先将资料(原始数据略)整理成次数分布表,组限、组中值、各组的次数列于表7-7的(1)、(2)、(3)栏,再将各组上限列于第(4)栏中。
2、计算各组组上限与均数(=65.6kg)之差,列于第(5)栏。
3、计算校正标准差Sc。由于由分组资料求得的标准差较不分组时所得标准差为大,故需作校正。

4、依公式求各组上限的正态离差,列入第6栏。如第一组

5、设该资料服从正态分布,依u值查正态分布表得各组段的累计概率(a),列入第(7)栏。如当u=-2.57时,a=0.0051,u=0.29时,a=0.6141。
6、求出每一组段的概率,列入第(8)栏。由下一组段的累加概率减去本组段的累加概率而得。如8─ 组段的概率为0.0136-0.0051=0.0085。
7、以总数n=200头乘以各组概率便得理论次数,列入第(9)栏。凡理论值小于5者应加以合并。本例前三组与后三组分别合并。合并后的实际次数与理论次数分别为10与6.44、7与8.72,见第(3)与第(9)栏。
8、求各组(2值,列入第(10)栏。
9、确定自由度。这里是因为求理论次数时用去均数,标准差与总次数三个统计量,该例经合并共12个组,故df=12-3=9。
10、结论。由df=9查(2表得:(20.05(9)=16.919,而计算所得的(2值为:(2=8.7808,因为(2<(20.05,P>0.05,表明各组实际次数与由正态分布计算的理论次数差异不显著,可以认为大白猪仔猪一月窝重服从正态分布。
(二)实际观测资料服从二项分布的适合性检验
【例7.5】 用800粒牧草种子进行发芽试验,分80行,每行10粒种子,共有174粒发芽。则每粒种子发芽的概率约为174/800=0.2175,不发芽的概率约为0.7825(即1-0.2175),每行发芽种子数见表7—8,问该资料是否服从二项分布。
表7—8 80行发芽试验资料服从二项分布的适合性检验计算表一行内种子发芽数
实际行数A
理论概率
理论行数T

0
1
2
3
4
5
6
7
8
9
10
6
20
28
12
8
6
0
0 14
0
0
0
0.0861
0.2392
0.2992
0.2218
0.1079
0.0360
0.0083
0.0013
0.0001
0.0000
0.0000
6.8880
19.1360
23.9360
17.7440
8.6320
2.8800
0.6640
0.1040 12.3600
0.0800
0.0000
0.0000
0.1145
0.0390
0.6900
1.8594
0.2176
总 和
80
2.9205
表中理论概率由二项分布概率计算公式:计算,如
;
;
表中的理论行数由理论概率乘以80行而得,如
0.0861(80=6.8880,
0.2392(80=19.1360
由于表中后6组的理论次数均小于5,故将后6组与第5组合并为一组。并组以后,资料分为5组。
由表7—8可知,(2=2.9025。由df=5-2=3,查(2值表得:(20..05(3)=7.81,因为(2<(20.05,P>0.05,表明实际行数与由二项分布计算得来的理论行数差异不显著,可以认为种子发芽试验的结果服从二项分布。
(三)实际观测资料服从波松分布的适合性检验
【例7.6】 用显微镜检查某样品内结核菌的数目,对某些视野内各小方格的结核菌数计数,然后按不同的结核菌数目把格子分类,记录每类的格子数。其结果见表7—9第(1)、(2)栏。试检验结核菌数是否服从波松分布。
1,计算理论概率 设结核菌数服从波松分布P(λ),其概率计算公式为:
 (7—5)
其中λ为平均数μ,且等于方差σ2。此时因λ未知,可利用样本平均数来估计。利用加权法求样本平均数为:

表7—9 结核菌数服从波松分布适合性检验计算表结核菌数x(1)
实际格子数(f=A) (2)
理论概率(3)
理论格子数(T)(4)
(A-T)2/T(5)
0
5
0.0506
1
19
0.1511
5.9708
0.1578
2
26
0.2253
17.8298
0.1768
3
26
0.2240
26.5854
0.0129
4
21
0.1671
26.4320
0.0071
5
13
0.0997
19.7178
0.0834
6
7
8
9
5
1 8
1
1
0.0496
0.0211
0.0079
0.0026
5.8528
2.4898 9.5818
0.9322
0.3068
0.1297
0.2611
总计
118
0.9990
117.8820
0.7288
将代入(7—5)式,求得各项理论概率为

计算结果列于第(3)栏。
2,计算理论次数 将总次数N=118乘以各组的理论概率即得各组理论次数T。计算结果列于第(4)栏。由于表后4组的理论次数小于5,故将后4组与第7组合并为一组,合并后的实际格子数为8,理论格子数为9.5818。
3,计算(2值 根据表7—9第(5)栏的数据可得(2值为:

因为此例经并组后的分组数为7;计算理论次数利用了样本平均数和总次数,所以自由度为7-2=5。当df=5时,查(2值表得:(20.05(5)=11.07,因为(2< (20.05(5),P>0.05,表明结核菌的各实际格子数与根据波松分布计算出的理论格子数差异不显著,可以认为结核菌数服从波松分布。
第三节 独立性检验
一、独立性检验的意义对次数资料,除进行适合性检验外,有时需要分析两类因子是相互独立还是彼此相关。如研究两类药物对家畜某种疾病治疗效果的好坏,先将病畜分为两组,一组用第一种药物治疗,另一组用第二种药物治疗,然后统计每种药物的治愈头数和未治愈头数。这时需要分析药物种类与疗效是否相关,若两者彼此相关,表明疗效因药物不同而异,即两种药物疗效不相同;若两者相互独立,表明两种药物疗效相同。这种根据次数资料判断两类因子彼此相关或相互独立的假设检验就是独立性检验。独立性检验实际上是基于次数资料对子因子间相关性的研究。
独立性检验与适合性检验是两种不同的检验方法,除了研究目的不同外,还有以下区别:
(一)独立性检验的次数资料是按两因子属性类别进行归组。根据两因子属性类别数的不同而构成2×2、2×c、r×c列联表(r为行因子的属性类别数,c为列因子的属性类别数)。而适合性检验只按某一因子的属性类别将如性别、表现型等次数资料归组。
(二)适合性检验按已知的属性分类理论或学说计算理论次数。独立性检验在计算理论次数时没有现成的理论或学说可资利用,理论次数是在两因子相互独立的假设下进行计算。
(三)在适合性检验中确定自由度时,只有一个约束条件:各理论次数之和等于各实际次数之和,自由度为属性类别数减1。而在r×c列联表的独立性检验中,共有rc个理论次数,但受到以下条件的约束:1、rc个理论次数的总和等于rc个实际次数的总和;2、r个横行中的每一个横行理论次数总和等于该行实际次数的总和。但由于r个横行实际次数之和的总和应等于rc个实际次数之和,因而独立的行约束条件只有r-1个;3、类似地,独立的列约束条件有c-1个。因而在进行独立性检验时,自由度为rc-1-(r-1)-(c-1)=(r-1)(c-1),即等于(横行属性类别数-1)×(直列属性类别数-1)。
二、独立性检验的方法下面结合实例分别介绍2×2、2×c、r×c列联表独立性检验的具体过程。
(一)2×2列联表的独立性检验 2×2列联表的一般形式如表7—10所示,其自由度df=( C -1) (r-1)=(2-1) (2-1)=1,在进行(2检验时,需作连续性矫正,应计算值。
表7—10 2×2列联表的一般形式
1
2
行总合
1
()
()
=+
2
()
()
=+
列总合T.j
=+
=+
T..=A11+A12+A21+A22
其中Aij为实际观察次数,Tij为理论次数。
【例7.7】 某猪场用80头猪检验某种疫苗是否有预防效果。结果是注射疫苗的44头中有12头发病,32头未发病;未注射的36头中有22头发病,14头未发病,问该疫苗是否有预防效果?
1,先将资料整理成列联表(见表7—11)
表7—11 2×2列联表
发病
未发病
行总和T i.
发病率
注射
12(18.7)
32(25.3)
T1.:44
27.3%
未注射
22(15.3)
14(20.7)
T 2.:36
61.1%
列总和T.j
T.1:34
T.2:46
T.。:80
2,提出无效假设与备择假设
H0:发病与否和注射疫苗无关,即二因子相互独立。
HA:发病与否和注射疫苗有关,即二因子彼此相关。
3,计算理论次数 根据二因子相互独立的假设,由样本数据计算出各个理论次数。二因子相互独立,就是说注射疫苗与否不影响发病率。也就是说注射组与未注射组的理论发病率应当相同,均应等于总发病率34/80=0.425。依此计算出各个理论次数如下:
注射组的理论发病数:T11=44×34/80=18.7
注射组的理论未发病数:T12=44×46/80=25.3,或:T12=44-18.7=25.3;
未注射组的理论发病数:T21=36×34/80=15.3,或T21=34-18.7=15.3;
未注射组的理论未发病数:T22=36×46/80=20.7,或T22=36-15.3=20.7。
从上述各理论次数Tij的计算可以看到,理论次数的计算利用了行、列总和,总总和,4个理论次数仅有一个是独立的。表7-11括号内的数据为相应的理论次数。
4,计算值 将表7-11中的实际次数、理论次数代入7—4式得:

+
5,由自由度df=1查临界(2值,作出统计推断 因为(20.01(1)=6.63,而=7.944>(20.01(1),P<0.01,否定H0,接受HA,表明发病率与是否注射疫苗极显著相关,这里表现为注射组发病率极显著低于未注射组,说明该疫苗是有预防效果的。
在进行2(2列联表独立性检验时,还可利用下述简化公式(7-6)计算:
 (7—6)
在(7-6)式中,不需要先计算理论次数,直接利用实际观察次数Aij,行、列总和Ti.、T.j和总总和T..进行计算,比利用公式(7-4)计算简便,且舍入误差小。
对于【例7.7】,利用(7-6)式可得:

所得结果与前面计算计算的相同。
(二)2×c列联表的独立性检验 2×c列联表是行因子的属性类别数为2,列因子的属性类别数为c(c(3)的列联表。其自由度df=(2-1) (c -1),因为c(3,所以自由度大于2,在进行(2检验时,不需作连续性矫正。2×c表的一般形式见表7—12。
表7—12 2×c联列表一般形式
1
2
…
c
行总和
1


…


2


…


列总和


…

总总和
其中(i=1,2;j=1,2,…,c)为实际观察次数。
【例7.8】 在甲、乙两地进行水牛体型调查,将体型按优、良、中、劣四个等级分类,其结果见表7—13,问两地水牛体型构成比是否相同。
表7—13 两地水牛体型分类统计
优
良
中
劣
行总和Ti.
甲
10(13.3)
10(10.0)
60(53.3)
10(13.4)
90
乙
10(6.7)
5(5.0)
20(26.7)
10(6.6)
45
列总和T.j
20
15
80
20
135
这是一个2×4列联表独立性检验的问题。检验步骤如下:
1,提出无效假设与备择假设
H0:水牛体型构成比与地区无关,即两地水牛体型构成比相同。
HA:水牛体型构成比与地区有关,即两地水牛体型构成比不同。
2,计算各个理论次数,并填在各观察次数后的括号中 计算方法与2×2表类似,即根据两地水牛体型构成比相同的假设计算。如优等组中,甲地、乙地的理论次数按理论比率20/135计算;良等组中甲地、乙地的理论次数按理论比率15/135计算;中等、劣等组中甲地、乙地的理论次数分别按理论比率80/135和20/135计算。
甲地优等组理论次数:T11=90×20/135=13.3,
乙地优等组理论次数:T21=45×20/135=6.7,或T21=20-13.3=6.7;
其余各个理论次数的计算类似。
3.计算计算(2值

4,由自由度df=3查临界(2值,作出统计推断 因为(20..05(3)=7.815,而(2=7.582<(20..05(3),p>0.05,不能否定H0,可以认为甲、乙两地水牛体型构成比相同。
在进行2×c列联表独立性检验时,还可利用下述简化公式(7-7)或(7-8)计算 (2:
 (7—7)
或  (7—8)
(7-7)或(7-8)式的区别在于:(7-7)式利用第一行中的实际观察次数A1j和行总和T1.;(7-8)式利用第二行中的实际观察次数A2j和行总和T2.,计算结果相同。对于[例7-7]利用(7-8)式计算(2值得:

计算结果与利用(7—1)式计算的结果因舍入误差略有不同。
此外,在畜牧、水产科学研究中,有时需将数量性状资料以等级分类,如剪毛量分为特等、一等、二等,产奶量分为高产与低产等,这些由数量性状资料转化为质量性状的次数资料检验,也可用(2检验。
【例7.9】 分别统计了A、B两个品种各67头经产母猪的产仔情况,结果见表7—14,问A、B两品种的产仔构成比是否相同?
表7—14 A、B两个品种产仔数的分类统计
9头以下
10-12头
13头以上
行总和Ti.
A
17
44
6
67
B
5
33
29
67
列总和T.j
22
77
35
134
1、提出无效假设与备择假设
H0:A、B两个品种产仔数分级构成比相同。
HA:A、B两个品种产仔数分级构成比不同。
2、计算(2值 用简化公式(7—7)计算为:

3、由自由度df=(2-1)(3-1)=2查临界(2值,作出统计推断 因为(20.05(2)=9.21,(2> (20.01,P<0.01,所以否定H0,接受HA,表明A、B两品种产仔数构成比差异极显著。需要应用(2检验的再分割法来具体确定分级构成比差异在那样的等级。
4,(2检验的再分割法
(1)先对两个品种产仔数在9头以下和10—12头进行(2检验,分割后的情况见表7—15。
表7—15 (21计算表
9头以下
10-12头
行总和Ti.
A
17
44
61
B
5
33
38
列总和T.j
22
77
99
利用简化公式(7-7)计算(21值为:

由df1=2-1=1,查(2值表得:(20.05(1)=3.841,因为(21< (20.05(1),P>0.05,表明这两个品种的产仔数在9头以下和10—12头这两个级别内的比率差异不显著。
(2)对产仔数在13头以上组与其他合并组(即9头以下和10—12头两个组的合并)进行(2检验,分割后见表7—16。
表7—16 (22计算表
合并组
13头以上
总 和
A
61
6
67
B
38
29
67
总 和
99
35
134
利用简化公式(7-7)计算(22值为:

由df2=2-1=1,查(2值表得:(20.05(1)=3.846,(20.01(1)=6.63,因为(22>(20.01(1),P<0.01,表明这两个品种的产仔数在合并组与13头以上组的比率差异极显著。其中B品种产仔数在13头以上的比率为29/67=42.38%,极显著高于A品种产仔数在13头以上的比率6/67=8.96%。或者说B品种产仔数在合并组(12头以下)的比率为38/67=56.72%,极显著低于A品种产仔数在合并组(12头以下)的比率61/67=91.04%。
经分割检验后,df=df1+df2=2+1=3,(2=23.25=(21+ (22=2.93+20.458=23.388,(2略小于(21+(22,是由于计算中的舍入误差所致。
(三)r×c列联表的独立性检验 r×c表是指行因子的属性类别数为r(r>2),列因子的属性类别数为c( c>2)的列联表。其一般形式见表7-17。
表7—17 r×c列联表的一般形式
1
2
…
c
行总和
1


…


2


…








r


…


列总和


…


其中Aij(i=1,2,…r;j=1,2,…c)为实际观察次数。
r×c列联表各个理论次数的计算方法与上述(2×2)、(2×c)表适合性检验类似。但一般用简化公式计算(2值,其公式为,
 (7—9)
【例7.10】 对三组奶牛(每组39头)分别喂给不同的饲料,各组发病次数统计如下表,问发病次数的构成比与所喂饲料是否有关?
表7—18 三组牛的发病次数资料发病次数
饲 料
总 和
1
2
3
0
19(17.3)
16(17.3)
17(17.3)
52
1
1(0.3)
0(0.3)
0(0.3)
1
2
0(1.3)
3(1.3)
1(1.3)
4
3
7(5.7)
9(5.7)
1(5.7)
17
4
3(4.7)
5(4.7)
6(4.7)
14
5
4(3.3)
1(3.3)
5(3.3)
10
6
2(2.0)
1(2.0)
3(2.0)
6
7
0(1.3)
2(1.3)
2(1.3)
4
8
1(2.3)
2(2.3)
4(2.3)
7
9
2(0.7)
0(0.7)
0(0.7)
2
总 和
39
39
39
117
检验步骤如下:
1、提出无效假设与备择假设
H0:发病次数的构成比与饲料种类无关,即二者相互独立。
HA:发病次数的构成比与饲料种类有关,即二者彼此独立。
2、计算理论次数 对于理论次数小于5者,将相邻几个组加以合并(见表7—19),合并后的各组的理论次数均大于5。
表7—19 资料合并结果发病次数
饲 料
1
2
3
总 和
0
19(17.3)
16(17.3)
17(17.3)
52
1-3
8(7.3)
12(7.3)
2(7.3)
22
4-5
7(8.0)
6(8.0)
11(8.0)
24
6-8
5(6.3)
5(6.3)
9(6.3)
19
总 和
39
39
39
117
(注:括号内为理论次数)
3、计算(2值 利用(7-9)式计算(2值,得:

4、查临界(2值,进行统计推断 由自由度df=(4-1)(3-1)=6,查临界(2值得:(20..05(6)=12.9,因为计算所得的(2< (20.05(6),P>0.05,不能否定HO,可以认为奶牛的发病次数的构成比与饲料种类相互独立,即用三种不同的饲料饲喂奶牛,各组奶牛发病次数的构成比相同。
习 题
1,(2检验与t检验、F检验在应用上有什么区别?
2,什么是适合性检验和独立性检验?它们有何区别?
3,什么情况下(2检验需作矫正?如何矫正?什么情况下先将各组合并后再作(2检验?合并时应注意什么问题?
4,在什么情况下需应用(2检验的再分割法?如何对总(2值进行分割?
5,两对相对性状杂交子二代A—B—,A—bb,aaB—,aabb 4种表现型的观察次数依次为:315、108、101、32,问是否符合9∶3∶3∶1的遗传比例?(x2=0.475,接受H0)
6,某猪场102头仔猪中,公的54头,母的48头,问是否符合家畜性别1∶1的理论比例。
((2=0.2450,p>0.05)
7,某生物药品厂研制出一批新的鸡瘟疫苗,为检验其免疫力,用200只鸡进行试验,某中注射100只(经注射后患病的10只,不患病的90只),对照组(注射原疫苗组)100只(经注射后患病的15只,不患病的85只),试问新旧疫苗的免疫力是否有差异。
((2=0.731,接受H0)
8,甲、乙、丙三个奶牛场高产奶牛、低产奶牛头数统计如下,试问三个奶牛场高、低产奶牛的构成比是否有差异。
场 地
高产奶牛
低产奶牛
甲
32
18
乙
28
26
丙
38
10
((2=8.269,0.01<p<0.05,需进一步作(2分割检验)。
9,某防疫站对屠宰场及食品零售点的猪肉进表皮沙门氏杆菌代菌情况进行检验,结果如下表,问屠宰场与零售点猪肉带菌率有无显著差异。
采样地点
带菌头数
不带菌头数
屠宰场
8
32
零售点
14
16
((2c=4.486,P<0.05)
10,对陕西三个秦川牛保种基地县进行秦川牛肉用性能外形调查,划分为优良中下4个等级,试问三个地区秦川牛肉用性能各级构成比差异是否显著。
地区
优
良
中
下
甲
10
10
60
10
乙
10
5
20
10
丙
5
5
23
6
((2=7.73,P>0.05)