二、区间估计:确定一个区间,并给出该区间包含总体参数的概率。
点估计的最大缺点就是由于估计量也是统计量,它必然带有一定误差。换句话说估计值不可能正好等于真值。但估计值与真值到底差多少,点估计中没有给我们任何信息。而区间估计正好弥补了这个缺点,它不仅给出了真值的范围,而且给出了真值落入这一范围的概率。因此区间估计给出的信息显然多于点估计。
正态总体μ与σ2的置信区间
我们主要针对正态分布讨论μ与σ2的置信区间。这一方面是因为正态分布确实是最常见的分布,另一方面是因为中心极限定理保证了当样本足够大时,不管总体服从什么分布,我们都可以把看作近似服从正态分布。因此只有当样本含量较小时,我们才需要对总体是否服从正态分布加以考虑。
求μ与σ2的置信区间时,选择统计量和理论分布的方法与§3.3假设检验中完全相同,然后根据所得到的接受域对未知参量解不等式,即得到所求的置信区间。若所选择的显著性水平为α,则该区间包含总体参数的概率即为1-α,称为置信水平。
例3.13 求σ已知时μ的95%置信区间。
解:σ已知时
取α= 0.05,则:
解不等式,得:
即:μ的95%置信区间为:
例3.13 求两样本,标准差σi未知但相等时μ1-μ2的1-α置信区间。
解:两样本,标准差未知但相等时的统计量为:
显著性水平为α的接受域为:
把t表达式代入,解得μ1-μ2的1-α置信区间为:
例3.15求正态总体σ2的1-α置信区间
解:设样本方差为S2。根据(3.6)式,有:
∴
对未知参数σ2解不等式,得:
∴σ2的1-α置信区间为:
上述几道题我们都只进行了公式的推导,而没有代入具体的数字。当需要解决具体问题时,只须将数字代入即可。同时,我们并不希望同学们死记上述公式,而是要搞清楚在各种情况下什么是接受域,应当对哪个变量求解不等式,这样才能针对不同情况灵活使用公式。也有几种情况例题中未涉及,如σ2已知时的双样本u检验,σ2未知且不等的近似t检验,两方差是否相等的F检验等。相信同学们只要真正理解、掌握了上述几道例题的思想与方法,这些问题是不难解决的。另外,在某些情况下也会要求单侧置信区间,此时只要用单侧分位数代替双侧分位数即可。
2. 二项分布中P的置信区间。(参见国标GB4087.2–83)
二项分布的概率函数为:
x = 0, 1, 2, ……n
参数p的点估计为:。(n:样本含量。x:样本中具有某种属性的个体数)
置信区间的求法如下(Pu,PL分别为区间的上下限):
1°n<10时,置信区间一般太宽,无实用价值。
2°n≥10时,采用下述公式:
(3.24)
其中γ1= 2(n-x+1),γ2 = 2x;
(3.25)
其中γ1= 2(n-x),γ2 = 2(x+1)。
例3.16取n = 20, x = 8, 1-α= 0.95, 求上单侧,下单侧,双侧置信区间。
解:上单侧:n = 20, x = 8, γ1= 2(20-8)= 24,γ2= 2(8+1)= 18
查F分布表,取F0.95(15,24)与F0.95(20,24)的平均数:代入公式,得:
∴ 所求区间为:[0,0.608)。
下单侧:n = 20, x = 8, γ1= 2(20-8+1)= 26,γ2 = 2x = 16
查F分布表,取F0.95(24,16)与F0.95(30,16)的平均数:代入公式,得:
∴ 所求区间为:(0.217,1]。
双侧:n=20, x=8
PL: γ1= 2(20-8+1)= 26, γ2 = 2·8 = 16
查F分布表,取F0.975(24,16)与F0.975(30,16)的平均数:,代入公式,得:
;
Pu: γ1= 2(20-8)= 24, γ2 = 2(8+1)= 18,
查表,取F0.975(15,24)与F0.975(20,24)的平均数:,代入公式,得:
∴ 所求区间为:(0.191, 0.641)。
3° n>30, 且0.1<<0.9时,可使用下述近似公式:
(3.26)
(3.27)
式中,u为正态分布的分位数,d为常数,取值见表3.1。
表3.1 d与uα的取值
置信水平1-α
单侧
uα d
双侧
uα d
0.90
1.282 0.7
1.645 1.0
0.95
1.645 1
1.960 1.5
0.99
2.326 2
2.576 2.5
例3.17 取n=40,x=12, 1-α=0.95, 求双侧置信区间(PL,Pu)。
解:查表,得d=1.5, uα=1.960代入公式,得:
∴ 所求置信区间为:(0.1650,0.4657)。
4°当n>30, 且或时,可采用泊松近似。近似公式为:
(3.28)
式中,为分布的分位数,依单侧或双侧区间a可取值α或。括号中为自由度。
式中,同上。
例3.18 取n=50, x=5, 1-α=0.95, 求双侧置信区间。
解:,用接近于0的公式。
∴ 所求置信区间为(0.03396,0.2188)。
三、正态总体区间估计与显著性检验的关系:
1°来自于同一不等式,结果是一致的。因此必要时也可使用置信区间进行假设检验:只要看看H0中的理论值是否落在置信区间中就可以了。
2°直观上有一定差异。显著性检验是把H0:μ=μ0视为固定常数,依据它建立理论分布,再来判断实际观察值是否小概率事件;区间估计则是把观察值视为最可能的μ的取值(点估计),再以它为中心建立一个区间,并给出母体参数μ落入这一区间的概率(置信水平)。
§3.5 非参数检验I:χ2检验
前边我们介绍的假设检验都属于参数检验,也就是说检验目标是判断总体参数是否等于某一指定值,或两个总体的某一参数是否相等。本节主要介绍另一类检验,这就是非参数检验。它检验的目标一般与参数无关,而是总体分布的某种性质,例如是否服从某种指定的分布,两个事件是否独立等等。
χ2检验在非参数检验中应用相当广泛。在以前的检验中我们也用过χ2分布,当时用于检验总体的方差σ2是否等于某一指定值。而本节的用法与上述用法不同,它主要基于以下的Pearson定理。
Pearson定理:当(P1,P2,…Pr)是总体的真实概率分布时,统计量
(3.30)
随n的增加渐近于自由度为r-1的χ2分布。
(3.30)式的统计量也被称为Pearson计量。其中P1,P2,… Pr为r种不同属性出现的概率,n为样本含量,ni为样本中第i种属性出现的次数。
由于ni是样本中第i种属性出现的次数,是观察值;而pi是第i种属性出现的概率,因此npi可被看作是理论上该样本中第i种属性应出现的次数。这样我们就可以换一种写法,把ni视为观察值Oi,npi视为理论值Ti,则(3.30)式可写成:
(3.31)
这样一来,Pearson定理实际是说如果样本确实抽自由(P1,P2,…Pr)代表的总体,Oi和Ti之间的差异就只是随机误差,则Pearson统计量可视为服从χ2分布;反之若样本不是抽自由(P1,P2,…Pr)代表的总体,Oi和Ti之间的差异就不只是随机误差,从而使计算出的统计量有偏大的趋势。因此对上述Pearson统计量进行上单尾检验可用于判断离散型数据的观察值与理论值是否吻合。此时统计假设为:H0:Oi = T i;HA:Oi ≠ T I,但检验是上单尾检验。
显然,上述数据应满足:
。
另外,为了使Pearson统计量近似服从χ2(r–1)分布,还要求:
1°各理论值均大于5。即:Ti ≥ 5, i = 1, 2,…,r。如果有一个或多个Ti < 5,会使Pearson统计量明显偏离χ2分布,可能导致错误检验结果。
2°若自由度为1,则应作连续性矫正,即把统计量改为:
(3.32)
还应注意由于Pearson统计量的H0为Oi = Ti,所以统计量值为0意味着H0严格成立,即它不会有下侧拒绝域,永远只用上单侧检验。
Pearson统计量的应用主要有以下两个方面:
吻合度检验。用于检验总体是否服从某个指定分布。
方法为:设给定分布函数为F(x)。首先把x的值域分为r个不相重合的区间,并统计样本含量为n的一次抽样中,观察值落入各区间的次数,把落入区间i的次数记为Oi,i=1, 2,… r;再算出在指定的分布下,x落入每一区间的概率pi ,i=1, 2,… r。由于样本含量为n,因此理论上落入每一区间的次数应为Ti = n·pi;从而可用Pearson统计量进行检验。
需要特别注意的是,在做吻合度检验时,Pearson统计量的自由度可能发生变化。一般来说,如果给定的分布函数F(x)中不含有未知参数,则Pearson统计量的自由度就是r – 1;但如果F(x)中含有一个或几个未知参数,需要用从样本中计算出的估计量代替,则使用了几个估计量自由度一般就应在r – 1的基础上再减去几。如例3.19,观测值共分了9组,自由度本应为9 – 1 = 8,但由于理论分布的μ和σ2未知,使用估计量代替,因此自由度应为8 – 2 = 6。
例3.19 调查了某地200名男孩身高,得,分组数据见下表。男孩身高是否符合正态分布?
表3.2 男孩身高分布表
组号
区间
Oi
Pi
Ti
(Oi - Ti)2/Ti
1
(-∞, 126)
8
0.0344
6.88
0.1806
2
[126, 130)
13
0.0658
13.16
0.0019
3
[130, 134)
17
0.1291
25.81
3.0081
4
[134, 138)
37
0.1906
38.12
0.0332
5
[138, 142)
55
0.2120
42.40
3.7420
6
[142, 146)
33
0.1776
35.51
0.1781
7
[146, 150)
18
0.1120
22.40
0.8637
8
[150, 154)
10
0.0532
10.64
0.0380
9
[154, +∞)
9
0.0253
5.07
3.0506
表中前三列是观察数据,后三列是计算所得。计算公式为:设区间为[xi-1, xi),则
,
其中Ф为N(0,1)的分布函数,可查表得到。
T i = 200·Pi
自由度df = 9-1-2 = 6 (∵用,S2作为μ,σ2的估计量,∴应再减去二个自由度)。查χ2分布表,得: 。由于χ2 <(6),故可认为男孩身高分布与正态分布无明显差异。
例3.20 以红米非糯稻和白米糯稻杂交,子二代检测179株,数据如下:
属性(x)
红米非糯(0) 红米糯(1) 白米非糯(2) 白米糯(3)
合计
株数
96 37 31 15
179
问子二代分离是否符合9 : 3 : 3 : 1的规律?
解:若符合9 : 3 : 3 : 1的规律,则应有:
查表,,∴ 差异不显著,接受H0,子二代分离规律符合9:3:3:1。
本题理论分布中没有未知参数,因此χ2统计量自由度仍为3。
例3.21 用血球计数板计数每微升培养液中的酵母细胞,得数据如下表中的前两列:
细胞数i
出现次数Oi
概率pi
Ti
(Oi–Ti)2/ Ti
0
213
0.5054
202.16
0.581
1
128
0.3449
137.96
0.719
2
37
0.1177
47.08
2.158
3
18
0.0268
10.72
6.613
4
3
0.0046
1.84
5
1
0.0006
0.24
合计
400
1
400
10.17
问此细胞计数数据是否符合Poisson分布?
解:Poisson分布的概率函数:。其中只有唯一参数λ,既是期望又是方差。∴可用估计。
令,代入概率函数可求出i=0,1,…5的概率pi,填入表中第三列。
令Ti= n·pi= 400·pi,填入表中第四列。由于i=4,5时Ti值太小,所它们与i=3合并。
即令O3 = 18 + 3 + 1 = 22, T3 = 10.72 + 1.84 + 0.24 = 12.80
计算,填入第五列。将第五列各数字相加,得:χ2 = 10.71
由于计算理论分布时使用了一个估计量,因此自由度df = 4 - 2 = 2。
查表: ,∴差异极显著,拒绝H0,观测数据不符合Poisson分布。
一般来说细胞计数应服从Poisson分布,其前提条件就是各细胞之间既不能互相吸引,也不能互相排斥,必须是互不影响。本例中差异主要表现在出现3个以上细胞的次数明显偏多,也许说明细胞间有某种吸引力,有聚在一起的趋势。
二、列联表的独立性检验
列联表独立性检验是Pearsson统计量的又一重要应用。它主要用于检验两个事件是否独立,例如处理方法和效果是否独立。问题可以这样提出:
设实验中可采用r种处理方法,可能得到C种不同的实验结果。一个常见的问题就是:这r种方法的效果是否相同?或改一种问法:方法与效果是否独立?
例3.22 下表是对某种药的试验结果:
表3.3 给药方式与药效试验结果
给药方式
有效(A)
无效()
总数
有效率
口服(B)
58
40
98
59.2%
注射()
64
31
95
67.4%
总数
122
71
193
问给药方式对药效果是否有影响?
分析:表中各行、各列总数分别为口服与注射、有效与无效的总数。若A代表有效,B代表口服,则应有:P(A) = 第一列总数/总数;P(B) = 第一行总数/总数。这样,若我们保持表中各行各列总数不变,即保持口服与注射、有效与无效的总数不变,也就是保持了P(A)、P(B)等概率不变。在这样的条件下,若再有H0成立,即药效与给药方式无关,A与B互相独立,则有:P(AB)= P(A)·P(B)。此时总数×P(AB)就应是口服且有效的理论值。与此类似,可用以下方法计算出各格的理论值Ti:Ti = (行总数×列总数)/总数,从而可使用Pearson统计量对H0: O-T = 0 (或A与B独立)进行检验。这种方法就称为列联表独立性检验。设表有r行c列,由于在这种方法中使用了各行、各列总数作为常数,自由度也应相应减少。若各行总数都确定了,总数当然也就确定了;此时列总数只要确定c-1个即可,最后一个可用解方程的方法算出来。因此实际使用的常数不是r+c个,而是 r+c-1个。这样一来,自由度应为:
df = = (行总数-1)×(列总数-1)
解:在保持各行、列总数不变,且A与B独立的条件下,计算各格理论值Ti:
有效(A)
无效()
行总数
口服(B)
O1 = 58
O2 = 40
98
注射()
O3 = 64
O4 = 31
95
列总数
122
71
总数:193
Df=(2-1)×(2-1)=1
查χ2分布表,得:。,∴接受H0,给药方式与药效无关。
几点说明:
1°由于保持各列、行总数不变,相当每行、每列均加了一个约束,因此对r行c列列联表,自由度为df = (r – 1)·(c – 1)。
2°由于A与B独立,有:P(AB)= P(A)·P(B);这样在保持各行各列总数不变的条件下,可得Ti的计算公式为:
Ti = n·pI = n·P(AB) = n·P(A)·P(B)
=总数× (3.33)
3°由于常用的2×2列联表自由度为1,因此一般应加连续性矫正,即使用公式(3.32)代替(3.31)。
4°对于2×2列联表还可能有一种特殊的单侧检验。例如在例3.22中,若已知该药注射效果只会比口服好,不会比口服差;或问题改为:“问注射效果是否优于口服?”此时相当于专业知识或实际问题要求只检验注射效果偏好的一个单侧。前已述及,由于Pearson统计量自身的构造,它只能有上单尾检验,现在却又出来一个单侧。关于这个问题可进行如下分析:
2×2列联表自由度只有1,在它的4个格中只要有一个格的值确定了,其他3个格的值也就都定下来。因此Oi偏离Ti的情况只有某格Oi偏大和偏小两种。这里所说的特殊的单侧检验,实际就是在这两种中检验一种。若行或列不只2,则自由度多于1,Oi偏离Ti的情况就会复杂得多,不能只归结为两种了。
由于Pearsson统计量的分子为(Oi – Ti)2,对某一个格来说,Oi偏大偏小都会使统计量的值偏大。这说明在χ2上单尾的拒绝域中,本来就包含了某一格偏大或偏小两种情况,而且这两种情况是对称的,即它们出现的可能相等。在2×2列联表中,又只有这两种情况。这样一来,我们可以认为原来上单尾包含的值为α的概率中,有α/2是属于某格Oi偏大,α/2属于这一Oi偏小。具体到例3.21,就是有α/2属于注射优于口服,α/2属于注射劣于口服。因此此时Pearsson统计量的上单尾检验对注射效果来说,相当一种双尾检验;而如果要对注射效果进行单尾检验,同时又要保持α不变的话,则查表时不应查,而要查,即对α=0.05来说,应查。此时拒绝域对应的概率为2α,但只有一半即α是属于要检验的单尾。要注意由于统计量不能区分Oi偏大还是偏小,因此计算统计量之前应先检查一下注射有效的数据是否大于相应的Ti,如果不大于,则不必进行任何检验,直接得出结论“注射不明显优于口服”;若大于Ti,再按上述方法与比较进行检验。
例3.23 为检验某种血清预防感冒的作用;将用了血清的500人与未用血清的另500人在一年中的医疗记录进行比较,统计他们是否曾患感冒,得如下数据:
未感冒
曾感冒
合计
用血清
254(236.5)
246(263.5)
500
未用血清
219(236.5)
281(263.5)
500
合计
473
527
1000
问这种血清对预防感冒是否有效?
解:由于血清不会使人更易患感冒,因此本题应为单侧检验。同时由于用血清的人未感冒的多,感冒的少,因此血清可能有效,应检验。
按公式 计算各格理论值,填于各格括号中。再计算Pearsson统计量:
由于是对血清有效这一单侧进行检验,对于α=0.05,应查分位数,对α=0.01,应查
,∴差异显著,但未达极显著,即应拒绝H0,血清对预防感冒有效。
例3.24 为检测不同灌溉方式对水稻叶片衰老的影响,收集如下资料:
表3.4 水稻叶片衰老情况
灌溉方式
绿叶数
黄叶数
枯叶数
总计
深水
浅水
湿润
146(140.69)
183(180.26)
152(160.04)
7(8.78)
9(11.24)
14(9.98)
7(10.53)
13(13.49)
16(11.98)
160
205
182
总计
481
30
36
547
问叶片衰老是否与灌溉方式有关?
解:根据公式计算各格理论值,放在相应格的括号中。
例如 第一行第一列为:,
第一行第二列为: ,等等。
由于该表有三行三列,∴自由度df =(3-1)×(3-1) = 4。不须连续性矫正。查表:,∴差异不显著,接受H0,叶片衰老与灌溉方式无关。
三、2×2列联表的精确检验及离散分布尾区的建立。
列联表中某一格的理论数少于5时,不能用检验。对于2×2列联表来说,此时可使用精确检验法,即用古典概型的方法求出尾区的概率,然后与给定的显著性水平α相比,大于α则接受H0,反之则拒绝。
采用这种方法,需要解决两个问题:用古典概型求2×2列联表出现某一组数值的概率和离散分布尾区建立的方法。现在我们先来讨论后者。
离散分布尾区建立原则:从实际观察值开始,把对H0成立不利的方向上的概率全加起来,作为尾区的概率。
为了更好地理解这一原则,我们可以回想一下正态总体尾区建立的方法:确定尾区边界Uα以后,并不是以X=Uα为尾区,而是以X≥Uα为尾区(上单尾)。X≥Uα的区域实际是远离H0:μ=μ0的区域,即X的取值比Uα更不利于H0成立的区域。因此在离散分布中我们也不能认为尾区中只有一个观察值,而应包括整个取值比观察值更不利于H0成立的区域。这一建立尾区的原则适用于所有离散分布,如二项分布,泊松分布等。
2×2列联表概率的计算方法:设4个格的取值分别为:a,b,c,d。令N=a+b+c+d,事件E为保持各行,列总数不变,事件F为各格取值为a,b,c,d,则有:
前已述及,保持各行、各列总数不变实际是保持各种方法及各种结果的总数不变,即保证实验的外部条件不变。上式中的分子是出现a,b,c,d的有利场合,分母是保持行,列总数不变的有利场合。因此上式是保持条件不变的前提下出现a,b,c,d的概率。
尾区建立方法:若a,b,c,d中任何一个为0,则可用上式算出的P直值与α或比较。这是因为该格理论值一定是大于0的,比0更小的值又不可能出现,因此这时的概率P就是尾区概率。若各格取值均不为0,一般可取其中最接近于0的一个,求出它取值在0与当前值之间的所有概率P,并把它们都加起来,用其和与α或比较。这样做的前提是该格的理论值比观测值大,否则尾区的方向就不对了。例如:
80
10
15
6
这样一个2×2列联表,它的d格理论值为:,应使用精确检验法。但若使d降到0建立尾区,总概率为0.9877。这是因为d的理论值为3,观察值为6,如果是双侧检验,对理论值成立不利的方向应为d增加,而不是减小,所以应取d=6~16所有的概率之和为尾区。此时尾区概率为0.0504。
例3.25观察性别对某药物的反应,结果如下:
有
无
合计
男
4
1
5
女
3
6
9
合计
7
7
14
问男女对该药反应是否相同?
解:b的值为1,在4个格中最小。如果H0成立,b的理论值应为:5(7/14=2.5。从现在的值1出发,对H0成立不利的方向应是离理论值而去,即尾区应包括1和0。∴应求b=1,b=0的概率。
若b=0,行、列总和不变,则a, b, c, d的值分别为:5,0,2,7。
尾区概率P=P1+P0=0.122+0.010=0.132。
由于不知什么性别对药物反应强烈;∴应进行双侧检验,即与=0.025比较。
,∴接受H0,男女对该药反应无显著不同。
本题中P1=0.122,显然尾区概率P>P1>α, ∴也可不必计算P0。本题直观上看应有差异,但检验结果为没有,主要原因是样本量太少,应该继续观察。
例3.26 某种产品废品率p≤0.05为合格。抽检20个样品,发现二个废品,该批产品是否合格?若发现4个废品呢?
解:H0:p≤0.05(合格);HA:p>0.05(不合格),由于废品越多时HA成立越有利,尾区应从观察值向多的方向累加。
发现二个废品:尾区概率为:
P=P2+P3+…+P20=1–P0–P1
= = 1– 0.358 – 0.377
= 0.265 >α= 0.05
∴ 接受H0,该批产品可认为合格。
若发现4个废品,则尾区概率为:
P=P4+P5+…+P20=1-P0-P1-P2-P3
=1-0.358-0.377-0.189-0.060
=0.016<α=0.05
∴ 拒绝H0,该批产品可认为不合格。
例3.27 若废品率 p<0.05为合格,抽检20个样品有2个废品,该批产品是否合格?
解:H0:p≥0.05(不合格);HA:p<0.05(合格),此时尾区应从观察值向下累加。
尾区概率为:
P=P0+P1+P2=0.924>α
∴ 接受H0,产品应认为不合格。
实际上,P0=0.358>α,即20个样品全合格也不能认为该批产品合格。此时应增加样本量。当n=59时,0.9559≈0.048,即只有抽取59个样品且都合格时才能拒绝H0,此时才可认为该批产品合格。
从这两道例题可看出,合格标准为≤0.05与<0.05是非常不同的。这是因为显著性检验是对H0的“保护性”检验,即只有当观察到的样本取值与H0有相当显著的差异时才会拒绝。拒绝时一般比较可靠,而且可以选择犯第一类错误的概率。反之,犯第二类错误的概率β则不那么容易确定,而且当较小时,β常常是很大的。不过此时真值μ接近于H0中的假设值μ0,所以犯了第二类错误也不很严重。
§3.6 非参数检验II
上节主要介绍了χ2检验和与它有关的一些检验法。本节介绍其他一些常用的非参数检验,它们共同的特点是:1°不要求总体服从正态分布。2°常可用于定性数据。
秩和检验:
用途:检验两组或多组数据平均数是否相等。与t检验的不同点:不要求正态母体,只要求样本互相独立。
方法:把全部数据放在一起,从小到大排列,每个数据的位置编号就称为秩。然后再把数据按处理的不同分开,分别计算各处理的秩和,并以它为统计量。
1°两总体秩和检验。秩和检验的H0为:各处理效应相同。显然此时各处理的秩和也应差不多。选用样本含量较小的处理的秩和为统计量。若H0成立,则每个秩属于各个处理的可能性均相等。根据古典概型,应有:
P(n个秩的和为某值)=
利用这个公式,可计算出给定α下的秩和T的上下限,结果已制成表备查(见书后附表12)。
当n→∞时,T渐近正态分布
∴ n1,n2充分大时(通常要求有一个大于10),可使用u检验:
(3.35)
例3.28 两窝20日龄仔鼠体重分别为:(g)
A:55,60,49,66,53
B:61,58,70,63,55,59
它们的体重是否有差异?
解:把体重从小到大排列:
49
53
55
55
58
59
60
61
63
66
70
秩:
1(A)
2(A)
3.5(A)
3.5(B)
5(B)
6(B)
7(A)
8(B)
9(B)
10(A)
11(B)
由于A样本含量小,选它的秩和作统计量:TA=?23.5
查表,n1=5, n2=6, α=0.05, 得:T1=20,T2=40
∵T1<TA<T2, ∴接受H0,可以认为体重无显著差异。
例3.29 比较两种肉鸡饲料的效果,56日龄体重分别为:(kg)
饲料A:2.56, 2.73, 3.05, 2.87, 2.46, 2.93, 2.41, 2.58, 2.89, 2.76, 2.53
饲料B:3.12, 3.03, 2.86, 2.53, 2.79, 2.80, 2.96, 2.68, 2.89, 3.10
这二种饲料效果是否有差异?
解:对两种饲料统一排序,得:
A:
2.41
2.46
2.53
2.56
2.58
2.73
2.76
2.87
2.89
2.93
3.05
秩:
1
2
3.5
5
6
8
9
13
14.5
16
19
B:
2.53
2.68
2.79
2.80
2.86
2.89
2.96
3.03
3.10
3.12
秩:
3.5
7
10
11
12
14.5
17
18
20
21
∴ TA=97 n1=11, n2=10, 代入式(3.35)
∵ ,∴接受H0,可认为两种饲料无显著差异。
注意查表检验时一定要选取样本含量小的秩和为统计量,采用近似检验时则不一定。但须注意近似公式中n1, n2的地位是不对称的,选定统计量后相应的样本含量必须是n1。
2°多总体秩和检验
要求:每个总体的样本含量ni>5, 总样本含量N>15。
H0:各总体均值无显著差异。统计量:
(3 .36)
其中ni,Ti分别为各样本含量和秩和,k为总体数,,为总样本含量。
可证明,在上述条件(ni >5, N>15)下,H近似服从自由度为(k-1)的χ2分布。
例3.30 四条河流含某种微量元素值为:(PPm)
a: 0.54, 0.70, 0.71 0.52, 0.75, 0.78, 0.61
b: 0.75, 0.80, 0.72, 0.71, 0.56, 0.68, 0.66 0.61
c: 0.63, 0.61, 0.59, 0.56, 0.42, 0.40, 0.53 0.55
d: 0.85, 0.87, 0.72, 0.78, 0.63, 0.90
其含量是否有显著差异?
解:混合排序,得:
a: 0.52 0.54 0.61 0.70 0.71 0.75 0.78 n1=7
秩:3 5 11 17 18.5 22.5 24.5 T1=101.5
b: 0.56 0.61 0.66 0.68 0.71 0.72 0.75 0.80 n2=8
秩:7.5 11 15 16 18.5 20.5 22.5 26 T2=137
c: 0.40 0.42 0.53 0.55 0.56 0.59 0.61 0.63 n3=8
秩:1 2 4 6 7.5 9 11 13.5 T3=54
d: 0.63 0.72 0.78 0.85 0.87 0.90 n4=6
秩:13.5 20.5 24.5 27 28 29 T4=142.5
,代入(3.36)式,得:
df=4–1=3,查χ2分布表,得:
∵ H>(3),∴差异极显著,拒绝H0,即:这四条河该种微量元素含量差异极显著。
秩和检验的几点注意事项:
a) 若有几个观察值相同,它们的秩都应取为平均数,因此都相等。例如例3.30中的0.56有两个,它们应排在第7, 8位,因此秩都取为7.5。
b)一般来说,成组数据的t检验和下面要学的用于多总体均值检验的方差分析比秩和检验更准确,这是因为秩和检验只利用了部分信息,即只利用了排序的位置,没有利用差值的大小。但秩和检验可用于更广的范围,如总体非正态,定性数据等。
符号检验
本检验相当于对配对数据的检验,但只考虑每对数据差值的符号,而不管其绝对值大小。H0:两处理无差异。显然若H0成立,则“+”与“-”出现概率均为1/2,令n+ ,n_分别代表“+”与“-”出现次数,则n+,n_均应服从p=0.5的二项分布。令k=min(n+ ,n_),则有:
其中n = n+ + n_。将尾区概率P与α或相比,可作出统计推断。
n较小时,符号检验的分位数也有专门表格可查;n较大时,k渐近正态分布:N(np, npq)。由于,有:
符号检验的优点与秩和检验类似,主要是不要求总体服从正态分布,可用定性资料,计算简单。缺点是利用信息较少,不够准确。
注意事项为:
a) 若有差值为0则舍去,样本含量n相应减1。
b) n≤4时,由于(1/2)4 >0.05,永无拒绝H0的可能。此时不能用符号检验。
例3.31 用两种方法处理后污水含量如下:
表3.5 两种方法处理后污水含量(PPm)
A方法
11.34
10.21
9.17
7.67
11.14
12.03
8.91
9.72
B方法
10.56
11.13
9.23
7.21
10.59
10.15
8.45
9.03
差值符号:
+
-
-
+
+
+
+
+
A方法
9.85
10.30
10.38
10.22
9.11
10.51
11.01
B方法
9.33
10.45
10.26
9.40
9.04
8.68
10.05
差值符号:
+
-
+
+
+
+
+
处理效果是否相同?
解:用符号检验: n+ =12, n_=3。查表,n=15, α=0.05双侧检验临界值为:3;α=0.01为:2。本题中n_=3, ∴差异显著,但未达极显著水平。应拒绝H0,可以认为两种方法效果有明显差异。
用配对数据t检验:
差值d:0.78, -0.92, -0.06, 0.46, 0.55, 1.88, 0.46, 0.69, 0.52, -0.15, 0.08, 0.82, 0.07, 1.83, 0.96。
查表,t0.975(14)=2.145, t0.995(14)=2.977, ∴t0.975<t<t0.995, 差异显著,但未达极显著水平,结论与符号检验相同。
但若把第11组数据交换一下:A:10.26, B:10.38, 则n_=4,符号检验结果为接受H0。而t检验结果为:
差异仍为显著但未达极显著。此时显然t检验的结果更可靠。
游程检验
当用样本对总体进行估计时,样本必须是随机的。如何检验样本的随机性呢?游程检验就是常用的方法之一。
所谓游程,就是我们用某种标准把样本分为两类,一类记为a,一类记为b。把它们按出现顺序排列,连续出现的同一种观察值(一串a或一串b)就称为一个游程。每个游程内包含的观察值个数称为游程长度,游程个数称为游程总数。当然aa…abb…b和abab…ab都不太可能是随机样本。因此游程数太多太少都应否定随机性。
以Ra记a的游程个数,na,nb分别表示序列中a,b的个数,则可证明Ra服从超几何分布。当N= na+ nb不太大时,可查表得到临界值;(注意查表时用的是总游程R= Ra+ Ra,不是Ra)。若N很大,则可用正态分布来近似:
(3.38)
(注意此时用的统计量为Ra,期望和方差表达式中na和nb的地位不是对称的)。
例3.32 判断下列序列的随机性:
(1) na=12, nb=15, R=8
(2) na=nb=18, R=20
(3) na=25, nb=22, Ra=10, Ra=9
解:(1)查表,得R1=8,R2=20,∵R=R1,拒绝H0,不能认为该序列是随机的。
(2)查表,n1=n2=18, 得:R1=12,R2=26,∵R1<R< R2, ∴接受H0,可认为该序列是随机的。
(3)用近似检验:
∵ ,∴ 接受H0,可认为是随机序列。
如果原始数据是定量数据,那么在未用游程检验之前必须进行变换,把它变成一串ab序列。常用的变换方法为把全部数据从小到大排列,把前一半换成a,后一半换成b,再放回原来的位置,即可进行游程检验。如果样本容量n为奇数,则可把中间一数舍弃。
例3.33 检验以下一组数据的随机性:
2.56, 2.73, 3.05, 2.87, 2.46, 2.93, 2.41, 2.58, 2.89, 2.76, 3.12, 3.03, 2.86, 2.53, 2.79, 2.80, 2.96, 2.68, 2.89
解:将全部数据从小到大排列,得:
2.41, 2.46, 2.53, 2.56, 2.58, 2.68, 2.73, 2.76, 2.79, 2.80,
2.86, 2.87, 2.89, 2.89, 2.93, 2.96, 3.03, 3.05, 3.12
舍去中间一个2.80,上排数以a表示,下排数以b表示,放回原位,得:
a a b b a b a a b a b b b a a b a b
共18个数据,n1=n2=9,总游程数R=12。
查表,得α=0.05时,R1=5,R2=15。∴R1<R<R2,可认为数据随机。
注:游程检验也可用于其他目的,例如可检验两样本是否抽自同一总体。方法为把它们混合排序,若抽自同一总体,序列应为随机的;若期望不同或方差不同,游程数都有减少的趋势。因此可作统计检验。
秩相关检验
本方法用于检验两个指标间相关性。例如抽取容量为n的样本,每一个体测定X,Y两个指标,要检验X,Y间的相关性。
方法:把X,Y指标分别从小到大排序,对每一个体可得它的两个指标的秩值,记为和。令
(3.39)
如果数据中有许多相同的值,则它们的秩也应相同,都取为它们秩的平均数。这种秩相同的情况对检验结果是会有影响的。如果秩相同的较多,则应加以修正:对每次涉及m个秩相同,令:
(3.40)
然后分别对两个变量中的t值求和,记为和,令
(3.41)
计算rs的修正公式为:
(3.42)
rs称为秩相关系数,可用它查相关系数表进行统计检验。当样本量较大时,也可采用t检验:
(3.43)
对普通相关系数(详见§5.2)来说,样本抽自正态总体是非常重要的,否则很可能得到完全错误的结论。如果已知总体非正态,又没有适当的变换方法可使它成为正态,则应使用秩相关的检验方法。
例3.34 调查得几个地区大气污染综合指数(PI)与肺癌发病率如下(见表3.6):
表3.6 大气污染综合指数与肺癌发病率
地区
1
2
3
4
5
6
7
PI
2.9
2.2
2.1
2.6
1.7
1.2
1.4
肺癌发病率
54.35
50.46
43.18
40.50
30.30
10.00
9.00
PI与肺癌发病率是否相关?
解:把表3.6中数据换为相应的秩:
地区号
1
2
3
4
5
6
7
PI秩
7
5
4
6
3
1
2
肺癌发病率秩
7
6
5
4
3
2
1
代入(3.39)式,得:
查表,得r0.05(7) = 0.786, r0.01(7) = 0.929
∴r0.05(7) < rs < r0.01(7),拒绝H0,差异显著,但未达极显著。可认为大气污染综合指数PI与肺癌发病率有关。
总的来说,本节所介绍的各种非参数检验方法检验精度都不高,如果原始数据是连续的定量数据的话,它们都不能充分利用原始数据中的信息。而且除游程检验外,它们都有与之对应的参数检验,这些参数检验都能更充分地利用连续定量数据中的信息。即使这样,非参数检验在统计学中仍占有一定位置,主要原因就是它们对总体分布没有特别要求;而那些参数检验一般都要求样本抽自正态总体。如果样本含量很大,有近百或数百之多,则对总体为正态的要求不是一个太大的问题,因为此时中心极限定理保证了其平均数近似服从正态分布;但如果是小样本,又不是正态分布,强行使用参数检验则很可能得出错误的结论。此时一般要求对数据进行变换,但在样本含量小,对真实总体分布又了解不多的情况下,选择正确的变换方法也是困难的。在这种情况下,非参数检验就成了较好的替代方案。因此这些非参数检验主要用于小样本,非正态总体的情况下。
作业
已知环境因素造成的小麦抽穗期的方差为σ2 = 2.781,今测得某种杂交小麦子二代158株抽穗期样本方差为S2 = 5.386,问这一差异是否全由环境因素造成?
已知14岁女孩平均体重为43.38kg。现抽取10名同龄的女运动员,其体重为:39, 36, 43, 43, 40, 46, 45, 45, 41, 42。问这些运动员的平均体重与同龄女孩是否相同?
已知10株杂交水稻单株产量分别为:272, 200, 268, 247, 267, 246, 363, 216, 206, 256(克)。已知普通水稻平均单株产量为250克,标准差为2.78克,问杂交稻单株产量是否明显增加?
饲养场规定,肉鸡平均体重超过了3公斤时方可屠宰,现随机抽取20只,测得, s=0.2kg,该批鸡是否达到屠宰批准?若标准为达到3公斤即可呢?
5. 已知某种果汁中VC含量服从正态分布,其质量标准规定VC含量不得少于20g/l, 标准差不得大于2g/l,现抽取10个样品进行检验,得, S=3.69/l, 问这批产品是否合格?
6. 杂交杨树育种目标为5年生树高达到10m。现抽测50株,得平均树高9.36m,样本标准差1.36m,问是否达到育种目标?
7. 为检查某降压药的疗效,选20名患者作实验。服药前后的舒张压分别为(mmHg):
患者号
1
2
3
4
5
6
7
8
9
10
11
治疗前
114
117
155
114
119
102
140
91
135
114
103
治疗后
94
114
125
98
121
95
104
95
106
92
87
患者号
12
13
14
15
16
17
18
19
20
治疗前
140
136
126
108
142
114
113
116
121
治疗后
138
112
114
91
140
91
88
106
112
该药是否有效?
8. 用两种电极测同一土壤样品PH值,结果如下:
A电极:5.78, 5.74, 5.84, 5.80
B电极:5.82, 5.87, 5.96, 5.89
问它们的结果是否相同?如果是四个样品两个电极分别测定的结果呢?
9. 给幼鼠喂不同饲料,研究每日钙留存量是否不同。以两种方式设计本实验。
第一种方式:同一鼠先后喂不同饲料。
鼠号:
1
2
3
4
5
6
7
8
9
A饲料
33.1
33.1
26.8
36.3
39.5
30.9
33.4
31.5
28.6
B饲料
36.7
28.8
35.1
35.2
43.8
25.7
36.5
35.9
28.7
第二种方式:甲组12只喂A饲料,乙组9只喂B饲料.
A饲料
29.7,
26.7,
28.9,
31.1,
33.1,
26.8,
36.3,
39.5,
33.4,
31.5,
28.6
B饲料
28.7,
28.3,
29.3,
32.2,
31.1,
30.0,
36.2,
36.8,
30.0.
检验这两种方式中A和B饲料的钙存留量是否有差异,并对两种方法进行比较。
10. 两群奶牛,各有50头。历史纪录日产奶量标准差分别为σ1=10kg, σ2=8kg;某日测得平均每头产量为 问两群牛产量是否有差异?
11. 前人结论说某品种玉米自交二代每穗粒重比自交一代会减少10g,现测得自交一代25穗,,S1=13.3g;自交二代30穗,,S2=20.1g,实测数据是否符合前人结论?
12.为对比两种肥料的效果,把试验田按肥力,灌溉条件等划分为9块基本一致的小区,每个小区再分成两半,各自随机施用一种肥料。所得产量(kg)如下:(每一小区为一列)
A肥料
13.48
14.56
13.68
13.20
14.16
13.92
13.44
13.78
12.52
B肥料
12.12
13.32
12.98
12.36
12.34
13.44
12.48
12.26
11.34
A肥料能否比B肥料增产1kg以上?
13. 对两品种作吸浆虫抗性对比试验。甲品种检查590粒,受害132粒;乙品种检查710粒,受害203粒。两品种抗性是否有差异?
14.试验1000粒种子,有620粒发芽,试求发芽率95%置信区间。
15.已知正态总体方差为σ2,现欲使μ的1-α置信区间长度不大于L,问应抽取容量为多大的样本?
16. 纯种玉米株高方差不应大于64cm2。现测量某一品种玉米75株,得株高=2100cm, s=10cm, 问是否可说这一品种已不纯?请给出实测株高方差的95%置信区间。
17. 分别建立第7题中治疗前后血压值的95%和99%置信区间。
18.某地区发现,896名14岁以下儿童中有52%为男孩,给出男孩比例的95%置信区间,并估计这群儿童性比是否合理。
19. 服用A药物的30个患者中有18人痊愈,服用B药的30患者中有25人痊愈,问这两种药物疗效有无差异?
20. 上题中若6人服A药痊愈5人,6人服B药痊愈3人,则结果如何?
21. 水质检验要求每毫升水中大肠杆菌不得超过3个。现取1毫升检验,发现4个细菌,问是否可据此断定水质超标?若发现7个细菌呢?
22. 两块田中调查小麦锈病发病率,第一块田有锈病372叶,无锈病24叶;第二块田有病330叶,无病48叶,请用列联表及百分数差异显著性检验两种方法比较这两块地发病率是否一致,并对结果加以比较。
23. 用显微镜计数血球计数板上各格中细菌数,得以下结果:
细菌数
0
1
2
3
4
5
6
7
8
9
合计
格子数
5
19
26
26
21
13
5
1
1
1
118
试检验细菌数是否服从泊松分布?
24. 请用游程法检验第25题。
25. 据说培养基B优于培养基A。现接种同样材料,同样接种量,培养一周后,单位面积瓶壁上细胞贴壁数为:
A:
254,
140,
193,
153,
316,
473,
389,
257,
167,
147
B:
331,
257,
478,
339,
407,
396,
144,
357,
287,
483,
396,
245,
403,
390,
568
请用秩和检验法检验。
26. 为证实吸烟是否有害,设计以下实验:选一个吸烟,一个不吸烟的人配成一对。配对原则是其他条件尽量一致,如性别,年龄,生活方式,居住地自然环境等等。从已经发病的人群中共找出100对,其发病年龄差(吸烟-不吸烟)共有30个“+”号。请进行统计检验,并写出你对这种实验设计方法的意见。
27. 为检查新的减肥方法是否更有效,设计如下实验:每对受试者条件尽量一致,如年龄,性别,现体重,等等。每对中随机选一人用新法,另一人用旧法。3个月后,体重减少百分数为:
编号
1
2
3
4
5
6
7
8
9
10
11
新法
10
5
7
8
4
15
12
18
3
8
15
老法
-2
3
1
10
2
11
13
5
-2
12
8
编号
12
13
14
15
16
17
18
19
20
新法
13
14
13
7
11
-2
0
16
9
老法
12
10
5
8
3
-3
-2
9
8
请用符号检验法检验.
28. 下列序列是否随机:
a b a b b b a a b a a b a b a b b a a b
a b a a b a b b a b a a b a b b a b a b
a a a a b b b b b a a a a a a b b b b b
a b b a b a a b a b a b a b a b a b b a
29. 雌鼠年龄与产仔大小有以下关系:
年龄(月)
12
7
4
9
7
2
9
5
8
4
幼仔平均大小
19
13
8
8
13
14
12
10
12
11
仔鼠大小与雌鼠年龄是否有关?(请使用秩相关系数)
30. 证明:
等号右边的X, Y为随机变量的秩,满足:
。
等号左边各符号意义如下:
31. 某地区历年平均血吸虫发病率为1%,采取某种预防措施后,今年普查了1000人,发现8个患者。是否可据此认为该预防措施有效?
32. 为估计鱼池中鱼的数量,先捕捞356条鱼并一一作出标记,然后放回鱼池。两天后,又从池中捕捞243条,其中12条是有标记的。求池中鱼的总数。