§ 8 非参数检验
§ 8.1 拟合优度检验
前面介绍的参数检验是已知总体分布函数的类型对未知参数进行假设检验。在实际问题中常常不能预知总体的分布,这时在进行参数检验之前,先要对总体的分布类型进行假设检验,这一类假设检验称之为分布函数的拟合检验。在实际问题中有时要考虑两总体分布是否相同,是否独立,从而提出相同性检验、独立性检验,这些检验也属于非参数检验。
非参数检验多数只利用 样本观察值的相对大小 或样本观察值间的 大小顺序关系 进行判断的,因此,计算简单,易于掌握。对于总体分布类型已知的问题,
虽然非参数检验方法也可以采用,但其缺点是没有充分利用样本所含的信息,从而检验效率通常比参数检验差一些。
§ 8.1.1 分布函数的拟合检验这里考虑的是如下的假设检验问题:
H0,F(x)=F0(x),H1,F(x)≠F0(x),
其中 F(x)为总体 X的分布函数,未知,F0(x) 为某已知的分布函数,
F0(x) 中可以含有未知参数,也可以不含有未知参数。分布函数 F0(x)
一般是根据总体的物理意义、样本的经验分布函数,直方图得到启发而确定的。如何对 H0进行检验呢? H0的检验方法很多,对 F0(x)
的不同类型有不同的检验方法。当 F0(x) 为正态分布函数时,常用 正态概率纸法 与 偏度、峰度法 (略)。一般情形 (正态分布和其它的分布)用皮尔逊( Peareson) 检验法。
这一方法的 基本思想 是,将样本观察值 x1,x2,…,x n 分成 k组,分组的办法是 ---将包含 x1,x2,…,x n的某个区间 (t0,tk) 分为互不相交的 k个子区间,使得 t0<t1<…<t k-1<tk,一般要求取 。以 Oi 表示样本观察值落入第 i个小区间 的频数(称为 实际频数 )。如果
H0为真,由给定的分布函数 F0(x),计算得
2?
kitt iii,,2,1],,( 1
4.0)1(87.1 nk
),,2,1](,( 1 kitt ii
kitFtFtXtPp iiikii,,2,1),()(}{ 10010
其中 0<pi<1,,称 Ei=npi 为样本
X1,X2,…,X n 落入第 i个小区间的 理论频数,当 H0成立时,
理论频数 Ei与实际频数 Oi应很接近,即 (Oi-Ei)2 应很小,从而也应该比较小,我们记此和式为,即
( 1.1)
应较小,否则不能认为 H0成立,所以 H0的拒绝域应为,C应由置信系数 α确定 。
k
i
ip
1
1
k
i i
ii
E
EO
1
2)(
2n?
n
i i
ii
n E
EO
1
2
2 )(?
Cn?2?
皮尔逊定理:设把总体 X的样本 X1,X2,…,X n分成互不相容的 k类:,pi 为 X落入第 i 类的概率。若 H0,X 服从某一已知分布 F0(x) 成立,则当 n→∞
时,不论 F0(x)服从什么分布总有这样,利用皮尔逊定理可定义小概率事件:
故 H0的拒绝域为 。据此可进行拟合优度检验 。
但是检验时必需注意以下几点:
( 1)样本容量 n应充分大,且每类理论频数不能太小,通常
n>50且 Ei≥5,若 Ei<5 则通过合并相邻的类使之不小于 5。
),,2,1](,( 1 kitt ii
)1(~)( 2
1
2
2
k
E
EOn
i i
ii
n
)}1({ 22 kP n
)1(22 kn
( 2)如果 F0(x) 中含有 m个未知参数 θ1,θ2,…,θ m,则首先要用这 m个未知参数的极大似然估计值代替 θ1,θ2,…,θ m,使 F0(x)中不含有未知参数,然后计算
pi,再建立,但是这时 分布的自由度为 df=k-
1-m 。
( 3)当 df=1时,统计量的较正公式为

k
i i
ii
n
E
EO
1
2
2 2
1
m,,?,? 21?
2n?
2n?
2n?
例 1 生物学家 G.Mendel将丰满的黄色豆子与皱皮的绿色豆子杂交,得四种豆子,它们的数目如下,
分类 丰满黄色 丰满绿色 皱皮黄色 皱皮绿色 合计实际频数 315 108 101 32 556
总体率 p1 p2 p3 p4 1
按 Mendel理论,这四种豆子的比例应为 9:3:3:1。试判断试验结果是否符合理论结果。
例 2 用显微镜检查涂片的某种细菌位于各小方格里的个数,共观察了 118个小方格,得不同细菌数的小方格如下表所示,试判断小方格里的细菌数 X是否服从 Poisson分布,
细菌数 0 1 2 3 4 5 6 7 8 9 合计观察频数 5 19 26 26 21 13 5 1 1 1 118
理论频数 6 17.8 26.6 26.4 19.7 11.8 5.8 2.5 0.9 0.3 117.8
∣ Oi–Ei∣ 1 1.2 0.6 0.4 1.3 1.2 1.5
(Oi–Ei)2 1 1.44 0.36 0.16 1.69 1.44 2.25
(Oi–Ei)2/Ei 0.167 0.081 0.014 0.006 0.086 0.122 0.237 0.713
§ 8.1.2 列联表资料的 检验列联表是按两种属性分类的一种频数数据表,因此,
分类资料的 统计量不仅可以用作拟合优度检验,而且更广泛地用于列联表的独立性检验和多组资料分布概率的相同性检验。
一、交叉分类资料两属性的独立性检验列联表中的数据通常是由两种方式抽样后分类得到的。 其中,一种是以一个总体抽样后,按两种属性搭配的类确定其个体数目而得,因而称为 交叉分类资料 。
例 3 为了了解某种药品对某种疾病的疗效是否与年龄有关,在研究的区域里共调查了 300名服药患者。 若将疗效分为“显著”、“一般”和“较差”三等,将年龄分成“儿童”、“中青年”和“老年”三级,则 300名患者按疗效与年龄的等级搭配,共 3× 3=9种类型的分类结果可用如下形式的频数表表示:
2?
2?
某药疗效与年龄分类频数表疗效 年龄 合计儿童 中青年 老年 Oi?
显著 43( 46.51) 38 (42.67) 32 (38.83) 128
一般 28 ( 42.51) 44 (39.00) 45 (35.49) 117
较差 23 (19.98) 18 (18.33) 14 (16.68) 55
合计 O?j 109 100 91 300
由上例中数据表可推为一般情形:对容量为 n的样本,按属性
X(X1,X2,…,X r) 与属性 Y(Y1,Y2,…,Y c)进行 分类,出现在 (Xi,Yj) 类的实测频数为 Oij(i=1,2,…,r;j=1,2,…,c) 。故一般的 r× c列联表为
r× c列联表的一般形式属性 属性 Y 合计
X Y1 Y2 … Y c Oi?
X1 O11 O12 … O 1c O1?
X2 O21 O22 … O 2c O2?
… … … … … …
Xr Or1 Or2 … O rc Or?
合计 O?j O?1 O?2 … O?c n
表中,横的称为行,纵向称为列,共 r行 c列。
称为第 i行的 行和 ;
称为第 j列的 列和 ;行和与列和统成为 边际和 。
称为 总和 。
显然,在交叉分类资料中行和 Oi?与列和 O?j在分类前均为未知。
riOO
c
j
iji,,2,1
1

cjOO
r
i
ijj,,2,1
1




c
j
r
i
ij
c
j
j
r
i
i OOOn
1 111
设列联表所给资料是交叉分类资料,则从总体中抽取的个体属 (xi,yi) 类的概率为 P(X=xi,Y=yj)=pij
i=1,2,…,r;j=1,2,…,c
其边缘概率函数为 P(X=xi)=pi1+pi2+…+p ic=pi? i=1,2,…,r
P(Y=yj)=p1j+p2j+…+p rj=p?j j=1,2,…,c
因为,随机变量 X与 Y独立的充要条件是
P(X=x,Y=y)=P(X=x) ·P(Y=y)
故两属性独立的假设检验为
H0,pij=pi?× p?j (i=1,2,…,r;j=1,2,…,c),H 1,H0不成立在 H0成立下,理论频数为 Eij=npij=npi?× p?j i=1,2,…,r ;
j=1,2,…,c 其中 pi?与 p?j均未知,故需由样本估计:
( 1)
从而近似有
( 2)
即理论频数 Eij近似等于 [(第 i行的行和) × (第 j列的列和) ÷ 总和 ]
nOpnOp jjii /?/
n
OOppnE ji
jiij


因而可求得分类资料 统计量
( 3)
这里 。故用( 1)式独立估计的参数个数为 (r-1)+(c-1)=r+c-2。因此,自由度为
df=r × c-(r+c-2)-1=(r-1)(c-1)
这样,按照( 1)、( 2)、( 3)式的计算结果,根据分布定义的小概率事件便可进行交叉分类资料两属性的独立性检验。
2?


c
j
r
i ij
ijij df
E
EO
1 1
2
2
2 )(~)(
1,1
11

c
j
j
r
i
i pp
)}({ 22 dfP
2?
续解例 3 判断疗效与年龄是否有联系,可进行两者的独立性检验,即检验假设为
H0,pij=pi?× p?j,H1,H0不成立按( 2)式估计各类的理论频数 Eij,并将结果填入相应的实测频数后的圆括号内(见表)。如等等。再按( 3)式计算 统计量的样本值给定 α=0.01,df=(r-1)(c-1)=2 × 2=4,查附表因为,故拒绝 H0,即认为该药疗效与年龄有联系具有统计学意义。
2?
51.463 0 0/1 0 91 2 8/1111 nOOE
59.1368.16 )68.1614(67.42 )67.4238(51.46 )51.4658(
222
2
2 7 7.12)4(2 01.0
)4(2 01.02
二、多组分类资料分布概率的相同性检验列联表中的数据通常的第二种抽样方式是:从多个总体(可视为属性 X)分别抽样后,按另一属性 Y的类确定其个体的数目。这样所得的数据表称为 多组分类资料 。
例 4 为考察四个药厂生产的维生素 C注射液的质量是否完全一致,分别从甲、乙、丙、丁四个厂中抽取了 60、
100,90,100支样品进行留样观察。从出厂日起,一年后均按其色泽变化的程度分为 -,+,++三类,其结果采用如下形式的频数表表示四药厂 Vc色泽变化分类频数表厂家 色泽变化 合计
- + ++ Oi?
甲厂 43( 39.26) 11 (16.63) 6 (4.11) 60
乙厂 80( 65.43) 15 (27.71) 5 (6.86) 100
丙厂 72 (58.89) 13 (24.94) 5 (6.17) 90
丁厂 34 (65.43) 58 (27.71) 8 (6.86) 100
合计 O?j 229 97 24 350
试判断四个药厂生产的 Vc注射液的质量是否完全相同。
显然,在多组分类资料中只有列和 O?j在分类前未知,
行和 Oi? 在分类前已由各总体之样本容量给出。交叉分类资料与多组分类资料的意义虽然不同,但其调查频数表的结构形式完全相同。都为列联表。根据两者的分类特点,交叉分类资料检验的是两种属性是否独立;而 多组分类资料需要判断的是各个总体按同一属性 Y的类的分布概率是否都相同。
设列联表所给资料是多组分类资料,以 Xi 代表第 i个总体,则从第 i个总体中抽取的个体属 Yj 类的概率为
P(Y=yj∣ X=xi)=pj∣ i i=1,2,…,r ; j=1,2,…,c
这样,对多组分类资料各总体按属性 Y的类的分布概率相同性检验的假设为
H0,pj∣ 1=pj∣ 2=…=p j∣ r=pj (j=1,2,…,c) ; H 1,H0不成立在 H0成立下,即各总体之个体属 Yj类的概率均为 pj,因而可利用列联表第 j列的实测数据估计,即
( 4)
nOnOOOp jrjjjj //)(? 21
设第 i个总体的样本容量为 Oi?,则第 i个总体的个体属 Yj
类的理论频数近似有
(5)
可见,虽然交叉分类资料两属性的独立性检验与多组分类资料分布概率的相同性检验在意义上不相同,但是,
两者的理论频数的计算公式( 2)与( 5)完全一样,因此,检验统计量仍为( 3)式。
而且,由于,故 分布的自由度仍为 df=r × c-(r+c-2)-1=(r-1)(c-1)。 这样,多组分类资料分布概率的相同性检验与交叉分类资料两属性的独立性检验的操作相同。
cjrinOOpOE jijiij,,2,1;,2,1/



c
j
j
r
i
i pnO
11
1,2?
续解例 4 H0,pj∣ 1=pj∣ 2=pj∣ 3=pj∣ 4=pj (j=1,2,3) ; H1,H0不成立按( 5)式计算理论频数 Eij,并将结果填入相应的实测频数后的圆括号内(见表)。再按( 3)式计算 统计量的样本值给定 α=0.001,df=(r-1)(c-1)=3 × 2=6,查附表 6得因为,拒绝 H0,即认为四个药厂的
Vc注射液的质量不完全相同。
注:列联表中只允许 20%以下的格子的理论频数小于 5。
2?
95.6986.6 )86.68(63.16 )63.1611(26.39 )26.3943(
222
2
458.22)6(2 0 0 1.0
)6(2 001.02
三、四格表的 检验医药统计中用得最多的一种列联表是 2 × 2列联表,
常称四格表。其一般形式为
Y1 Y2 Oi?
X1 a b a+b
X2 c d c+d
O?j a+c b+d a+b+c+d=n
因为 df=(r-1)(c-1)=1,所以检验统计量应该用连续性校正公式
( 6)
亦可利用等价的公式
( 7)
2?




2
1
2
1
2
2
2/1
j i ij
ijij
E
EO

))()()((
5.0 22
dbcadcba
nbcadn



例 5 为比较甲乙两种药物是否同样有效,对 80名患者使用甲种药物,
100名患者使用乙种药物,治疗效果如下,试判断两种药物是否同样有效。
有效 无效 合计用甲药 58 22 80
用乙药 60 40 100
合 计 118 62 180
解 本例为比较两种药物的有效率是否相等,故检验假设为
H0,pj∣ 1=pj∣ 2=pj (j=1,2) ; H1,H0不成立。
因为 a=58,b=22,c=60,d=40,故按( 7)式计算 统计量样本值。
给定 α=0.1,df=1,查附表得 因为故接受 H0,即认为两种药物同样有效。
2?
5 4 7.2
621 1 81 0 080
1 8 05.0226040581 8 0 22?


706.2)1(2 1.0
)1(2 1.02
§ 8.2 配对设计的符号检验本节要求了解符号检验和符号秩检验。
一、符号检验对于配对的试验数据,有一个简单的差异性检验方法,
这就是符号检验。 符号检验是利用各对数据之差的符号来检验两个总体分布的差异性。可以设想,如果两个总体分布相同,那么每对数据之差的符号为正为负的概率应该相等,考虑到试验误差的存在,正号和负号出现的次数相差不应该太大,如果太大了,就不能认为两个总体服从相同的分布,这就是符号检验的基本思想。
设有来自两个连续型总体的 N对 (xi,yi),i=1,2,…,N 。
比较各对数据,若 xi>yi,则赋于该对数据,+”号;若
xi<yi,则赋于,-”号;若 xi=yi,则不予考虑。以 n+和 n–
分别表示,+”号和,-”的个数,并记 n = n+ + n–。
H0,两个总体的分布相同,H1,H0不成立 。
若 H0成立,则 n+和 n–相差不大,精确地说,应有
P{xi>yi } =P{xi<yi }=0.5
令 则即对于给定的检验水平 α,选择使不等式成立的最大 s值 sα,则当 n+≤sα时应拒绝 H0 。
ii
ii
i yx
yx
z
0
1 )5.0,(~
1
nBzn
n
i
i?

nknknkkn CCknP 5.0)5.01(5.0}{
2/5.0}{ 0 nsk knCsnP
又因为 Cnk=Cnn-k,所以 sα也是使不等式成立的最大 s值。于是,若 n+≤sα或 n+≥n- sα,则拒绝 H0 ;
若 sα<n+<n-sα,则不拒绝 H0 。一般为简单起见总假设
n+≤n–,则当 n+≤sα时拒绝 H0,反之,则不拒绝 H0 。
当 n取 1~90时,sα通过查附表 11得到。
当 n>90时,根据 n+~B(n,0.5),E(n+)=0.5n,V(n+)=0.25n 。
由中心极限定理知近似地有于是计算样本值 u,并查附表 4得双侧临界值 uα/2,若
∣ u∣ > uα/2,则拒绝 H0,反之,则不拒绝 H0 。
2/5.0 nn snk knC
)1,0(~
25.0
5.0 N
n
nnU
综上所述,符号检验的步骤 如下:
( 1)作假设 H0,两个总体的分布相同,H1,H0
不成立 。
( 2)统计成对数据的差值为,+”和为,—”的个数 n+
和 n–,记 n = n+ + n–,并设 n+≤n–。
( 3)根据 n及检验水平 α 查附表 11得临界值 sα,若 n+
≤sα时拒绝 H0,反之,则不拒绝 H0 。
例 1 对 11名受试者分别服用某药物的两种不同剂型,
得血药浓度达峰时间如下表。试判断两种剂型血药浓度的达峰时间是否有相同的分布( α =0.05)。
数对号 1 2 3 4 5 6 7 8 9 10 11
剂型 A 2.5 3.0 1.25 1.75 3.5 2.5 1.75 2.25 3.5 2.5 2.0
剂型 B 3.5 4.0 2.5 2.0 3.5 4.0 1.5 2.5 3.0 3.0 3.5
符 号 - - - - 0 - + - + - -
二、符号秩检验符号检验虽然简单易行,但由于只考虑到成对数据之差的符号而 未考虑差值的大小,难免损失数据所提供的某些可利用信息,因而检验效率较低。下面介绍一种改进的方法,称为符号秩检验,步骤如下:
( 1) 作假设 H0,两个总体的分布相同,H1,H0
不成立 。
( 2) 编秩,将成对数据 (xi,yi)之差的绝对值 |xi-yi|按从小到大的次序排列,|xi-yi|=0的不予列入,并规定排列的序号为该对数据的秩 。如果有两对或两对以上数据之差的绝对值相等,则以其对应序号的平均值赋秩。
( 3) 求秩和 T:将秩冠以相应数对之差的符号,称为符号秩,并分别计算正负符号秩的和,其中绝对值较小者记作 T。
( 4) 比较判断,根据数据的对子数 n(成对数据之差为 0者不记)及检验水平 α,查附表 12(符号秩检验表)
得临界值 Tα,则当 |T| ≤Tα 时拒绝 H0,否则不拒绝 H0 。
附表 12只列到 n=20为止。当 n>20时,近似有
T~N[n(n+1)/4,n(n+1)(2n+1)/24]
即于是,计算 U的样本值 u,对给定的 α,查附表 4得临界值 uα/2,若 ∣ u∣ > uα/2,则拒绝 H0,反之,则不拒绝 H0 。
例 2 (续例 1)试用符号秩检验两种剂型血药浓度的达峰时间是否有相同的分布( α =0.05)。
数对号 1 2 3 4 5 6 7 8 9 10 11
剂型 A 2.5 3.0 1.25 1.75 3.5 2.5 1.75 2.25 3.5 2.5 2.0
剂型 B 3.5 4.0 2.5 2.0 3.5 4.0 1.5 2.5 3.0 3.0 3.5
xi-yi -1 - 1 -1.25 -0.25 0 -1.5 +0.25 -0.25 +0.5 -0.5 -1.5
秩 6.5 6.5 8 2 9.5 2 2 4.5 4.5 9.5
符号秩 –6.5 -6.5 -8 -2 -9.5 2 -2 4.5 -4.5 -9.5
)1,0(~
24/)12)(1(
4/)1( N
nnn
nnTU


§ 8.3 秩和检验本节介绍一种有效的、且使用方便的检验方法 —秩和检验法。
一、两个独立样本总体的秩和检验设有两个连续型总体,它们的概率密度函数分别为 f1(x),
f2(x),均未知,但已知 f1(x)=f2(x-a),a 为未知常数 (1)
即 f1与 f2至多只差一项平移。我们要检验下述各项假设
H0,a=0 ; H1,a<0,( 2)
H0,a=0 ; H1,a>0,( 3)
H0,a=0 ; H1,a≠0,( 4)
特别,若两总体的均值存在,分别记作 μ1,μ2,则由于 f1,f2至多只差一平移,故有 μ2= μ1,–a 。此时,上述各项假设分别等价于
H0,μ1=μ2,H1,μ1<μ2 。
H0,μ1=μ2,H1,μ1>μ2 。
H0,μ1=μ2,H1,μ1,≠ μ2 。
现在来介绍威尔柯克斯( Frank Wilcoxon)提出的秩和检验法以检验上述假设。
设自 1,2两总体分别抽取容量为 n1,n2的样本,且设两样本独立。这里总假定 n1≤n2 。我们将这 n1+n2个观察值放在一起,按自小到大的次序排列,求出每个观察值的秩,然后将属于第 1个总体的样本观察值的秩相加,其和记为 R1,称为第 1样本的秩和。其余观察值的秩的总和记作 R2,称为第 2样本的秩和。显然 R1,R2是离散型随机变量,且有
R1+R2=1+2+…+(n 1+n2)=(n1+n2)( n1+n2+1)/2
所以 R1,R2中的一个确定后另一个随之而定。这样,我们只要考虑统计量 R1即可。
现在来解决双侧检验问题( 4)。对此,先作直观分析。当 H0为真时,即有 f1(x)=f2(x),这时两个独立样本实际上是来自同一个总体。因而第 1个样本中诸元素的秩应该随机地、分散地在自然数 1~ n1+n2中取值,一般来说不应过分集中取较小的或较大的值。考虑到
1+2+…+n 1≤R1≤(n2+1)+(n2+2)+…+(n 2+n1)
即即知当 H0为真时 R1一般来说不应取太靠近上述不等式两端的值,因而当 R1的观察值 r1过分大或过分小,我们都拒绝 H0 。
据以上分析,对于双侧检验( 4),在给定显著性水平 α 下,H0的拒绝域为 R1≤T1 或 R1≥T2,
其中临界点 T1是满足 的最大整数,
而 T2是满足 的最大整数。
)12(
2
1)1(
2
1
211111 nnnRnn
2110 TRP a

2210

TRP a
而犯第一类错误的概率为如果知道 R1的分布,则临界点 T1,T2是不难求得的。附表 13(秩和检验表)给出了临界点 T1,T2 。
类似地,左侧检验的拒绝域为 r1≤T1(α);
右侧检验的拒绝域为 r2≥T2(α) 。
秩和检验的步骤,
( 1)作假设 H0,两个总体的分布相同,H1,H0不成立 。
( 2)编秩,求统计量的样本值,将两组数据混合后由小到大排列,以混合数据所对应的序号为秩,对于两个或两个以上相等的数据,以其对应序号的平均值为秩。
若记 R为两组数据中 样本容量较小者 的秩和,则 R为检验的统计量。
22210110 TRPTRP aa
( 3)对于给定的检验水平 α,根据 n1,n2查附表 13得临界点 T1,T2,若 R ≤T1 或 R ≥T2,则拒绝 H0;若 T1
<R< T2,则不拒绝 H0 。
秩和检验表只列出 n1≤ n2 ≤10的情形。当 n1,n2大于
10时,则近似地有即于是,计算样本值 u,对于给定的检验水平 α,查附表 4得临界值 uα/2,若 ∣ u∣ > uα/2,则拒绝 H0,反之,则不拒绝 H0 。
]12/)1(,2/)1([~ 2121211 nnnnnnnNR
)1,0(~
12/)1(
2/)1(
2121
111 N
nnnn
nnnRU


例 3 利用原有仪器 A和新仪器 B分别测得某片剂 30分钟后的溶解度如下
A 55.7 50.4 54.8
B 53.0 52.9 55.1 57.4 56.6
试判断两台仪器测试结果是否一致( α =0.05)。
解 H0:两台仪器测试结果的总体分布相同,H1,H0
不成立 。
将两组数据混合后由小到大排列并编秩如下表:
A组 50.4 54.8 55.7
B组 52.9 53.0 55.1 56.6 57.4
秩 1 2 3 4 5 6 7 8
由于 n1=3,n2 =5,样本容量较小者( A组)的秩和
R=1+4+6=11,又 α =0.05,查附表 13得 T1 =7,T2 =20,
因为 T1 <R< T2,故不拒绝 H0,即认为仪器 A和仪器 B测试的结果一致。
例 4 某商店为了确定向公司 A或公司 B购买某种商品,
将 A,B公司以往各次进货的次品率进行比较,数据如下,
设两样本独立。 问两公司的商品的质量有无显著差异。
设两公司的商品的次品率的密度至多只差一个平移,取检验水平 α =0.05。
A 7.0 3.5 9.6 8.1 6.2 5.1 10.4 4.0 2.0 10.5
B 5.7 3.2 4.2 11 9.7 6.9 3.6 4.8 5.6 8.4 10.1 5.5 12.3
25.0
260
120116
260
120 Ru
在实际中会出现某些观察值相等的情况,设出现 k个值相同的组,其中有 ti个数的秩为 ai,i=1,2,…,k,
a1<a2<…<a k,则当 H0为真时 R的均值仍为
μR =n1(n1+n2+1)/2,而 R的方差修正为当 H0为真时,近似地有这时我们就采用作为检验统计量来检验。
)1(12
)]1()1([
1
22
21
2

nn
ttnnnn
k
i
ii
R?
),(~ 2RRNR
)1,0(~ NRU
R
R

例 5 两位化验员各自读得某种液体粘度如下:
化验员 A 82 73 91 84 77 98 81 79 87 85
化验员 B 80 76 92 86 74 96 83 79 80 75 79
设数据可以认为分别来自仅均值可能有差异的两个总体的样本。 试在 α =0.05下,检验假设 H0,μ1=μ2 ; H1,μ1>μ2
其中 μ1,μ2分别为两总体的均值。
解 将两个样本的元素混合,按自小到大次序排列。并求出各个元素的秩如下。
数据 73 74 75 76 77 79 79 79 80 80 81 82 83 84 85 86 87 91 92 96 98
秩 1 2 3 4 5 7 7 7 9.5 9.5 11 12 13 14 15 16 17 18 19 20 21
现在 n1=10,n2=11,n=21,μR=10× 22/2=110,k=2,R=121。
故 σR2=201 。当 H0为真时近似地有 R~N(110,201)
对于给定 α =0.05,查附表 4得 u0.05=1.645,因为 u< u0.05,故接受 H0,
认为两位化验员所测得的数据无显著差异。
2 1 222 30)12(2)13(3)1(i ii tt
776.0201 110121201110 Ru
二、多个独立样本总体的秩和检验设有 k个连续型总体,从中分别抽取容量 nj
(j=1,2,…,k) 的独立样本。欲检验的假设为
H0,各个总体的分布相同,H1,H0不成立 。
设总体秩和 T近似服从 N(μT,σT2),Tij为 T的样本
( i=1,2,…,n j ; j=1,2,…,k )。记又



k
j
n
i
ij
n
i
ijj
k
j
j
jj
T
n
RTRnn
1 111
1,,
12
)1(
)(
1
1
2
1
)21(
1
1 1
222?





nn
RT
n
S
n
n
n
R
k
i
n
i
ijTT
T
j

因为 Tij与 T同分布,近似服从故在 H0成立的前提下,当 n充分大时,近似地有即对于给定的 α,查附表 6得临界值,若则拒绝 H0,反之,则不拒绝 H0。
jn
i
ij
j
j TnR
1
1



jn
nnnN
12
)1(,
2
1
)1(~
/
2
2
1



k
nS
RRH k
j jT
j?

)1(3
)1(
12
1
2
1
2
2





n
n
R
nnS
RRn
H
k
j j
j
k
j T
jj
)1(2?k
)1(22 k
例 6 为比较 6种不同工艺的阿司匹林的释放度,对各种工艺各取 5个样品,测得其释放度参数 m如下表所示。试判断 6组 m值的分布是否有显著性差异( α =0.001)?
序号 组别
1 2 3 4 5 6
1 0.45(2) 0.90(8.5) 1.00(13) 1.35(25) 1.20(20.5) 1.20(20.5)
2 0.50(3.5) 0.90(8.5) 1.00(13) 1.25(23) 1.15(20.5) 1.15(20.5)
3 0.25(1) 0.80(6.5) 0.80(6.5) 1.15(17.5) 1.45(27) 1.50(29.5)
4 0.50(3.5) 0.95(10.5) 0.95(10.5) 1.00(13) 1.45(27) 1.25(23)
5 0.60(5) 1.15(17.5) 1.10(15) 1.45(27) 1.25(23) 1.50(29.5)
秩和 Rj ( 15) ( 51.5) (58) (105.5) (115) (120)
515.20)5(2 0 0 1.0
三、多重比较的秩和检验实践中,常需对多个总体进行两两多重比较的秩和检验,如当多个总体的秩和检验 H0被拒绝,即明确各总体的分布之间存在显著性差异后,便希望进一步了解哪些总体间有显著性差异。其方法和步骤如下:
( 1) H0,μi = μj,i,j=1,2,…,k; i≠j ; H 1,H0不成立
( 2)计算各组的平均秩和
( 3)对于给定的检验水平 α 及组数 k,当各组的样本容量 nj
较大时,若则 μi与 μj间有显著性差异。其中由附表 4查得。
j
j
j n
RR?



ji
ji
nn
nnuRR 11
12
)1(
2/?
)1(/2,
1

kknn
k
j
j
2/u
例 7 将例 6的资料作多重比较,以判断哪些总体两两间存在显著性差异( α =0.05)
解 ( 1) H0,μi = μj,i,j=1,2,…,6; i≠j ; H 1,H0不成立。
( 2) 以 nj=5(j=1,2,…,6) 及值 Rj 得,并将差值列于下表多重比较的 表
7.3 8.6 18.1 20 21
1.3 10.8 12.7 13.7
9.5 11.4 12.4
1.9 2.9
1.0
(3) 以 nj=5(j=1,2,…,6),n=k× 5=30,
jR ji RR?
31?R
3.102?R 6.113?R 1.214?R 235?R 246?R
3.102?R
6.113?R
1.214?R
235?R
ji RR?
003.0)56/(05.02
利用插值法得即代入得由表可知 μ1与 μ4,μ1与 μ5,μ1与 μ6间有显著性差异。
9
7
57583.229053.3
57583.2,
01.0001.0
01.0003.0 2/003.0
2/01.02/001.0
2/01.02/?

u
uu
uu?
1 3 5 4.39/)5 7 5 8 3.22 9 0 5 3.3(75 7 5 8 3.22/u
46.17
5
1
5
1
12
31301 3 5 4.311
12
)1(
2/





ji nn
nnu
§ 8.4 游程检验作用,(1)检验样本是否具有随机性 (即观测数据是否独立 )
(2)检验两个总体的分布是否相同,
概念,在一个二元序列中,一个由 0或 1连续构成的串称为一个游程,一个游程中数据的个数称为游程的长度 (记作 L),
一个序列里游程个数用 R表示,R实际上表示了 0和 1交替轮换的频繁程度,容易看出,R是序列中 0和 1交替轮换的总次数加 1.
例 1:在下列一个 0—1序列中,
1 1 0 0 0 0 1 1 1 0 1 1 0 0 0 0 1 1 1 1 0 0
总共有 22个数 (n=22),0的总个数为 n0=11,1的总个数 n1=11.
共有 4个 0游程,4个 1游程,一共有 8个游程 (R=8).最大游程长度 L=4.
一、样本的随机性检验设 x1,x2,…,xn 为来自总体 X的 n个观测值序列,将观测值中小于中位数的记为 0,大于或等于中位数的记为 1,
这样得到一个游程。检验的假设为
H0:样本是随机的; H1,H0不成立。
可以想象,如果数据有上升或下降的趋势(这时 R较小),或有周期性变化规律(这时 R较大)等特征时,均可能表示数据不是随机出现的。
在固定样本容量 n之下,如果游程个数过少,则说明 0
和 1相对较集中;如果游程个数过多,则说明 0和 1交替周期特征明显,这都不符合随机性的要求。 因而可能通过游程个数过多或过少来定义假设检验的拒绝域。
设 R为游程个数,1≤R≤n,在 H0成立的条件下,R的分布为根据这个公式就可以算出在 H0(即随机性)成立时
P(R ≤R1)或 P(R≥R2)的值,就可以做检验。这些值在 n0
和 n1不大时可以计算或查附表 14( 1)。若 n0和 n1较大,
则 R近似服从正态分布,因而可以采用 u检验,其统计量为
1
1010
1
10
1
111
1
1
1
1
1
1
)12(
2
)2(
n
n
k
n
k
n
k
n
k
n
n
n
k
n
k
n
C
CCCC
kRP
C
CC
kRP




)1()(
)2(2
2
1
10
2
10
101010
10
10





nnnn
nnnnnn
nn
nn
R
U
例 2:从某种批号的药品中抽取 11份样品,测得某种成分含量依次为 13.2,14.0,15.3,16.5,10.4,
14.3,16.0,17.2,10.9,13.7,14.2 问可否认为该样本是随机样本( α =0.05)?
例 3:某银行观察平时到银行柜台办理业务的人员的性别(用 M表示男性,用 F表示女性)依次如下,F F F M M F F M M M F F
解:假设检验 H0:男女出现顺序随机; H1,H0:不成立统计分析,n=12,n0=5,n1=7,R=5,α =0.05,查附表得
R1=3,R2=11。
结论:由于 3<R=5<11,因此不能否定 H0 。
二、两个总体的游程检验设从总体 X和 Y中分别抽取独立样本和 。检验的假设为
H0:两总体的分布相同; H1,H0不成立。
将两组样本混合后由小到大排列,凡属 X的样本值记为 0,凡属 Y的样本值记为 1。显然在 H0成立时游程总数 R
应较大,而每个游程的长度则较短;反之,若 H0不成立,
则游程总数 R应较小,而游程的长度长的较多,即样本有明显的聚集现象。因此,可根据游程检验的原理作出两总体的分布是否相同的判断。但其否定域为 R<R1。
例 4:两类胃癌各 10类,术后生存月数如下:
高分化腺癌( X) 10,14,19,36,47,53,56,94,141,169
未分化癌( Y) 6,6,7,9,14,14,16,25,37,46
问两组间是否有显著差异( α =0.05)
1,,,21 nxxx?2,,,21 nyyy?