Dr,宇传华 制作医疗等本科生,医学统计学,
第六章非参数统计分析方法
2009年 7月 28日第四军医大学卫生统计学教研室已知 总体分布类型,对未知参数( μ,π)进行统计推断依赖于特定分布类型,比较的是参数参数统计
( parametric statistics)
非参数统计
( nonparametric statistics)
对总体的分布类型 不作任何要求不受总体参数的影响,
比较分布或分布位置适用范围广;可用于任何类型资料 (等级资料,或,>50mg” )
对于符合参数统计分析条件者,采用非参数统计分析,其 检验效能较低
2009年 7月 28日第四军医大学卫生统计学教研室秩和检验第一节 两独立样本差别的秩和检验第二节 配对设计资料的秩检验第三节 完全随机设计多组差别的秩和检验第四节 随机单位组设计的秩和检验秩和检验( rank sum test):一类常用的非参数统计分析方法;基于数据的秩次与秩次之和
2009年 7月 28日第四军医大学卫生统计学教研室第一节 两独立样本差别的秩和检验
Wilcoxon rank sum test
对于计量数据,如果资料 方差相等,且服从 正态 分布,就可以用 t检验比较两样本均数。
如果此假定不成立或不能确定是否成立,就应采用秩和检验来分析两样本是否来自同一总体。
表 6-1 两独立样本秩和检验计算表
A样本 B样本观察值 秩号 观察值 秩号
7 4 3 1
14 6 5 2
22 10 6 3
36 11 10 5
40 13 17 7
48 14 18 8
63 15 20 9
98 16 39 12
n1=8 秩和
R1=89
n2=8 秩和
R2=47
基本思想两样本来自同一总体任一组秩和不应太大或太小如果两总体分布相同假定:两组样本的总体分布形状相同
T 与 平均 秩和 应相差不大2/)1(0 Nn?


2121
21
),,m in (
,
nnRR
nnT 较小例数组的秩和 ),m in( 210
21 nnn nnN
2009年 7月 28日第四军医大学卫生统计学教研室
⑴ H0:两样本来自相同总体; H1:两样本来自不同总体(双侧)
=0.05 或 H1:样本 A高于样本 B(单侧)
⑵ 编秩,两样本混合编秩次,求得 R1,R2,T。
相同观察值(即相同秩,ties),不同组 ------平均秩次。
⑶ 确定 P值作结论:
① 查表法 (n0≤10,n2?n1≤10) 查附表 9
如果 T位于检验界值区间内,,不拒绝 H0;否则,,拒绝 H0
本例 T =47,取 α =0.05,查附表 9得双侧检验界值区间 ( 49,87),T位于区间外,P<0.05,因此在 α =0.05的水平上,拒绝 H0,接受 H1。
② 正态近似法,
12/)1(
|2/)1(|
21
0

Nnn
NnTu
*校正公式 ( 当相同秩次较多时 )
个相同秩号的数据个数为第 it
ttNN
NN
ccuu
i
i
ii
c ;)(; 33
3


PP
96.12 0 5.2 2/05.0u本例
2009年 7月 28日第四军医大学卫生统计学教研室表 6-2 某药对两种不同病情的支气管炎疗效的秩和检验疗效 单纯型 ( 1)
单纯型合并肺气肿
( 2)
合计 (ti)
(3)=(1)+(2)
秩号范围
(4)
平均秩次
(5)
秩和单纯型
(6)=(1)(5)
合并肺气肿
(7)=(2)(5)
控制 65 42 107 1-107 54 3510 2268
显效 18 6 24 108-131 119.5 2151 717
有效 30 23 53 132-184 158 4740 3634
近控 13 11 24 185-208 196.5 2554.5 2161.5
126 82 12955.5 8780.5
编号 病情 疗效
1 单纯型 控制
2 单纯型合并肺气肿 显效
3 单纯型合并肺气肿 有效
4 单纯型 控制
… … …
206 单纯型 显效
207 单纯型合并肺气肿 有效
208 单纯型 近控
1,H0:两组疗效相同; H1:两组疗效不同,
取 α =0.05
2,编秩,求各组秩和 T; 本例 T = 8780.5
4 9 8 6.012/)12 0 8(821 2 6 |2/)12 0 8(825.8 7 8 0|u
0883.1
))2424()5353()2424()107107((208208
208208
33333
3

c
5 4 2 6.0 cuu c
2009年 7月 28日第四军医大学卫生统计学教研室附表 9的来历? 设第一组,×,,n1=3;第二组,?”,
n2=3
若 T≤6,
P=0.05
( 单侧 )
若 T≤7,
P=0.05+0.05
=0.10
(单侧)
2036

秩 次 秩和 概率 P
1 2 3 4 5 6 T界值
× × × 6
× ×? × 7 0.05
× × ×? 8 0.05× 2=0.10
×? × ×
× × ×
9 0.05× 3=0.15×? ×? ×?
× × ×
05.0201?
2009年 7月 28日第四军医大学卫生统计学教研室附表 9的来历? 设第一组,×,,n1=3;第二组,?”,n2=3
若 T≥15,
P=0.05
( 单侧 )
T≥14,
P=0.05+0.05
=0.10
( 单侧 )
对应于单侧 0.05或双侧 0.10,
临界值为
6和 15
2036

秩 次 秩和 概率 P
1 2 3 4 5 6 T界值
× × ×
12 0.05× 3=0.15? ×? ×? ×
× × ×?
× × × 13 0.05× 2=0.10
× ×? ×
×? × × 14 0.05
× × × 15 05.0201?
2009年 7月 28日第四军医大学卫生统计学教研室
Wilcoxon-Mann-Whitney U检验一般文献上使用的方法,Wi lc ox on _M a nn _W hi tn ey U 检验两种方法是独立提出的,检验结果完全等价的;
前者用 T 统计量 计 算 u 统计量,而后者 直接 计算 u 值,即,
)
2
)1(
,
2
)1(
mi n(
2
22
211
11
21
R
nn
nnR
nn
nnu?


上例中,
4986.05.4954
)5.8780
2
8382
82126,5.12955
2
127126
82126min(


u
2009年 7月 28日第四军医大学卫生统计学教研室第二节 配对设计资料的秩检验
( Wilcoxon signed rank test)
家兔号 A照射 B照射 A-B 秩次
(1) (2) (3) (4) (5)
1 39 55 16 10
2 42 54 12 9
3 51 55 4 3
4 43 47 4 3
5 55 53 -2 -1
6 45 63 18 11
7 22 52 30 12
8 48 44 -4 -3
9 40 48 8 6
10 45 55 10 8
11 40 32 -8 -6
12 49 57 8 6
合计 R=10( 68)
表 6-3 家兔皮肤损伤程度(评分)
1,H 0,差值的总体中位数 =0,
H 1,差值的总体中位数? 0 ;? =0,05
2,求差值;依其绝对值从小到大编秩次
( i )绝对值相等者( tie )取平均秩次;
( ii ) 将差值的正负标在秩次之前;
( iii )零差值时秩次正负各半(或不参与编秩)
3,分别求正负秩次之和,以绝对值较小者为 R 值
4,根据统计量 R 确定对应的 P 值
( i )小样本时,查表(附表 10 )
(ii ) 大样本时,正态近似
2009年 7月 28日第四军医大学卫生统计学教研室
( i)小样本( n≤25)时,查附表 10
界值的判断标准:
R>R0.05时,P>0.05,
R≤R0.05时,P≤0.05
本 例,R=10<R0.05= 14,n=12,P<0.05,
拒绝 H0,故认为 A,B两种照射方式造成的急性皮肤损伤程度不同,B照射的损伤程度比 A照射严重。
2009年 7月 28日第四军医大学卫生统计学教研室
( ii)大样本( n>10)时,可采用正态近似
275.2
24/)1122)(112(12
4/)112(1210
24/)12)(1(
|4/)1(|




nnn
nnR
u
查 标 准 正 态 分 布 表,得 P 值校 正 公 式,( 当 相 同 秩 次 个 数 较 多 时 )
3
33
| ( 1 ) / 4 |
( 1 ) ( 2 1 ) / 2 4 ( ) / 4 8
1 0 1 2 ( 1 2 1 ) / 4
2,2 8 2
1 2 ( 1 2 1 ) ( 2 1 2 1 ) / 2 4 [ ( 3 3 ) ( 3 3 ) ] / 4 8
ii
R n n
u
n n n t t





2009年 7月 28日第四军医大学卫生统计学教研室第三节 完全随机设计多组差别的秩和检验
( Kruskal-Wallis法)
对于完全随机设计多组资料比较,如果不满足方差分析的条件,可采用 Kruskal-
Wallis秩和检验。
此法的基本思想与 Wilcoxon-Mann-
Whitney法相近:如果各组处理效应相同,
混合编秩号后,各组的秩和应近似相等。
2009年 7月 28日第四军医大学卫生统计学教研室表 6 - 4 脾淋巴细胞对 HPA 刺激的增值反应 ( 测量指标
3
H 吸收量 cpm )
A 组 ( 对照 ) B 组 ( 截肢 ) C 组 ( 截肢 治疗 )
3
H 吸收量 秩号
3
H 吸收量 秩号
3
H 吸收量 秩号
3012 11 2532 8 8138 15
9458 18 4682 12 2073 6
8419 16 2025 5 1867 4
9580 19 2268 7 885 2
13590 21 2775 9 6490 13
12787 20 2884 10 9003 17
6600 14 1717 3 0 1
秩和 R i 119 54 58
例数 n i 7 7 7
平均秩和
i
R 17.000 7.714 8.826
2009年 7月 28日第四军医大学卫生统计学教研室
1,H
0
三 组 处 理 效 应 相 同 ;
H
1
三 组 处 理 效 应 不 全 相 同 。 α = 0,05
2,混 合 编 秩 号,分 组 求 秩 和 R
1
,R
2
,R
3
,…,
相 同 秩 次 取 平 均 秩 次 。
3,计 算 检 验 统 计 量 H
)1(3
)1(
12
2

N
n
R
NN
H
i
i
= 848.9223)
7
58
7
54
7
119
(
2221
12
222

H 的 校 正,cHH
c
,

)(
33
3
ii
ttNN
NN
c t
i
是 相 同 秩 次 个 数 。
本 例 数 据 不 存 在 同 秩,不 用 校 正
2009年 7月 28日第四军医大学卫生统计学教研室
4,求 P值,下结论
( i) 查表,k≦ 3,各组例数 ni≦ 5,根据 H值查附表 11
( ii)如超出附表范围,在 ni不太小时,理论上 H近似于自由度为( k- 1)的分布,故可查卡方界值表
(附表 8)。本例,α= 0.05,自由度为 2 的卡方界值为
5.99 < 计算所得卡方值= 0.05。
在 0.05检验水平拒绝 H0,接受 H1,认为三组脾淋巴细胞对 HPA刺激的增值反应不全相同。
2009年 7月 28日第四军医大学卫生统计学教研室表 分娩时孕周与乳量的关系频数表法,属于同一组段的观察值,一律取平均秩次(组中值),再以该组段频数加权,
计算 Hc值。
秩 和乳量早产足月产过期产合计秩次范围平均秩次 早产 足月产 过期产
(1 ) (2 ) (3 ) (4 ) (5 ) (6 ) (7 ) (8 ) (9 ) (1 0 )
无 30 132 10 172 1 ~ 1 7 2 8 6,5 2595 1 1 4 1 8 865
少 36 292 14 342 1 7 3 ~ 5 1 4 3 4 3,5 12366 100302 4809
多 31 414 34 479 5 1 5 ~ 9 9 3 754 23374 312156 25636
合计 97 838 58 993 38335 423876 31310
1,H
0,三个总体分布相同,H1,三个总体分布不全相同 α=0.05
2,编秩:计算各等级合计,确定秩次范围
3,求秩和:各组频数与该组平均秩次乘积求和
2009年 7月 28日第四军医大学卫生统计学教研室
4,计算统计量
5,确定 P值作结论,查?2界值表,得 P<0.05,可认为分娩时孕周对乳量是有影响的。
3.14)1993(3583 1 3 1 08384 2 3 8 7 6973 8 3 3 5)1993(993 12 222H
=(1723?172)+(3423?342)+(4793?479)=154991382 )( 3
ii tt
98 93.1618 80 61.13.14
18 81.1
15 49 91 38 299 399 3
99 399 3
3
3


cHH
c
c
2009年 7月 28日第四军医大学卫生统计学教研室二、多组处理效应间的两两比较经 Kruskal - Wall is 秩和检验得多组处理效应间存在差别时,
需进一步判断 哪 些组之间的差别有显著性,这个问题的解决方法与方差分析中的多个均数间的两两比较很相似,
例 6 - 2 的结论认为 ABC 三组有差异,用 Nemen yi 法作各组间两两间比较,步骤如下,
1,计算各组平均秩和
2,按下式计算第 i 组与第 j 组间的
2

2009年 7月 28日第四军医大学卫生统计学教研室
)
11
(
12
)1(
)(
2
2
ji
ji
nn
NN
cRR

,c 为按公式 (6 - 8) 计算的校正系数当例数较大时,
2
近似服从 df =( 组数 - 1 ) 的
2
分布,
例中 c =1,N =21,99.5)2(
2
05.0
,
2
P
A 组与 B 组比较 7.83 <0.05
A 组与 C 组比较 6.07 <0.05
B 组与 C 组比较 0.11 >0.05
3,求 P 值,下结论
2009年 7月 28日第四军医大学卫生统计学教研室第四节 随机单位组设计的秩和检验
Friedman rank sum test
例 6 - 4 表 6 - 5 比较穿四种防护服时的脉搏数(次 / 分)
防护服 A 防护服 B 防护服 C 防护服 D 编号脉搏 秩号 脉搏 秩号 脉搏 秩号 脉搏 秩 号
1 14 4.4 4 14 3.0 3 13 3.4 1 14 2.8 2
2 11 6.2 2 11 9.2 4 11 8.0 3 11 0.8 1
3 10 5.8 1 11 4.8 3 11 3.2 2 11 5.8 4
4 98,0 1 12 0.0 3 10 4.0 2 13 2.8 4
5 10 3.8 2 11 0.6 4 10 9.8 3 10 0.6 1
秩和 Ri 10 17 11 12
2009年 7月 28日第四军医大学卫生统计学教研室
1 。 H
0
穿 四 种 防 护 服 的 脉 搏 次 数 分 布 相 同 ; H
1
穿 四 种 防 护 服 的 脉 搏 次 数 分 布 不 全 相同 。 α = 0.05
2,按 区 组 ( 受 试 者 ) 编 秩 号,按 处 理 ( 防 护 服 分 组 ) 求 秩 和 R
1
,R
2
,R
3
,?,相 同秩 号 取 平 均 秩
3,计 算 检 验 统 计 量 H
)1(3
)1(
12
2


kbR
kkb
H
i
,k 是 处 理 数,b 是 区 组 数当 区 组 内 有 同 秩 存 在 时,按 上 式 计 算 的 H 值 偏 小,需 要 对 H 作 校 正,cHH
c
,
校 正 系 数 c 按 下 式 计 算,


b
ii
ttkkb
kkb
c
)()(
)(
33
3
,1?c,
本 例 数 据 不 存 在 同 秩,将 相 应 计 算 结 果 与 k = 4,b = 5 代 入 公 式 6 - 10 得
48.3553)12111710(
545
12
2222


H
2009年 7月 28日第四军医大学卫生统计学教研室
4,求 P 值,下结论
(i )
2
分布近似法:当 k >4 或 k =4 且 b >5 或 k =3 且 b >9 时
H 值的分布近于自由度为 k - 1 时的
2
分布
( ii ) 查表法 ( 附表 12),k,b 不能满足上述条件本例 k =4,b =5 查附表 1 2,得 H
0,05
=7,80,今 H < H
0,05
,
故 P >0.05,在 α =0.05 水平上 不 拒绝 H
0
,尚未发现四种防护服对脉搏的影响存在差别。
2009年 7月 28日第四军医大学卫生统计学教研室二、多组处理效应间的 两两比较经 Fr ie dm a n 秩和检验得多组处理效应间存在差别时,
仍然可进一步用 Ne me ny i 法作各组间两两比较,由于各处理组例数相等,等于区组数 b,公式 6 - 9 简化成
6
)1(
)(
2
2


kbk
cRR
ji
,c 为 按公式 6 - 11 计算的校正系数当例数较大时
2
近似服从 df =( 处理组数 - 1 ) 的
2
分布 。
2009年 7月 28日第四军医大学卫生统计学教研室小 结
1,非参数检验在假设检验中不对参数作明确的推断,也不涉及样本取自何种分布的总体 。 它的适用范围较广 。 常用的非参方法较为简便 。 易于理解掌握 。 当资料适用参数检验方法时,用非参常会损失部分信息,降低检验效能 。
2,秩和检验是通过对数据依小到大排列秩次,求秩和来进行假设检验的方法,可用于两独立样本比较,配对资料比较,多个独立样本比较,随机配伍组比较等 。