分类数据的组间比较分类数据的分析对象是归属于某一类的观测的频数。
分类数据的表现形式
频数
频数表
交叉频数表 cross-tabulation
百分构成
有序还是无序近视眼 非近视眼 合计男 a b n1+
女 c d n2+
合计 n+1 n+2 n
二项分布
n人中 B型血人数 x的概率分布
10人中 B型血人数 x的概率分布图 100人中 B型血人数 x的概率分布图
0
0.1
0.2
0.3
0.4
0.5
0 1 2 3 4 5 6 7 8 9
0.00E+00
2.00E-02
4.00E-02
6.00E-02
8.00E-02
1.00E-01
1.20E-01
1.40E-01
1.60E-01
0 2 4 6 8 10 12 14 16 18
1 1
! !
!)Pr ( nn
xnx
nx xnx
0.080.08
单个样本百分构成的分析
百分构成,p=x/n
点估计 p
正态近似的应用条件
np>5 和 n(1-p) >5;同样的,x>5 和 n-x>5
区间估计(正态近似法)
假设检验
直接法
正态近似法
npppSEp 1,?
pSE
pz n21
回顾 — 符号检验 Sign test
如果样本观测值与参考值在平均上没有差别的话,那么小于参考值和大于参考值的观测数应大致相等,即:任一观测值在参考值左边或右边的概率相等,均为 1/2
81.1
6 5 8.1
5.59
1
:
11.2
6 5 8.1
5.59
1
6 5 8.1111
5.511
9,2;,11 2
2
1
2
1
2
1
2
1
2
1
2
1
pnp
npx
z
pnp
npx
z
pnpxSE
np
xxpn
连续性校正理论值利用正态近似项分布利用两个独立样本的百分构成的比较
点估计 p1-p21-?2
区间估计(正态近似法)
假设检验(正态近似法)
21
21
2121
2
22
1
11
))(?1(?
v a rv a r
11?11?
21
11
2121
nn
xx
nnn
pp
n
pp
n
pp
n
pp
p
ppppSE
ppppSE
21
11
2
1
21 21
ppSE
ppz nn
c?
存活 死亡 合计单纯 57 b 84
联合 39 d 47
合计 n+1 n+2 131
配对样本百分构成的分析
区间估计(正态近似法)
Yes No 合计
Yes a b n1+
No c d n2+
合计 n+1 n+2 n
同一个体有两次观测
n cbn
n
cb
n
ca
n
ba
cbppSE
pp
2)(
1
21
21
配对样本百分构成的分析(续)
假设检验(正态近似法)
在无效假设的前提下:
基于 2项分布考虑的假设检验在无效假设的前提下,b+c中 b或 c的频数服从 2项分布直接法,p=0.5
正态近似法:
cbppSE ncbcbn 122121 0
cb
cb
ppSE
ppz nn
c?
1
21
11
2
1
21 21
cb
cb
bSE
b
z
cb
cbpnpbSE
cb
2
2
1
2
1
2
1
McNemar’s test
a和 d是否真的被忽略?
Yes No 合计
Yes 10 15 n1+
No 6 5 n2+
合计 n+1 n+2 36
Yes No 合计
Yes 51 15 n1+
No 6 33 n2+
合计 n+1 n+2 105
4 8 6.0~0 1 4.0:
1 2 0 3.096.125.0:%95
1 2 0 3.0
36921
2 5 0.0
4 4 4.036610
6 9 4.0361510
2
36
1
21
21
2
1
即
CI
ppSE
pp
p
p
1 70.0~0 02.0:
0 42 8.096.10 86.0:%95
0 42 8.0
1 05921
0 86.0
5 43.01 05651
6 29.01 051551
2
1 0 5
1
21
21
2
1
即
CI
ppSE
pp
p
p
行?列表的分析生存 死亡 合计组 1 a b n1+
组 2 c d n2+
合计 n+1 n+2 n
水平 1? 水平 C 合计组 1 n11 n1C n1+
nij
组 R nR1 nRC nR+
合计 n+1? n+C n
行?列表又称 R?C表、列联表分析前要考虑的问题:
1,水平数
2,水平之间是否有序
3,要回答问题的性质
2检验与?2分布
2检验
实际频数与理论频数
2分布
行?列表的?2分布的自由度 =(r-1)(c-1)
2检验的适用条件理论频数,80%的格子 >5和 100%的格子 >1。
2221
22
~,1,0~,,,
1~,1,0~
的自由度为的自由度为
kXNXXX
XNX
ik?
分布2
1 1
2
2 ~
r
i
c
j ij
ijij
E
EOX
变量 1的水平数?变量 2的水平数
2? 2表 (四格表 )
2? C表 C无序
2? C表 C有序
R? C表 双向无序
R? C表 单向有序
R? C表 双向有序四格表的统计分析观测频数 O 理论频数 E O-E (O-E)2/E
a=69 E(a)=57.66 11.34 2.230
b=37 E(b)=48.34 -11.34 2.660
c=30 E(c)=41.34 -11.34 3.111
d=46 E(d)=34.66 11.34 3.710
Total=182 182 0 X2=11.711
Column1 Column2 Total
Row1 a b a+b
Row2 c d c+d
Total a+c b+d N
E(a)=(a+b)(a+c)/N
X2=?[(O-E)2]/E
四格表?2的连续性校正
Yates’校正 (Yates’ correction)
dcdbcaba
bcadN
X
E
EO
X
N
Y
Y
2
22
2
2
1
2
建议对所有四格表?2值进行校正某新药临床试验研究结果新药组 有效 6
新药组 无效 3
安慰剂组 有效 2
安慰剂组 无效 9
回顾,?2检验的适用条件理论频数,80%的格子 >5和 100%的格子 >1。
确切概率检验法
Fisher‘s exact test
在无效假设成立的前提下并且周边合计固定时,产生任意四格表的概率为:
P值为在无效假设成立的前提下,得到现有样本四格表和更极端情况的四格表的概率。
a b c d p
0 9 8 3 0.0013
1 8 7 4 0.0240
2 7 6 5 0.1320
3 6 5 6 0.3081
4 5 4 7 0.3301
5 4 3 8 0.1650
6 3 2 9 0.0367
7 2 1 10 0.0031
8 1 0 11 0.0000
!!!!!
!!!!
dcbaN
dcdbcaba
2?C表的统计分析( 1)
C无序公费 医保 自费 合计甲 86 11 50 147
乙 239 9 88 336
合计 325 20 138 483
甲 % 26.46 55 36.23 30.44
NRPrR
PP
NRnr
X
j
C
j
jj;
1
2
1
2
2
2?C表的统计分析( 2)
C有序 — 趋势?2检验
连续型数据的组间比较的统计方法
Mann-Whitney U test
无效 好转 显效 痊愈 合计新疗法 18 20 21 35 94
传统疗法 13 39 29 13 94
合计 31 59 50 48 188
新疗法 % 58.06 33.90 42.00 72.92 50.00
评分 aj 1 2 3 4
新疗法 % 58.06 33.90 42.00 72.92 50.00
R?C表的统计分析
双向无序
单向有序
双向有序关于 2?2表的其他统计分析
危险度比较
前瞻性研究 — 相对危险度 RR的估计
回顾性研究 — 比数比 OR的估计
多个 2?2表的合并 — Mantel-Haenszel方法
Yes No 合计组 1 a b a+b
组 2 c d c+d
合计 a+c b+d N
dcc
baaRR
dccbaae RRSE 1111lo g
bc
ad
dc
baOR
dc
d
dc
c
ba
b
ba
a
dcbae ORSE 1111lo g
分类数据的表现形式
频数
频数表
交叉频数表 cross-tabulation
百分构成
有序还是无序近视眼 非近视眼 合计男 a b n1+
女 c d n2+
合计 n+1 n+2 n
二项分布
n人中 B型血人数 x的概率分布
10人中 B型血人数 x的概率分布图 100人中 B型血人数 x的概率分布图
0
0.1
0.2
0.3
0.4
0.5
0 1 2 3 4 5 6 7 8 9
0.00E+00
2.00E-02
4.00E-02
6.00E-02
8.00E-02
1.00E-01
1.20E-01
1.40E-01
1.60E-01
0 2 4 6 8 10 12 14 16 18
1 1
! !
!)Pr ( nn
xnx
nx xnx
0.080.08
单个样本百分构成的分析
百分构成,p=x/n
点估计 p
正态近似的应用条件
np>5 和 n(1-p) >5;同样的,x>5 和 n-x>5
区间估计(正态近似法)
假设检验
直接法
正态近似法
npppSEp 1,?
pSE
pz n21
回顾 — 符号检验 Sign test
如果样本观测值与参考值在平均上没有差别的话,那么小于参考值和大于参考值的观测数应大致相等,即:任一观测值在参考值左边或右边的概率相等,均为 1/2
81.1
6 5 8.1
5.59
1
:
11.2
6 5 8.1
5.59
1
6 5 8.1111
5.511
9,2;,11 2
2
1
2
1
2
1
2
1
2
1
2
1
pnp
npx
z
pnp
npx
z
pnpxSE
np
xxpn
连续性校正理论值利用正态近似项分布利用两个独立样本的百分构成的比较
点估计 p1-p21-?2
区间估计(正态近似法)
假设检验(正态近似法)
21
21
2121
2
22
1
11
))(?1(?
v a rv a r
11?11?
21
11
2121
nn
xx
nnn
pp
n
pp
n
pp
n
pp
p
ppppSE
ppppSE
21
11
2
1
21 21
ppSE
ppz nn
c?
存活 死亡 合计单纯 57 b 84
联合 39 d 47
合计 n+1 n+2 131
配对样本百分构成的分析
区间估计(正态近似法)
Yes No 合计
Yes a b n1+
No c d n2+
合计 n+1 n+2 n
同一个体有两次观测
n cbn
n
cb
n
ca
n
ba
cbppSE
pp
2)(
1
21
21
配对样本百分构成的分析(续)
假设检验(正态近似法)
在无效假设的前提下:
基于 2项分布考虑的假设检验在无效假设的前提下,b+c中 b或 c的频数服从 2项分布直接法,p=0.5
正态近似法:
cbppSE ncbcbn 122121 0
cb
cb
ppSE
ppz nn
c?
1
21
11
2
1
21 21
cb
cb
bSE
b
z
cb
cbpnpbSE
cb
2
2
1
2
1
2
1
McNemar’s test
a和 d是否真的被忽略?
Yes No 合计
Yes 10 15 n1+
No 6 5 n2+
合计 n+1 n+2 36
Yes No 合计
Yes 51 15 n1+
No 6 33 n2+
合计 n+1 n+2 105
4 8 6.0~0 1 4.0:
1 2 0 3.096.125.0:%95
1 2 0 3.0
36921
2 5 0.0
4 4 4.036610
6 9 4.0361510
2
36
1
21
21
2
1
即
CI
ppSE
pp
p
p
1 70.0~0 02.0:
0 42 8.096.10 86.0:%95
0 42 8.0
1 05921
0 86.0
5 43.01 05651
6 29.01 051551
2
1 0 5
1
21
21
2
1
即
CI
ppSE
pp
p
p
行?列表的分析生存 死亡 合计组 1 a b n1+
组 2 c d n2+
合计 n+1 n+2 n
水平 1? 水平 C 合计组 1 n11 n1C n1+
nij
组 R nR1 nRC nR+
合计 n+1? n+C n
行?列表又称 R?C表、列联表分析前要考虑的问题:
1,水平数
2,水平之间是否有序
3,要回答问题的性质
2检验与?2分布
2检验
实际频数与理论频数
2分布
行?列表的?2分布的自由度 =(r-1)(c-1)
2检验的适用条件理论频数,80%的格子 >5和 100%的格子 >1。
2221
22
~,1,0~,,,
1~,1,0~
的自由度为的自由度为
kXNXXX
XNX
ik?
分布2
1 1
2
2 ~
r
i
c
j ij
ijij
E
EOX
变量 1的水平数?变量 2的水平数
2? 2表 (四格表 )
2? C表 C无序
2? C表 C有序
R? C表 双向无序
R? C表 单向有序
R? C表 双向有序四格表的统计分析观测频数 O 理论频数 E O-E (O-E)2/E
a=69 E(a)=57.66 11.34 2.230
b=37 E(b)=48.34 -11.34 2.660
c=30 E(c)=41.34 -11.34 3.111
d=46 E(d)=34.66 11.34 3.710
Total=182 182 0 X2=11.711
Column1 Column2 Total
Row1 a b a+b
Row2 c d c+d
Total a+c b+d N
E(a)=(a+b)(a+c)/N
X2=?[(O-E)2]/E
四格表?2的连续性校正
Yates’校正 (Yates’ correction)
dcdbcaba
bcadN
X
E
EO
X
N
Y
Y
2
22
2
2
1
2
建议对所有四格表?2值进行校正某新药临床试验研究结果新药组 有效 6
新药组 无效 3
安慰剂组 有效 2
安慰剂组 无效 9
回顾,?2检验的适用条件理论频数,80%的格子 >5和 100%的格子 >1。
确切概率检验法
Fisher‘s exact test
在无效假设成立的前提下并且周边合计固定时,产生任意四格表的概率为:
P值为在无效假设成立的前提下,得到现有样本四格表和更极端情况的四格表的概率。
a b c d p
0 9 8 3 0.0013
1 8 7 4 0.0240
2 7 6 5 0.1320
3 6 5 6 0.3081
4 5 4 7 0.3301
5 4 3 8 0.1650
6 3 2 9 0.0367
7 2 1 10 0.0031
8 1 0 11 0.0000
!!!!!
!!!!
dcbaN
dcdbcaba
2?C表的统计分析( 1)
C无序公费 医保 自费 合计甲 86 11 50 147
乙 239 9 88 336
合计 325 20 138 483
甲 % 26.46 55 36.23 30.44
NRPrR
PP
NRnr
X
j
C
j
jj;
1
2
1
2
2
2?C表的统计分析( 2)
C有序 — 趋势?2检验
连续型数据的组间比较的统计方法
Mann-Whitney U test
无效 好转 显效 痊愈 合计新疗法 18 20 21 35 94
传统疗法 13 39 29 13 94
合计 31 59 50 48 188
新疗法 % 58.06 33.90 42.00 72.92 50.00
评分 aj 1 2 3 4
新疗法 % 58.06 33.90 42.00 72.92 50.00
R?C表的统计分析
双向无序
单向有序
双向有序关于 2?2表的其他统计分析
危险度比较
前瞻性研究 — 相对危险度 RR的估计
回顾性研究 — 比数比 OR的估计
多个 2?2表的合并 — Mantel-Haenszel方法
Yes No 合计组 1 a b a+b
组 2 c d c+d
合计 a+c b+d N
dcc
baaRR
dccbaae RRSE 1111lo g
bc
ad
dc
baOR
dc
d
dc
c
ba
b
ba
a
dcbae ORSE 1111lo g