连续型数据的组间比较
Good answers come from good
questions not from esoteric analysis.
-- Schoolman et al.,1968
方法的选择
组数单样本、两样本、多样本
组间是独立的还是依存的?
两独立样本、前后样本或匹配样本
数据的类型
数据的分布正态、方差齐
t 分布
小样本并且总体方差未知时
自由度样本大小-统计量的个数标准差的估计
基于 t分布构建总体均数的可信区间或进行假设检验
方差分析( analysis of variance,ANOVA)
与 F分布单样本分析 One sample analysis
11名健康妇女 10天日均能量摄入( kJ)
编号 日均能量摄入 (kJ)
1 5260
2 5470
3 5640
4 6180
5 6390
6 6515
7 6805
8 7515
9 7515
10 8230
11 8770
Mean 6753.6
SD 1142.1
求:
均数及标准差标准误
95%可信区间与参考值的差差的均数及标准差差的均数的标准误
95%可信区间日均能量摄入参考值
7725kJ
单样本 t检验( t test)
821.2
111.1142
77256.6753
05.0
:
:
00
011
010

ns
x
s
x
t
H
H
x



符号检验 Sign test
如果样本观测值与参考值在平均上没有差别的话,那么小于参考值和大于参考值的观测数应大致相等,即:任一观测值在参考值左边或右边的概率相等,均为 1/2



81.1
6 5 8.1
5.59
1
:
11.2
6 5 8.1
5.59
1
6 5 8.1111
5.511
9,2;,11 2
2
1
2
1
2
1
2
1
2
1
2
1






pnp
npr
z
pnp
npr
z
pnps
np
rrpn
r
连续性校正理论值利用正态近似项分布利用符号秩和检验
Wilcoxon signed rank sum test
比符号检验进一步,考虑了量的大小。
1,计算观测值与参考值的差;
2,无视正负号对差从小到大排序;
3,对所有正(或负)的顺位求和。
非参数方法的检验效力不如参数方法。所以如果可以用参数方法就避免用非参数方法。

;21
24121;41
,
5),25
2


nn
nnnnn
n
总秩和利用正态近似。对于大样本
。查附表对于小样本(

配对资料的分析编号 闭经前 闭经后 差
1 5260 3910 1350
2 5470 4220 1250
3 5640 3885 1755
4 6180 5160 1020
5 6390 5645 745
6 6515 4680 1835
7 6805 5265 1540
8 7515 5975 1540
9 7515 6790 725
10 8230 6900 1330
11 8770 7335 1435
Mean 6753.6 5433.2 1320.5
SD 1142.1 1216.8 366.7
问:闭经前后,日均能量的摄入是否有变化?


94.11
6.1105.1320
117.366
5.1320
0
ndSD
d
dSE
d
t
两独立样本的比较两样本均数之差的标准误


219 7 5.021
21
21
21
2
22
2
112
:%95
11
:
2
11
:
xxSEtxx
nn
sxxSE
nn
snsn
s




可信区间差的标准误合并方差两样本比较的例子
24小时能量消耗 (MJ/天 )
消瘦型 ( n=13) 肥胖型 (n=9)
6.13 8.79
7.05 9.19
7.48 9.21
7.48 9.68
7.53 9.69
7.58 9.97
7.9 11.51
8.08 11.85
8.09 12.79
8.11
8.4
10.15
10.88
Mean 8.066 10.298
SD 1.238 1.398



95.3
5 65 6.0
2 32.20
41.3,05.15 65 6.00 86.22 32.2
:%95
天MJ5 65 6.0
9
1
13
1
3 04 4.1
天MJ3 04 4.1
20
3 98.182 38.112
21
21
21
22





xxSE
xx
t
xxSE
s
可信区间平均差的非参数方法 – Mann-Whitney U test
混合编秩,分组计算秩和
T统计量
U统计量 TnnnnU 1112121
1,2 1,3 1,4 1,5 1,6 1,7
2,3 2,4 2,5 2,6 2,7
3,4 3,5 3,6 3,7
4,5 4,6 4,7
5,6 5,7
6,7
3 4 5 6 7 8
5 6 7 8 9
7 8 9 10
9 10 11
11 12
13

6
21:
10
TLT
LSST
n
nnn

正态近似时于当每组样本含量大于等方差不齐时
F分布
方差齐性检验
Welch检验
2
2
S
L
s
sF?
偏态数据的分析
t检验的适用条件正态、方差齐
偏态数据的对数转换除偏、使方差齐逆转换可能
例:何杰金氏病的淋巴细胞数数据特点:标准差 >均数的 1/2?提示偏态较大的均数伴随较大的标准差?提示对数转换有效多组间比较
参数方法 – 单因素方差分析方差与离均差平方和
SS总 =SS组间 +SS组内 v总 =v组间 +v组内
MS组间 =SS组间 /v组间 MS组内 =SS组内 /v组内
F=MS组间 / MS组内
非参数方法 – Kruskal-Wallis检验
多重比较问题
k次比较,至少出现一次 I型错误的概率为:
1-(1-?)k>? Bonferroni法,?/k
连续型数据的组间比较(小结)
参数法
利用正态分布或近似正态分布
利用 t分布
方差分析
方差齐性检验
非参数法
符号检验
符号秩和检验
秩和检验
其他
偏态数据的分析样本观测量的标准差参考量样本观测量检验统计量
点估计 区间估计 假设检验参数法样本均数 利用样本均数服从正态或正态近似分布,t分布构建样本均数?C?样本均数的标准差利用样本均数服从正态或正态近似分布,t分布构建检验统计量方差齐性检验( F分布)
多样本比较:方差分析( F
分布)
非参数法样本中位数利用样本中位数构建(复杂方法)
符号检验 —利用频数;符号秩和检验 —利用任意符号的秩和;两组秩和检验 —利用较小样本的秩和当样本含量足够大时,利用样本秩和服从正态近似分布构建检验统计量多样本比较,K-W检验(卡方分布)
连续型数据的统计分析