医学研究中的常见统计问题今天的内容
方法比较问题 method comparison studies
观察者间的一致性问题 observers
agreement studies
系列测量数据 (series of measurements)的组间比较方法比较问题
method comparison studies
临床上的测量大多是不精确的
无法直接测量的量,如心脏容积、肿块大小
虽可直接测量但难以精确测量的量
不断变化的量,如血压
一种方法是否好到可以替代另外一种方法
(或两种方法可以互换)的研究例 1 Transmitral volumetric flow (MF) and left ventricular stroke
volume (SV) in 21 patients without aortic valve disease
Paitent MF SV diff=MF-SV
1 47 43 4
2 66 70 -4
3 68 72 -4
4 69 81 -12
5 70 60 10
┆ ┆ ┆ ┆
17 104 94 10
18 105 98 7
19 112 108 4
20 120 131 -11
21 132 131 1
Mean 86 85.8 0.24
SD 20.3 21.2 6.96
MF and SV
20
40
60
80
100
120
140
20 40 60 80 100 120 140
Stroke volume (SV) (cm3)
Transmitral flow
(MF) (cm3)
Difference between MF and SV plotted against
average
-20
-10
0
10
20
40 60 80 100 120 140
Average of MF and SV (cm3)
Difference (MF-
SV) (cm3)
对例 1的分析
配对 t检验?
相关分析?
平均差异反映了一种方法相对于另外一种方法的平均偏差 本例基本一致
差异的离散度 观察单位在多大范围内波动
一致性界限 limits of agreement
Mean?2SD将包含约 95%的个体差异。本例为:
-14.2 to 13.7 即个体差异在正负 14cm3的范围内波动
当差异随均数的增大而增大时,应取对数尺度进行分析
方法的可重复性评价同一方法同一观察单位的重复测量
本法的局限性
无法判断哪种方法更接近真值
如果一种方法是不精确的,可重复性差的,那么它与任何其他方法比较的结果都不会理想,
所以当结果不理想时,不能轻易认为比较的两种方法都不好。
需要较大的样本量?50
有兴趣者可进一步参阅
Bland JM and Altman DG,Statistical methods
for assessing agreement between two methods
of clinical measurement,1986.
观察者间的一致性研究 Inter-rater agreement
分类数据的方法比较研究
Example 2 Assessments of 85 xeromammograms by two radiologists
Radiologist B
Radiologist A Normal Benign Suspected cancer Cancer Total
Normal 21 12 0 0 33
Benign 4 17 1 0 22
Suspected cancer 3 9 15 2 29
Cancer 0 0 0 1 1
Total 28 38 16 3 85
一致度测量
简单方法 计算两观察者判断一致的百分比
(21+17+15+1)/85?100%=64%
两个局限性,1、未考虑在具体哪一类别发生一致; 2、
无法评价偶然出现一致的概率。
Kappa一致度在行变量与列变量独立的无效假设下,偶然出现一致的判断数为:
Normal 33? 28/85 = 10.87
Benign disease 22? 38/85 = 9.84
Suspected cancer 29? 16/85 = 5.46
Cancer 1? 3/85 = 0.04
Total 26.20?26.20/85=0.31
Kappa一致度?,(0.64-0.31)/(1-0.31) = 0.47
Kappa一致度的分级
不同频数表的 Kappa值相似
对一致度的评价仍需结合原始频数表
Kappa值 一致性分级
<0.20 Poor
0.21-0.40 Fair
0.41-0.60 Moderate
0.61-0.80 Good
0.81-1.00 Very good
实习
Comparison of RAST and MAST methods of testing serum for allergies
RAST
MAST Negative Weak Moderate High Very high Total
Negative 86 3 14 0 2 105
Weak 26 0 10 4 0 40
Moderate 20 2 22 4 1 49
High 11 1 37 16 14 79
Very high 3 0 15 24 48 90
Total 146 6 98 48 65 363
加权 Kappa系数的计算公式



we
wewo
w
g
i
g
j
jiijwe
g
i
g
j
ijijwo
ij
P
PP
crw
n
P
fw
n
P
g
ji
w





1
1
1
1
1
1 1
2
1 1
系列测量问题 Serial measurements
同一观察对象同一指标的不同时点的多次测量
常见的错误的分析方法
分时点的分析 成组 t检验或单因素方差分析 作线图描述时间点均数的变化趋势
问题
1、忽略了设计,未考虑系列测量是来自于同一观察对象;
2、均数的线图无法反映任一观察对象的变异;
3、在进行组间比较时,难以对多个相关的 P值进行解释;
4、如果存在缺损,不同时点的组间比较是不一致的
Example 3 Serum levels of progesterone (nmol/l) after nasal administration
in women
0 1 3 … 120
Group 1(0.2 ml of 100 mg/ml progesterone in one nostril)
1 1 - 10 … 14
2 6.5 5.7 9.5 … 10
3 3 4 4 … 13.4
4 1 2.1 9.7 … 6.2
5 1 1 1 … 10.6
6 1 1 1 … 10.8
Mean 2.3 2.8 5.9 … 10.8
SE 0.9 0.9 1.8 … 1.1
Group 2(0.3 ml of 100 mg/ml progesterone in one nostril)
Group 3(0.2 ml of 200 mg/ml progesterone in one nostril)
Group 4(0.2 ml of 100 mg/ml progesterone in each nostril)
Group 1
0
10
20
30
40
50
0 15 30 45 60 75 90 105 120
Time (min)
Progesterone
(nmol/l)
Group 2
0
10
20
30
40
50
0 15 30 45 60 75 90 105 120
Time (min)
Pregesterone
(nmol/l)
Group 3
0
10
20
30
40
50
0 15 30 45 60 75 90 105 120
Time (min)
Progesterone
(nmol/l)
Group 4
0
10
20
30
40
50
0 15 30 45 60 75 90 105 120
Time (min)
Progesterone
(nmol/l)
简单分析方法-利用综合统计量
同一观察对象所有观测的平均
峰值高度
到达峰值的时间
到达指定改变量的时间
高于某一水准的持续时间
到达最大改变量(相对于基线值)的时间
回到基线水平的时间
最后测量相对于基线的改变量
最终水平(或许是最后几个观测的平均)
曲线下面积( AUC)
综合统计量的选择应基于专业背景,而且应事先选定
AUC的计算方法-台型法
复杂分析方法-基于模型
观察指标为连续型数据-方差分析
观察指标为分类数据- GEE方法


1
0
112
1 n
i
iiii yytt