Meta分析介绍如何综合收集到的证据帮助你决策循证医学 Evidence Based Medicine
指临床医生对病人的诊治应基于科学证据。任何决策需建立在当前最佳证据的基础上。
强调临床医生应在仔细采集病史和体格检查的基础上,根据临床实践中急需解决的问题,进行有效的文献检索,并对其进行评价,找到最适宜和最有力的证据,通过严谨的判断,将最适宜的诊断方法、最精确的预后估计及最有效的治疗方法用于对每个具体病人的服务。
传统医学与循证医学的差异循证医学中的“证”
所有已经完成的和正在进行的医学研究都可以成为证据
但是,对大样本随机对照试验 ( randomized
controlled trials,RCTs) 和其他相关随机对照研究进行系统综述 ( systematic reviews,SR) 后所得出的结果,是关于某种疗法有效性和安全性的最佳证据,是金标准
因此,在进行临床决策时,应尽可能收集相关的随机对照研究,并对它们进行系统综述以获得最强有力的证据
证据的强度
A级
1a,RCTs的系统综述
1b,单项 RCT(95%CI较窄者为优 )
1c,全或无,即必须满足下列要求
(1)用传统方法治疗,全部患者残疾或治疗失败;
而用新的疗法后,有部分患者存活或治愈。
(2)用传统方法治疗,许多患者死亡或治疗失败;
而用新疗法无一死亡或治疗失败。
B级
2a,队列研究的系统综述
2b,单项队列研究 (包括质量较差的 RCT,随访率 <80%)
2c,结局研究
3a,病例对照研究的系统综述
3b,单项病例对照研究
C级
4,系列病例分析及质量较差的病例对照研究
D级
5,没有分析评价的专家意见
Meta分析与循证医学
如上所述,相关研究或相关研究的系统综述结果是循证医学的所谓的证据,其中相关随机对照研究的系统综述结果更是循证医学中的最强证据。
系统综述指的是全面收集所有相关研究并进行科学的定量合成,从而得出综合可靠结论的过程。
其科学性体现在可用一些系统的方法来尽可能地减少单个研究所可能存在的偏倚和随机误差。而
Meta分析是汇总多个研究结果而进行总体效应评价的一种分析方法。所以 Meta分析是系统综述的常用工具,也是循证医学的重要组成部分。
Meta分析
以综合研究结果为目的,通过查阅文献收集与某一特定问题相关的多个研究并对这些研究的结果所进行的统计分析
同一研究目的可能有几个、几十个、甚至上百个研究者在不同地区进行研究并发表研究结果。单独任一研究都可能因为样本量太少或研究范围过于局限而很难得到一个明确的或具有一般性的结论(证据)
而将这些结果进行整合后所得到的综合结果(证据)无疑比任何一个单独的研究结果更有说服力
与一般统计分析不同的是,Meta分析的分析单位是已经经过统计分析的研究结果,而不是导致这些结果的原始数据
Meta分析计划
Meta分析可以被视为关于证据的观察性研究。与进行其他研究类似,Meta分析的步骤大致上包括:确定问题,收集数据并进行分析,对分析结果进行解释并给出报告。
在进行 Meta分析之前需要制定一份尽可能详细的研究方案,在方案中指明研究目的,
确立需要进行检验的假设,规定所采用的统计学方法和建立原始研究的纳入标准和排除标准。
进行 Meta分析时应遵循以下原则:
1、纳入 Meta分析的多个研究的原始数据(如果有的话)
应保持分开状态。 Meta分析整合的是多个研究的分析结果,而不是其原始数据。那种合并原始数据后再进行分析的做法是错误的。
2、纳入 Meta分析的多个研究之间也许在某些方面(病人特征、结果变量等)存在差异,但在大体上应该是类似的。
3、纳入 Meta分析的多个研究最好是采用了随机化分组和适当盲法的试验(随机对照试验)。对偏离研究方案的处理,最好是采用了 Intention-to-treat原则的研究。
4、应尽可能地利用所有相关的、可以应用的研究的数据。
Meta分析方法
Meta分析的基本思想是对收集上来的多个研究的结果进行加权平均,以得到一个综合结果
Meta分析的两个阶段第一阶段:对每一个研究计算其概括统计量。
如果是随机对照试验,概括统计量应为治疗效果的估计分类资料:相对危险度、比数比和率差连续型资料:两均数间差异生存时间资料:风险比第二阶段:加权平均概括统计量计算综合治疗效果
权重
权重的选择应反映每个研究所包含的信息量。
在实践中,权重往往采用治疗效果的方差(标准误的平方)的倒数
同质性检验 homogeneity test
多个研究间治疗效果是否一致的假设检验在实践中,个别研究的治疗效果往往与加权平均后得到的综合治疗效果不同。同质性检验考察这种不同是仅仅由于随机波动造成的,还是由于纳入的多个研究在设计、研究条件和病人来源等方面的固有差异造成的个别研究的治疗效果估计
结果为两分类变量的研究的治疗效果估计例 1:表 1 22项链激酶预防心肌梗塞后死亡效果的临床试验结果研究编号
(trialno)
研究名称
(trialnam)
发表年份
(year)
治疗组 对照组死亡 (deaths1) 全部 (pop1) 死亡 (deaths0) 全部 (pop0)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
Fletcher
Dewar
1st European
Heikinheimo
Italian
2nd European
2nd Frankfurt
1st Australian
NHLBI SMIT
Valere
Frank
UK Collab
Klein
Austrian
Lasierra
N German
Witchitz
2nd Australian
3rd European
ISAM
GISSI-1
ISIS-2
1959
1963
1969
1971
1971
1971
1973
1973
1974
1975
1975
1976
1976
1977
1977
1977
1977
1977
1977
1986
1986
1988
1
4
20
22
19
69
13
26
7
11
6
48
4
37
1
63
5
25
25
54
628
791
12
21
83
219
164
373
102
264
53
49
55
302
14
352
13
249
32
112
156
859
5860
8592
4
7
15
17
18
94
29
32
3
9
6
52
1
65
3
51
5
31
50
63
758
1029
11
21
84
207
157
357
104
253
54
42
53
293
9
376
11
234
26
118
159
882
5852
8595
结果为两分类变量的个别研究的数据一般可以整理成一个四格表。假设有 H个研究纳入 Meta分析(如本例,
H=22),则第 h( h=1,2,?,H)个研究的数据可以表示如下表。表中的“所关心事件”既可以是负面的,如疾病复发、死亡,也可以是正面的,如病情好转、治愈等(本例中所关心事件为死亡)。
结果为两分类变量时研究数据的一般格式(表 2)
此类研究的治疗效果常用比数比、相对危险度或率差来表示。这些统计量在合并时往往使用对数尺度。下面给出这些统计量的计算公式和它们取对数尺度时的标准误第 h个研究 所关心事件发生数所关心事件未发生数合计治疗组 ah bh n1h
对照组 ch dh n2h
第 h个研究的比数比的计算公式为:
其取对数尺度时的标准误为:
第 h个研究的相对危险度的计算公式为:
其取对数尺度时的标准误为:
第 h个研究的率差的计算公式为:
其标准误为:
hh
hh
h cb
daOR?

hhhh
h dcbaORSE
1111ln
hh
hh
h nc
naRR
2
1?

hhhh
h nncaRRSE
21
1111ln
h
h
h
h
h n
c
n
aRD
21

3
2
3
1 h
hh
h
hh
h n
dc
n
baRDSE
本例第 7个研究的比数比及其取对数尺度时的标准误分别为 0.3778和 0.3687;相对危险度及其取对数时的标准误分别为 0.4571
和 0.3033;率差及其标准误分别为 -0.1514
和 0.0550。
实习:第 8个研究的各种尺度的治疗效果估计及其标准误是多少?
结果为连续变量的研究的治疗效果估计
例 2:某药提高哮喘患者抗过敏能力效果的研究表 3 5项某药提高哮喘患者抗过敏能力效果的临床试验结果用药组 对照组研究编号 样本量
( n1)
平均数
( m1)
标准差
( sd1)
样本量
( n0)
平均数
( m0)
标准差
( sd0)
1 24 1.27 0.70 25 1.63 0.70
2 33 1.29 0.96 30 1.75 0.93
3 44 1.28 2.41 40 2.21 1.94
4 35 1.32 1.85 36 1.91 1.80
5 43 1.22 1.70 41 1.98 1.75
要估计结果为连续型变量的研究的治疗效果,需要知道比较的两组各自的均数、标准差和样本含量。假设有 H个研究纳入 Meta分析(如本例,H=5),则第 h( h=1,2,?,H)
个研究的数据一般可以整理成如下表形式(表 4)。
显然,两组合并方差为:
第 h个研究 均数 标准差 样本含量治疗组 MEAN1h SD1h n1h
对照组 MEAN2h SD2h n2h

2
11
21
2
22
2
11


hh
hhhh
h nn
SDnSDns
对于连续型数据,有两种概括统计量(治疗效果估计)用于 Meta分析。第一种为均数之差,适用于所有纳入 Meta
分析的个别研究均采用相同尺度时。第二种为标准化均差,
适用于个别研究采用不同尺度时。例如:采用各种心理量表评价精神忧郁。标准化均差的目的就是对采用不同尺度得到的治疗效果进行标准化,使它们可以合并。标准化均差表达的是每一研究的治疗效果(均数之差)相对于其变异度的大小。
对于第一种方法,如用 MD表示均数之差,则第 h个研究的均数之差为:
其标准误为:
hhh M EA NM EA NMD 21

h
h
h
h
h n
SD
n
SDMDSE
2
2
2
1
2
1
对于本例,经计算 5项研究的上述统计量的估计值列于下表(表 5)(括弧中为统计量的标准误)。
需要指出的是,不论是均数之差法还是标准化均差法都假定比较的两组的结果变量服从正态分布。如果是偏态分布或严重非正态分布,由这些方法得到的结果是有偏性的。
研究编号方法 I 方法 II
Cohen’s d Hedge’s adjusted g Glass’s Δ
1 -0.36(0.20) -0.51(0.29) -0.51(0.29) -0.51(0.30)
2 -0.46(0.24) -0.49(0.26) -0.48(0.26) -0.49(0.26)
3 -0.93(0.48) -0.42(0.22) -0.42(0.22) -0.48(0.23)
4 -0.59(0.43) -0.32(0.24) -0.32(0.24) -0.33(0.24)
5 -0.76(0.38) -0.44(0.22) -0.44(0.22) -0.43(0.22)
综合治疗效果的估计
固定效应方法和随机效应方法将综合治疗效果记为?。固定效应方法假设所有个别研究的治疗效果
(真值)是相同的(同质性假定),也可以称为固定的,都等于综合治疗效果?,即:
观察到的治疗效果的估计与真值? 的差异仅仅是由于抽样误差造成的。
随机效应方法假设个别研究的治疗效果(真值)是不同的,它们围绕综合治疗效果?上下波动。一般的,假设个别治疗效果?h服从均数为?
方差为?2的正态分布,即:
对于固定效应方法,其同质性假定是需要进行检验的。该检验称为同质性检验。本质上,同质性检验即检验是否?2=0。这反映了固定效应方法和随机效应方法之间的联系。2值越小,由固定效应方法得到的结果与由随机效应方法得到的结果越接近。
Hh21
2,~ Nh
固定效应方法中的倒方差法 inverse variance method
倒方差法可以用于结果为两分类或连续型变量治疗效果的合并。在倒方差法中,待合并的个别研究的治疗效果估计量 表示第 h个研究的对数比数比、对数相对危险度比、
率差、均数之差或标准化均差。现将综合治疗效果估计量记为,则其计算公式为:
其中 是相应于第 h项个别研究的权重,其定义为治疗效果估计的标准误的平方的倒数,其具体计算公式如下:
由此定义可知,相对于(样本量)较小的研究,(样本量)较大的研究因为标准误较小,在合并时往往会拥有较大的权重。倒方差法的这种权重定义使得合并后的综合治疗效果估计的变异度达到最小。
h
IV

H
h h
H
h hh
IV w
w
1
1

hw
2?
1
h
h
SE
w
综合治疗效果估计的标准误计算公式如下:
另外,倒方差法的同质性检验统计量的构建如下:
倒方差法的优势在于它的广泛可应用性。对于待合并的各个别研究来说,只要其治疗效果估计的标准误可以得到就可以参与合并。因此倒方差法可以应用于多种类型研究的治疗效果估计的合并,除前述的两分类和连续型数据的各种治疗效果估计,还包括标准化死亡率比、诊断性试验指数、风险比、交叉试验和群组随机化试验中的治疗效果估计。倒方差法还可以用于只有治疗效果估计和可信区间而原始 2?2表数据无法得到的研究。


H
h h
IV
w
SE
1
1
Hh IVhhIV wQ 1 2
固定效应方法中的 M-H法 Mantel-Haenszel methods
当研究的数据稀少,或是所关心事件的发生率低或是因为样本量小时,利用倒方差法得到的治疗效果估计的标准误是不理想的(大或者不稳定)。这种情况下,应选用 M-H
法。研究证明,当数据稀少时,相比倒方差法,M-H法具有更好的稳健性。即使在其他情况下,M-H法也可以得到与倒方差法相似的结果。但是,M-H法只适用于结果是两分类变量的研究。
固定效应方法中的 Peto比数比方法是 M-H法的一个可选方法。
Peto方法在治疗效果很大且比较的两组样本含量严重不均衡时是不适用的。但是,严重不均衡的情况,例如一组的样本量是另一组的 4到 5倍,在随机化试验中是很少发生的。
对于其他情况,包括所关心事件的发生率很低时,Peto法均可以放心使用。另外,该法也无需校正四格表中的零计数。
22项关于静脉内链激酶预防心肌梗塞后死亡研究的综合效果估计
选用 OR作为治疗效果的估计,则由上述三种方法得到的综合效果的估计如下表(表 6)。
表 6 静脉内链激酶预防心肌梗塞后死亡的综合效果估计方法 综合效果的估计 可信区间 假设检验 P值倒方差法 0.7741 (0.7253,0.8261) 7.71 <0.001
M-H法 0.7735 (0.7249,0.8254) 7.76 <0.001
Peto法 0.7742 (0.7258,0.8258) 7.77 <0.001
随机效应方法- DerSimonian and Laird法随机效应方法假设个别研究的治疗效果(真值)是不同的,
它们围绕综合治疗效果?上下波动。一般的,假设个别治疗效果?h服从均数为?方差为?2的正态分布,即:
因此,随机效应方法中既要估计综合治疗效果?,又要估计个别治疗效果的变异程度?2 。 DerSimonian and Laird
关于?2的估计量为:
这里,Q为同质性统计量,(k-1)为 Q的自由度。当 Q<k-1
时,令 为零。权重 wh按倒方差法计算。
2,~ Nh


H
h h
H
h hH
h h
w
w
w
kQ
1
1
2
1
2 1
2
综合治疗效果的估计一般按倒方差法。为与前述方法相区别,将参与合并的个别研究的权重记为,其计算公式为:
综合治疗效果估计为:
其标准误为:
注意到当 为零时,权重 等于倒方差法中的权重 。
当 不为零时,权重 将小于固定效应方法中的权重,
个别研究相互间权重也更加接近。这使得随机效应方法中,
小样本的个别研究将获得相对较大的权重,综合治疗效果的可信区间相比固定效应也更加保守。
*hw
22*
1

h
h SEw

H
h h
H
h hh
DL w
w
1
*
1
*?



H
h h
DL
w
SE
1
*
1
2 *hw hw
2 *hw
hw
综合治疗效果的可信区间综合治疗效果?的 100(1-?)%可信区间为:
其中,为对数比数比、对数相对危险度、率差、均数之差或标准化均差,z为标准正态离差。由此方法得到例 1的综合治疗效果的可信区间列于表 6 。
综合治疗效果的假设检验在没有治疗效果的无效假设下,综合治疗效果的估计与其标准误的比值将服从标准正态分布。注意如果治疗效果为比数比或相对危险度,在构建检验统计量时仍应取对数尺度。
另外,对于比数比治疗效果的检验,可构建下述 检验统计量:
, 2121 SEzSEz

2?


H
h h
H
h hh
v
aEa
1
1
2
2?
线林图 forest plot
Meta分析中最常见的统计图,用于概括 Meta分析的结果。
右图来自于一项关于?阻滞剂对心梗的二级预防效果的 Meta分析结果由右图可见,相对于对照组阻滞剂组的死亡风险降低了 22%。