第五章,病例对照研究
case-control study
许林勇
第一节,基本原理
?一、概念
选定患有某病和未患某病的人群,分别调
查其暴露 (如环境因素、遗传因素、内分泌作
用以及保护因子的缺乏等 )于某个危险因子的
情况及程度,以判断暴露危险因子与某病有无
关联及关联程度大小的一种观察研究方法。
暴露或特征 病例组 对照组 合 计
+

a
c
b
d
a+b=n1
c+d=n0
合 计 a+c=m1 b+d= m 0 A+b+c+d=t
病例对照研究资料整理表
二、特点
?1、从果到因的研究
?2、由回顾调查获得暴露资料
?3、一次病例对照研究可以研究许多因素
?4、病例对照研究的本质符合队列研究设
计原理
第二节、病例对照研究的分类
(一)、按目的分类:探索性的、检验性的
(二)、按设计分类:
1,病例对照不匹配:
2,病例对照匹配:
( 1)频数匹配( frequency matching)
要求配比的因素所占的比例,两组一致。
( 2)个体配比( individual matching)
以个体为单位匹配。
3,病例对照研究的衍生类型
( 1),巢式病例对照研究 (nested case-
control study)
( 2),病例 -队列研究( case-cohort
study)
( 3),单纯病例研究( case only study)
( 4),病例交叉研究 (case-crossover
design)。
( 5),病例 -时间 -对照设计 (case-time-
control design)。
四、用途
1、探索疾病可疑的危险因素。
2、深入检验某个或某几个病因假设。
3、评价防治措施的效果。
4、用于疾病预后因素的比较:
第三节:实例
第四节, 病例对照研究的设计与实施
一、提出病因假设:
二、研究类型的选择,
1.配比因素的确定
已知或非常怀疑某种因素为研究中的混杂因子
2、配比方法
三、病例与对照的来源与选择:
(一)病例的选择
1,病例内外部特征的限制
内部 ━━ 患病部位、病理类型、诊断标准。
外部 ━━ 年龄、性别、种族。
2,病例类型的选择
新发、现患、死亡。
3,病例来源限制
医院确诊、普查。
(二)对照的选择
条件
1,未患此病的人(可以是其它疾病);
2,不能有共同危险因素的疾病病人;
3,除研究因素外其它条件一致;
4,来自同一人群;
来源
1,从医院病人中选对照;
2,从全人口中选对照;
3,从亲属、同事、邻居中选对照。
四、样本大小的估计
1、有关的影响因素:
( 1)、研究因素在对照组中的暴露率;
( 2)、估计该因素引起相对危险度;
( 3)、希望达到的精确度;
( 4)、希望达到的检验把握度;
( 5)、是单侧还是双侧检验;
2、估计的方法:
样本只是一个估计值,过大、过小都不好,
相等时效率最高。(见下页)
除查表法,还可按分式估计样本含量,
( 1)、非配比两组人数相等的样本估计,
例:在吸烟与肺癌的病对研究中。某人群有吸烟史
的人为 20%( P0),假定 OR = 2,设 α = 0.05,
β = 0.1,求 N?
P1 =( 0.2 × 2) / [1+0.2( 2–1) ] = 0.333
q1 = 1–P1,P = ( P0 + P1 ) /2,q = 1–P,代入公式:
单侧,N = 186(人) 双侧, N = 228(人)
Zα = 1.645 Zβ = 1.282,Zα = 1.960 Zβ = 1.282
2
01
2 )/()(2 ppUUpqN ???
??
)]1(1/[ 001 ??? RRppp
(2)、非配比两组人群不相等的样本估计
设:病例数,对照数 = 1:c
病例数,N= (1+1/c)pq(Zα +Zβ ) 2 / (P0 – P1 )2
P =(P1+c P0) /(1+c)
对照数 = CN
例:按上例,设 c 为 1.2,
P=( 0.33+1.2× 0.2) /( 1+1.2) = 0.26
q = 1-0.26 =0.74
(单侧 ) N =( 1+1/1.2) × 0.26× 0.74/( 1.645+1.282) 2
=186(人)
对照数 CN = 223(人)
( 3),1:1配比样本估计,
所需要的总对子数,M = m / (p0q1+p1q0)
m = [Zα /2+ Zβ ^/ p(1–p)]2/(p–1/2)2
P = OR/(1+OR) ≈ RR/(1+RR)
例:设 α = 0.05,β = 0.1,P0=0.3,RR=2,双侧。
那麽,Zα =1.960,Zβ =1.282,
P1 =P0·RR /[1+P0(RR–1) =0.46,q1=1–P1=0.54,
q0 =1–P0=0.7,P =2/3 代入公式:
m =[1.960+1.282 ^/2/3x1/3]2/(2/3–1/3)2=90
M =90 / (0.3 × 0.54+0.46 × 0.70) ≈ 186(对)
(当 RR从 2—4时,样本对子数从 186对下降至 45对)
( 4),1:R配比样本的估计,
N =( 1+1/ R) pq( Zα + Zβ ) 2 /( P1–P0 ) 2
P =( P1+RP0 ) / ( 1+R)
按上例:设 α = 0.05( 双侧 ),β = 0.1,
R( 对照) =2 RR=2,Zα =1.960,Zβ =1.282,
P =0.35,q=1–0.35=0.65,
代入公式:
N=( 1+1/2) × 0.35 × 0.65 × ( 1.96+1.282) 2
/( 0.46–0.3) 2 = 140
病例 140人,对照 140 × 2
五、研究因素的确定和资料的收集
(一)研究因素的确定
1、变量的选定
2、变量的标准
3、变量的测量
4、变量的可靠性
(二)调查表的编制
(三)调查员的培训
第五节, 资料的整理与分析
一, 资料整理
资料的分组, 归纳, 编码, 输机 。
二, 资料分析
(一)、描述性分析
1、描术研究对象的一般特征:研究对象人
数及各种特征的构成、如性别、年龄、职业、
疾病类型的分布等,
2、均衡性检验:比较两组某些基本特征是
否相似或齐同,目的是检验病例组与对照组是
否有可比性。
(二)、统计性分析
1.不匹配、未分层资料的分析,
病例对照研究资料整理表
暴露或特征 病例组 对照组 合 计
+

a
c
b
d
a+b=n1
c+d=n0
合 计 a+c=m
1
b+d=m
0
A+b+c+d=
t
( 1)显著性检验
( 2) 联系强度
比值比( odds ratio,OR)
bc
ad
db
ca
dbddbb
caccaaOR ??
??
???
/
/
)]/(/[)]/([
)]/(/[)]/([
RR(relative risk)称为相对危险度,
表示暴露组与非暴露组发病率之比,分析疾病与暴
露之间联系强度,是一种概率。 病例对照秒研究中
不能计算概率,只能用 OR代替 RR。
RR = 暴露组的发生率 /非暴露组的发生率,
(表示 E组的发生率是非 E组的多少倍)
RR=1(无意义) RR>1(正相关)(危险因素)
RR<1(负相关)(保护因素)
OR的含义与 RR均同。 疾病率小于 5%时,OR是 RR
的极好近似值。
例题,X2=(ad–bc)2t/m1m0n1n0 = 7.70,
P< 0.01,
OR = ad/ bc = 2.20,
OR95%CI = OR (1± 1.96 / ) = 1.26-3.84
口服避孕药与心肌梗死的病对研究
OC D D 合计
+

39( a)
114(c)
24(b)
154(d)
63n1
268n0
合 计 153m1 178m0 331t
x2
Woolf方法求 Z,
Z=InOR/√ (1/a+1/b+1/c+1/d)
=0.7885/0.2874 =2.74
·,Z=2.77>2.58 ?.P<0.01 如 X2判断结果一致
Woolf求 OR95%CI:
Var(InOR) = 1/a+1/b+1/c+1/d = 0.0826
lnOR95%CI = InOR± 1.96√ Var(InOR)
= 1.3218—0.2250
exp(1.3218,0.2252) = 3.75,1.25,
即 OR95%CI=1.25- 3.75 如前类同。
2、非配比的分层分析
分层分析的目的是排除混杂因素的干扰。分
层就是把研究人群按其特征分为不同层次然后
分别分析各层中暴露与疾病的关联性。
年龄
例:肺癌 年龄可能是混杂因素
吸烟
混杂因素 — 是指与研究因素和研究疾病
均有关。若在比较人群组中分布不均,可以歪
曲因素与疾病之间真正联系的因素。
分层分析的步骤如下
( 1)按归纳表整理资料,先不分层,计算 X2和 OR;
( 2)按估计的混杂因素分层,并计算各层 Xi2和 Ori
( 3)判断分层因素与研究因素和疾病的关系;
( 4)计算 X2MN,ORMN和 95%CI ;
( 5)判断分层因素是否为混杂因素:
OR(分层前) ≈ORMH 无混杂存在。
OR(分层前) >ORMH 正相关。
OR(分层前) <ORMH 负相关。
可采用 Mantel – Haenszel分式计算 X2MH,
ORMH和 95%CI,
X2MH = [∑ai – ∑E(ai)]2 / ∑ v(ai) i 为第 n 层 ∑
E(ai) = ∑( Mli Nli /Ti )
∑ Var(ai) = ∑ Mli Moi Nli / Ti(Ti-1)2
OR MH = ∑(aidi/Ti)/ ∑(bici/Ti)
ORMH95%CI =ORMH (1± 1.96/^/ˉX2)
例题, ( 1)分层前, OC 与 MI的关系
OC D D 合 计
+ 39 24 63
– 114 154 268
合计 153 178 331
X2=7.70 P<0.01 OR=2.20 OR95%CI=1.25—3.75
( 2)按年龄分层 OR1=2.80 OR2=2.78
暴露特征 <40岁 合 ≥ 40岁 合
D D 计 D D 计
服 OC 21a1 17b1 38n11 18a2 7b2 25n12
未服 OC 26c1 59d1 85n01 88c2 95d2 183n02
合 计 47m11 76m01 123t1 106m12 102m02 208t2
(3)、判断分层因素与研究因素和疾病的关系
年龄与 OC
<40岁 ≥ 40岁 X2= 8.99
OC( +) 17 7 OR=3.91
OC( -) 59 95 年龄与口服避孕有关
年龄与 MI的关系
<40岁 ≥ 40岁 X2=7.27
MI 26 88 OR=0.48
非 MI 59 95 年龄与心肌更死有关
(小年龄有保护作用)
所以年龄具有混杂因素的条件,可能为混杂因素。
(4)、计算 XMH2,ORMH和 ORMH的 95%可信限
∑ E( ai) =27.26,
∑ V( ai) =11.77,
XMH2=[∑ ai—∑E( ai) ]2/ ∑ V( ai)
=11.79(有统计学联系),
ORMH= ∑ ( aidi/ti) / ∑ ( bici/ti)
=2.79(联系强度为 2.79),
ORMH95%CI=2.22—3.80( 不包括 l,有显著性水平 )
(5)、判断年龄是否为混杂因素
因为 OR分层前 =2.20,ORMH=2.78,
OR分层前 < ORMH(为负相关 ),
由于年龄的混杂作用,使得暴露因素避孕
药与心肌梗死的关联性趋向 l,即减弱了它们之
间的关联性。
3、分级资料的分析
X2=N[∑ ( a2/nR × nc) —1]=43.15,df=3,P
〈 0.01,OR1=ald/cbl=33 × 27/2× 55=8.10
各级之间有显著性差异。 OR值随着吸烟量的增加,
呈现明显的剂量反应关系。
吸烟与肺癌分级资料归纳表
组别 每日吸烟支数0—— 1—— 5—— 15—— 合计
病例
对照
2( c)
27( d)
3( a1)
55( b1)
250( a2)
293( b2)
364( a3)
274( b3)
649( nR)
649
合计
OR
29nc
1
88
8.10
543
11.52
638
17.93
4、配比资料的分析,
配比研究是在设计阶段消除混杂因素干扰研
究因素与疾病关系的一种方法。
1,1配比病例对照研究,
X2=( b-c) 2/( b+c)或 X2=( ∣ b-c∣ -1) 2/
( b+c),OR=c/b,OR95%Cl=OR(1± 1.96/^/ˉX2)
整理表
对照组 病例组 合计对子 数+ —
+

a
c
b
d
a+b
c+d
合计对子数 a+c b+d t
D D
+

+

+
+


a
b
c
d
例,X2=( lb-c1-1)2/(b+c)=34.23,P<0.01,
OR=c/b=39,OR95%CI=14.3—106.5,
说明脑动脉管炎与患有钩体病有密切联系,其
联系强度为 39.
钩体病与脑动脉管炎的 1:1病对研究
补体结合试验 病例组 合计对子数+ -
对照组 +- 4(a)39(c) 1(b)19(d) 558
合计对子数 43 20 63
( 5) 归因分值 (attributable fraction,AF)
也叫病因分值 (etiologic fraction,EF),
暴露人群的归因分值:
AFe=(Ie-Iu)/ Ie =(OR-1)/OR
人群归因分值记为 AFP
AFP=(Ip-Iu)/ Ip =Pe(OR-1)/ 1+Pe(OR-1)
归因分值是具有公共卫生意义的指标, 它
同时还代表人群中随机抽取一个病例可能因
该暴露引起的概率 。
其他方法
?如果暴露是分等级的,可按不同暴露
等级计算 OR值,作剂量 -反应关系的
分析。
?Logistic回归等统计分析方法在病例
对照研究资料分析中应用颇为广泛。
第四节 偏倚和控制
一、常见的偏倚
(一)选择性偏倚
由于研究对象与非研究对象间的特征有系
统区别而产生的误差。可分为:
1,住院偏倚
2,存活病例偏倚
3,选择性转诊偏倚
4,检诊偏倚
5,无应答偏倚
(二)信息偏倚
在收集整理资料过程中由于测量暴露或结
局的方法有缺陷造成的系统误差。可分为:
1,回忆偏倚
2,因果倒置偏倚
3,调查偏倚
(三)错误分类偏倚
将一个调查对象或一个特征错误地分到不是
它所属的类别中。
(四)混杂偏倚:
基本特点:
1,混杂因子必须是所研究疾病的独立危险因子;
2,在非暴露组中,它必须是一危险因子;
3,混杂因子不应是疾病因果链上的中间变量;
4,在人群中的分布与所研究的暴露的分布相关;
5,对混杂因素可用分层分析、标准化处理;
6,对明显偏倚下结论应慎重。
排除方法,可用分层分析。
二、偏倚的控制
1,认识其重要性,并预防其发生或进行适
当的处理。
2,在预防上应加强科学设计,如随机原则、
双盲及指标的客观性等。
3,资料处理中应注意两组均衡性。
4,分析偏倚发生的原因。
第五节 优点与局限性
一、优点
1,可用于对罕见病的研究;
2,较快地估计慢性病的危险因素;
3,省时、省钱、省人力,并易于组织;
4,可检验有明确假设的危险因素,又可广泛
探索尚不够明确的众多因素。
二、局限性
1,对暴露比例低的疾病的因素,需样本
太大;
2,易造成选择偏倚;
3,难以避免回忆偏倚;
4,混杂的影响较难控制;
5,难以判断疾病与时间的先后。
?Thank you