学时:4
目标和要求:掌握前瞻性队列研究的设计原理、用途、实施过程、人年计算,RR、AR、AR%、PAR%的概念和意义。熟悉队列研究的常见偏倚和控制,熟悉其优缺点。
教学手段:多媒体、例证、提问等。
队列研究
探讨疾病的病因和危险因素是流行病学在医学研究中的重要应用之一,前一章讲述的现况研究是一种横断面研究,因与果是同时存在的,故其在病因研究中的作用有限。在研究疾病与病因的关系时,分析性流行病学方法更为常用、且更具效率,能够验证病因假设。队列研究以及下一章介绍的病例对照研究是分析性流行病学最基本的两种形式。队列研究主要用来研究一种暴露及其不同的水平与其后的发病危险或其他结果之间的关联性。本章主要介绍队列研究的概念、基本类型与应用;队列研究的实施步骤、结果的分析与解释;队列研究中常见的偏倚及其控制;队列研究的优缺点等。
第一节 概 述
一、基本概念
(一) 定义及有关术语
队列研究(cohort study)又称为群组研究,是将特定的人群按其是否暴露于某因素或按不同暴露水平分为n个群组或队列,追踪观察一定时间,比较两组或各组的发病率或死亡率的差异,以检验该因素与某疾病有无因果联系及联系强度大小的一种观察性研究方法。队列研究由于被观察对象在疾病出现以前先分组,然后随访一段时间观察再比较其结局,故有人称之为随访研究(follow- up study)。
调查方向 现在 将来
暴露 疾病 人数 比较发生率
a
a/(a+b)
b
c
c/(c+d)
d
图1 队列研究原理示意图
(耿贯一,1998,略加修改)
从上述定义可以看出,队列研究的基本思路是:如果某因素是某病的危险因素,那么暴露于该因素的人群经过一定时间后,其发病的比例一定高于未暴露人群,且暴露于该因素的机会越多则发病风险越高。反之,如果该因素不是危险因素,那么暴露与非暴露人群的发病率无差异或差异无统计意义。
这里的暴露是指研究对象接触过某种欲研究的因素或具有某种特征和行为,比如工作场所具有某种有害毒物、吸烟、饮酒等。而队列则是指具有该暴露的一组人群,队列可以是固定的,即人群在相同时间进入队列并对其随访到观察期结束;也可以是动态的,即研究开始后不断有人加入或退出。所谓危险因素泛指能导致疾病的发生增加的研究因素。
(二) 队列研究的特点
1. 在时序上是由前向后的,属于前瞻性研究。队列研究在疾病发生前开始进行,要往后随访一段时间才能发现病例。
2. 属于观察性对比研究。暴露与否是客观、自然存在于研究人群的,而不是人为确定的,这一点可以与实验性研究相区别。
3. 研究对象按暴露与否进行分组,而不是按是否发病进行分组的,这一点与病例对照研究正好相反;也不是随机分组的,这与实验性研究不同。
4. 从病因链的角度来看,队列研究是从“因”到“果”的研究,在病因推断上合乎逻辑推理的顺序,其结果的可靠性强。
(三)队列研究的类型
根据研究对象进入队列的时间及资料获取的方式不同,可以将队列研究分为三种类型。
1.前瞻性队列研究(prospective cohort study) 研究对象的确定与分组是根据研究开始时的实际情况,如是否暴露来确定,研究的结局需随访观察一段时间才能得到,这种设计叫前瞻队列研究。优点:可信度高、偏倚少。缺点:费时、费人力、物力、财力。
2.历史性队列研究(historical cohort study)研究工作是现在开始的,而研究对象是过去某个时间进入队列的。其特点是追溯到过去某时期,决定人群对某因素的暴露史,然后追查至现在的发病或死亡情况。由于研究结局在研究开始时已经发生,然后追溯到过去某时期,其性质是回顾性的,故这种设计又叫回顾性队列研究(retrospective cohort study)。优点:省时、省人力物力。缺点:历史档案不一定符合设计要求,故适用范围较窄。
3. 双向性队列研究(ambispective cohort study) 根据历史档案确定暴露与否,根据将来的情况确定结局,故这种设计又叫混合性队列研究。该方法不但具有历史性队列研究的优点,还弥补了其不足。
(四)队列研究的应用范围
1.验证病因假设 确定某个暴露与疾病的因果联系及其联系强度,验证病因假设。由于它是一种从“因”观“果”的研究方法,符合病因链的实际顺序,故在病因学研究上的价值高于现况研究和病例对照研究,但由于其分组不是随机的,故其效力不如实验性研究。
2.考核疾病的防治效果 如考核疫苗预防效果,可以将接种过疫苗的人群作为一组,未接种人群作为另一组,比较两组发病率差异。
3.观察暴露因素与多种疾病相关结局的关系 队列研究不但可以研究暴露因素与疾病发生与否的关系,还可以了解暴露因素对疾病的发展、转归、预后的影响。
4.研究疾病的自然史及其长期变动 疾病在人群中的发生、发展到结局的全过程称为疾病的自然史。通过队列研究的随访可以观察到疾病的整个自然史,可以弥补临床观察的不足。
第二节 研究实例
二十世纪上半叶英国发现肺癌的死亡率与支气管炎、肺结核以及其他癌症不同,呈迅速上升趋势,而且与烟草的消耗量有平行关系,这种分布状况使卫生工作者考虑到肺癌与吸烟之间是否存在联系。所以,Doll与Hill在1948年开始进行了病例对照研究,发现肺癌患者中吸烟的比例明显高于对照组,吸烟有可能是肺癌的病因。在此基础上,他们从1951年开始,又进行了队列研究以证实此病因假设。他们选择英国医生作为研究对象,发函调查了59600名医生的一般情况与吸烟状况,来自40701名医生的调查表可供分析。按吸烟与否分成暴露组与非暴露组,然后进行随访,详细记录发病与死亡情况,并对收集到的资料进行多方核对。此研究持续了几十年,从1964年报告的资料(表1)表明,35岁及以上年龄组,每年不吸烟者肺癌死亡率为0.07‰,而每日吸烟1~14支者肺癌死亡率为0.57‰,为不吸烟者的8.1倍;15~24支者为1.39‰ ,为不吸烟者的19.9倍;25支及以上者为2.27‰,为不吸烟者的32.4倍。可见吸烟者患肺癌的危险性远远高于不吸烟者,且呈明显的剂量效应关系。
表1 35岁以上人群每年每1000人口肺癌死亡率与吸烟量的关系
年龄组
不吸烟者肺癌
死亡率(‰)
吸烟者肺癌死亡率(‰)
1~14支/日
15~24支/日
25支以上/日
35~44
0.05(1)*
0.07(1)
0.00
0.11(1)
45~54
0.00
0.31(3)
0.62(9)
0.75(8)
55~64
0.00
0.48(3)
2.31(20)
3.88(26)
65~74
0.00
2.69(9)
5.16(17)
6.48(14)
75~
1.11(2)
2.68(6)
7.27(8)
16.33(8)
0.07(3)
0.57(22)
1.39(54)
2.27(57)
* 注:括号内为肺癌死亡人数 (Doll 和 Hill,1964)
这个研究还从多方面证明了吸烟与肺癌之间的病因关系。Doll与Hill应用规范的分析性流行病学方法,在人类历史上第一次科学地证明了吸烟是肺癌的病因,从而为预防肺癌提供了确切的依据。从这个研究,不仅可了解队列研究这种现代分析性流行病学方法,而且可以感受到它在揭示慢性病病因方面的无比威力。
第三节 选择队列研究方法的指征
由于队列研究有一定的规模,需要观察一个较长时期,实施较为复杂,故选择队列研究之前要经过周密的考虑。
(一) 前瞻性队列研究
1.要有明确的研究目的和检验假设;
2.所研究疾病的发病率或死亡率一般不应低于5%;
3.要有把握获得观察人群的暴露资料;
4.要有确定发病或死亡等结局的简便而可靠的手段;
5.要有把握获得足够数量的观察人群,并且该人群能被长期随访观察而取得完整可靠的资料;
6.要有足够的人力、物力和财力。
(二) 历史性队列研究
要有足够数量的完整可靠的记录或档案材料,是实施历史性队列研究最重要的前提,因为历史性队列研究完全依赖于有关暴露、疾病和生死状况的完整真实的历史记录。其他的应用指征见前瞻性队列研究,但其人力、物力、财力和时间的要求并不是很高。
第四节 队列研究的实施
(一)确定研究目的
队列研究首先要确定本次研究的目的,即根据一些病因线索提出病因假设,然后验证假设是否科学、正确。这直接关系到研究的成败,故一定要有足够的科学依据,可以先通过现况研究或病例对照研究结果初步验证假设,然后在此基础上提出队列研究的检验假设。
(二)确定研究因素及研究因素的定义
一般把导致疾病事件增加的暴露因素称为危险因素或致病因素,把导致疾病事件降低的暴露因素称为保护因素。暴露既可以是致病因素或保护因素还可是另一个暴露产生的后果,即另一种疾病。例如,高血压是冠心病的暴露因素,但它可能是其它暴露因素产生的结果,这要视研究目的和研究者对暴露因素的认识水平而定。
有了明确的研究因素后,接下来就须给研究因素一个明确的定义,如果我们确定的暴露因素为吸烟,那么就必须事先明确规定何为吸烟?常用的吸烟定义为平均每天吸烟量达到1支或以上、时间持续1年以上者,也有人将1年内吸烟总量达到180支以上者定义为吸烟。究竟如何定义暴露因素,可以通过查阅文献或请教有关专家,同时结合自己的研究目的、才力和人力限度和对研究结果的精确度要求等因素,综合考虑后对暴露因素进行定义。
另外,要尽可能对暴露因素进行定量,并且要考虑到暴露的时间长短以及暴露是否连续。
队列研究除了要确定主要暴露因素外,同时应收集其他次要暴露因素资料,以便更好地说明研究结果。但一次研究中暴露因素的数量也不能太多,否则影响研究的精确程度。
(三)选择研究对象
1.暴露人群的选择 可供选择的暴露人群有
(1)特殊暴露人群或职业人群:这部分人群暴露史明确,发病率也高,故易得出结果。特殊暴露人群指对某因素有较高的暴露水平的人群。如果暴露因素与疾病有关,则高度暴露的人群中疾病的发病率或死亡率就可能高于其他人群,这将有利于探索暴露与疾病之间的联系。所以在研究暴露与疾病的关联时,常常首先选择特殊暴露人群。例如选择遭受过原子弹爆炸危害的人群或接受过放射线治疗的人群来研究放射线辐射与白血病的关系。
某些职业中常存在特殊暴露因素,它可能与某些疾病有关,所以某些职业人群也是特殊暴露人群。例如选择染料厂工人研究联苯胺致膀脱癌的作用,选择石棉作业工人研究石棉与肺癌的关系等。
(2)一般人群:这种人群的代表性最好,得到的结果外推性好,但这部分人群发病率低,所得的RR值较小,实施较困难。此时选择一般人群作研究对象时要考虑两点:①所研究的因素与疾病是人群中常见的;②研究需要观察一般人群的发病情况,特别是想要观察环境因素与疾病的关系时,无特殊暴露人群或不需要特殊暴露人群。
(3)有组织的人群:这部分人群易于联系,应答率较高,代表性较好,且易控制混杂。比如由医生协会登记注册的执业医师。
2.对照人群的选择 正确选择对照人群直接影响着队列研究的真实性。选择对照组的目的是进行比较,因此要注意与暴露人群的可比性。即对照人群除未暴露于所研究的因素外,其他因素如年龄、性别、职业等应尽可能与暴露人群相同。
(1)内对照:选定一群研究对象后,有暴露史的作为暴露组,余下的作为对照,这就叫内对照。队列研究应尽量选用内对照,因为这是最理想的对照,除暴露因素外,它与暴露人群的可比性好。同时选用内对照较方便可行。特别是当暴露人群来自于一般人群或有组织的人群时常用内对照。
(2)外对照:暴露人群选定后,从其他人群中选择对照人群,这叫外对照,一般当暴露人群为职业暴露或特殊暴露人群时常用外对照。如以放射科医生作为研究放射线致病的暴露人群,则可以不接触射线或接触射线极少的五官科医生为外对照。
(3)不另设对照:也叫一般人群对照,就是将结果与一般人群的发病率或死亡率进行比较,其优点是一般人群的发病率或死亡率容易得到且叫稳定,但其资料比较粗糙、可能缺乏要比较的项目。
(四)确定样本量
队列研究的样本量由以下几个因素决定:
对照人群的估计发病率P0;
暴露人群的估计发病率P1;
所要求的显著性水平α,通常α取0.05或0.01;
把握度(power)即检验效力1-β,通常β取0.10。
计算样本量的公式如下:
,上述公式计算的为暴露组样本量,而对照组的样本量应该大于或等于暴露组。此外由于队列研究的随访时间比较长,失访在所难免,故在确定样本量时要考虑到失访率。一般按10%估计失访率,故在原估计样本量的基础上加10%作为实际样本量。
例1. 用队列研究观察放射线暴露与白血病的关系,已知一般人群的白血病发病率为10/10万,有放射暴露的人白血病发病率为100/10万,当α取0.05,β取0.1时,样本量该取多大?
即P0=0.0001,P1=0.001, Uα和Uβ分别为1.96和1.28,将其代入上式得:
14265.8≈14266人
估计失访率为10%,则实际样本量为14266×(1+0.1)=15692.6,即暴露组至少为15693人,而非暴露组则应大于或等于该样本量。
(五)确定结局
结局变量指观察过程中预期要出现的结果事件,如研究吸烟与银屑病的关系,则银屑病为结局变量。结局变量应有明确而统一的标准,最好选用国际通用的诊断标准,以便不同地区的研究结果进行比较。
(六)随访
结局变量须通过随访获得,随访时要注意以下问题。
1. 随访期 对每个研究对象开始随访的时间以及随访时间的长短直接关系到队列研究的功效,因此开始随访和终止随访日期均应明确。
确定随访期应了解疾病的诱导期和潜伏期,并据之做出假设。诱导期指病因开始作用至疾病发生的一段时间,在此期间充分病因逐步完成。潜伏期指从疾病发生到临床上被发现的时间间隔。理论上随访应在疾病的最短诱导期和潜伏期之后进行,最好不要在暴露一发生就开始随访,但是实际实施中往往难以做到。因为许多疾病,特别是慢性病的诱导期和潜伏期不是很清楚,如果暴露一发生就随访,则假设最短诱导期和潜伏期均为零。这种极端的假设往往是不正确的。例如,随访原子弹爆炸后幸存者的肿瘤危险性,可在爆炸数月或数年后开始随访,随访时间长短,取决于肿瘤的特性。
随访时间的长短取决于暴露与疾病的联系强度以及疾病的潜伏期长短。暴露因素作用越强,随访时间越短;潜伏期越长,随访时间也越长。
2.研究对象的随访 保证随访成功是队列研究成功的关键之一,因为研究对象失访过多,研究的真实性就会受到怀疑。随访的目的是:①确定研究对象是否仍处于观察之中,即确定分母信息;②确定研究人群中的结局事件,即确定分子信息;③进一步收集有关暴露和混杂因素的资料,以备分析时用。
3.随访的方法 ①利用记录或档案:利用常规登记的人群和疾病资料来随访研究对象。②进行特殊安排的随访:访问研究对象或其他能够提供信息的人,定期家庭访视、电话询问或通信等。对研究对象进行测定或检查,如做体格检查或测定他们的血压、血脂、血糖等。③有时需对环境做调查与检测,以确证一项暴露。如对水质进行化验,测定环境污染、食物成分等。须注意在测量结局时要用统一的标准,统一的仪器、试剂、测量员等,以防测量偏倚。
4.观察的终点与终止时间 观察终点(end-point)指观察对象出现了预期的结果,至此就不再继续观察该对象了。观察的终止时间是指整个研究工作可以得出结论的时间,也可说此时整个研究工作到达了终点,应以暴露因素作用于人体至产生结局的一般潜伏期作为确定随访期限的依据。
观察终点常为规定的疾病的发生或死亡。如规定发生冠心病或肺癌死亡为终点,则患了其它病不应视为已达观察终点,如得了糖尿病还应继续随访。但是如果研究对象在未到观察终点之前死于其它疾病,尽管不能对其继续随访,仍不能按到达随访终点对待,这是也是失访的一种。这种认识至关重要,它直接影响资料的分析。
5.调查员的培训 应当由经过严格培训和考核合格的调查员进行随访。调查员的工作作风、科学态度,以及调查的技巧和技术,直接影响到调查结果的真实性和可靠性。观察终点需要有经验的临床医师来判断。研究者不一定亲自参加随访,因为研究者易于带来主观的偏性。当用盲法获取信息时,更不能由研究者自己进行追踪。
第五节 队列研究的资料分析
队列研究结束后,也应对所获得的资料进行整理,然后进行描述性分析,将研究对象的组成、随访的经过、结局的发生和失访率等情况作出描述。再按年龄、性别、时间分别计算各研究组在随访期的疾病发病率和死亡率,然后进行比较。
(一)率的计算
队列研究可以计算多种率,特别是能计算发病率,这是病例对照研究不可比拟的优点,因为病例对照研究无法得到病例所来自的人群的基准人口数,故无法计算发病率、患病率、死亡率等指标。
1.累积发病率(cumulative incidence, CI) 某一固定人群在一定时期内某病新发生例数与时期开始总人数之比,也就是一般所说的发病率。随访期越长,则病例发生越多,所以CI表示发病率的累积影响。CI又是平均危险度的一个指标,也就是一个人在特定时期内发生该病的概率。
(1)累积发病率的适用条件:样本量大,人口稳定,资料比较整齐。
(2)计算公式,设观察期限为n年。
暴露组与非暴露组间率的差异要进行统计学检验。当发病率高时,可用u检验。如果发病率比较低,则改用二项分布或泊松分布检验。检验方法查阅有关统计学书籍。
2.发病密度(incidence density,ID) 发病密度是一定时期内的平均发病率。其分子仍是一个人群在期内新发生的例数,分母则是该人群的每一成员所提供的人时的总和。所谓人时(person-time,PT)是观察人数乘以随访单位时间的积。发病密度既说明了该人群发生的新病例数,又说明该人群的大小和发生这些例数所经历的时间。时间单位常用年,故又称人年数(person-years)。一定的人时(人年)数可来自不同的人数与不同的观察时间,例如100人年可来自100人观察一年,或50人观察2年,或200人观察0.5年。
(1)发病密度适用条件:没有限制,一般队列研究均可用,但因其计算比较复杂,故多在人口波动较大、样本量小的情况下,不能用累积发病率时应用发病密度。
(2)计算公式:
人年数的计算请参见有关统计书。
3.标化比
(1)适用条件:样本量小,发病率或死亡率低
(2)常用指标及其计算公式:
标化比中最常用的指标为标化死亡比(standardized mortality ratio, SMR),它是以全人口死亡率作标准,算出观察人群的理论死亡数,再用实际死亡数与之比较而得出,
如果SMR>1,则暴露人群的死亡率大于一般人群。
例2. 某工厂有32745人,某年死于肺结核的为12人,而一般人群的肺结核死亡专率为9.8/10万,则
SMR=12/(32745×9.8/100000)=12/3.209=3.74
即该工厂结核病的死亡危险是一般人群的3.74倍。
(二)暴露与疾病的关联分析
首先将观察结果列成如表2,然后进行分析。
表2 队列研究资料归纳表
组别
病例
非病例
合计
发病率
暴露组
a
b
a+b=n1
Ie=a/n1
非暴露组
c
d
c+d=n0
Io=a/n0
合计
a+c=m1
b+d=m0
n
1.相对危险度或率比
(1)定义:相对危险度(relatire risk,RR)或率比(rate ratio)是指暴露组发病率与非暴露组的发病率之比,它反映了暴露与疾病的关联强度。
(2)计算公式:
(3)RR的意义:RR说明暴露使个体发病的危险比不暴露高多少倍,或者说暴露组的发病危险是非暴露组的多少倍。
(4)RR的95%可信区间:
RR的95%可信区间的另一算法为:
相对危险度(RR)无单位,比值范围在0至∞之间。RR=1,表明暴露与疾病无联系;RR<1,表明其间存在负联系(提示暴露是保护因子);反之RR>1时,表明两者存在正联系(提示暴露是危险因子)。比值越大,联系越强。实际上,0与∞只是理论上存在的值,恰恰等于1也不多见。极强的联系既无须用流行病学研究去检测,极弱的联系也不大可能用非实验性的流行病学观察法检测出来。
2.归因危险度或率差
(1)定义:归因危险度(attributable risk,AR)或率差(rate difference)是指暴露组发病率与非暴露组发病率之差,它反映发病归因于暴露因素的程度。
(2) 计算公式:
(3)AR的意义:AR表示暴露可使人群比未暴露时增加的超额发病的数量,如果暴露去除,则可使发病率减少多少(AR的值),因此AR在疾病预防中很有意义。
3.归因危险度百分比(AR%)或病因分值(EF) AR%是指暴露人群中由暴露因素引起的发病在所有发病中所占的百分比。
当AR%>75%时,即可认为按到了主要病因。
4.人群归因危险度(PAR)与人群归因危险度百分比(PAR%)
(1)PAR:又称病因分值(etiologic fraction, EF)表示在全人群中,由于暴露而导致的发病率的增加,
PAR=It-Io
It:全人群发病率。
(2)PAR%:表示全人群中由暴露所引起的发病在全部发病中的比例,
有时,队列研究的资料还需进行分层分析和剂量反应关系分析,请参照病例对照研究中的相关内容,两者方法和意义相似。
例3. 某吸烟与肺癌的队列研究获得以下资料,试计算上述各指标。
吸烟者肺癌年死亡率为Ie=0.96‰
非吸烟组肺癌年死亡率为Io=0.07‰
全人群中肺癌年死亡率为It=0.56‰
则:RR=Ie/Io=0.96‰/0.07‰=13.7,表明吸烟组的肺癌死亡危险是非暴露组的13.7倍;
AR= Ie-Io=0.96‰-0.07‰=0.89‰,表明如果去除吸烟,则可使肺癌死亡率减少0.89‰;
AR%=(Ie-Io)/ Ie×100%=92.7%,表明吸烟人群中由吸烟引起的肺癌死亡在所有肺癌死亡中所占的百分比为92.7%
PAR= It-Io=0.56‰-0.07‰=0.49‰,表明如果去除吸烟,则可使全人群中的肺癌死亡率减少0.49‰;
PAR%=(It-Io)/ It×100%=87.5%,表明全人群中由吸烟引起的肺癌死亡在所有肺癌死亡中所占的百分比为87.5%。
(三) 队列研究的结果解释
队列研究可以计算发病率和RR,因此其可信度比病例对照研究和生态学研究高,可以确定因果关系。在计算出RR值后可参照表3,对其关联强度进行判断,但也须作χ2检验和计算RR的95%可信区间,确信有统计意义时才能得出结论。RR对病因推断意义较大,与之相比AR则在预防疾病意义更大一些,AR和PAR可以直接反映去除该危险因素后可使发病率下降多少。AR%则对于寻找主、次病因有一定意义。另外队列研究的结果解释必须与实际情况相结合综合作出判断。
表3 RR值的关联强度参考表
RR值
关联强度
0.9~1.1
无
0.7~0.8或1.2~1.4
弱
0.4~0.6或1.5~2.9
中等
0.1~0.3或3.0~9.0
强
<0.1或>9.0
很强
(Monson RA ,1980)
第六节 队列研究中的偏倚及其防止
(一)常见的偏倚
1.选择偏倚(selection bias) 任何非研究因素在研究人群中与一般人群中的分布不一致,均可引起选择偏倚,如年龄、种族等。最理想的研究样本人群应当是总人群的一个无偏样本。但是由于最初选定的研究对象有人不能参加了;进行历史性队列研究时,有些人的档案丢失或记录不全;研究对象为志愿者,他们往往是具有某些特征或习惯的;某些早期病人在研究开始时未能发现;或暴露与疾病的定义不严格,执行不当等,都可能造成研究对象的选择偏倚。
2.失访偏倚(lost to follow-up) 在研究过程中,某些选定的研究对象因为种种原因脱离了观察,研究者无法继续随访他们,这种现象叫失访,因此而造成对研究结果的影响称为失访偏倚。队列研究由于观察人数较多,观察时间较长,失访是不可避免的。主要原因是研究对象迁移、外出、不愿再合作而退出或死于非终点疾病。失访所产生的偏倚的大小主要取决于失访率的大小和失访者的特征以及暴露组与非暴露组两组失访情况的差异,对研究结果产生偏倚影响最大的是"高危人群"的失访。失访率一般不应超过10%。
3.信息偏倚(information bias) 队列研究中的信息偏倚主要是错分偏倚(misclassificationbias),包括暴露错分和疾病错分以及暴露与疾病的联合错分。主要原因是使用的仪器不准确,检验技术不熟练,诊断标准定义不明确或掌握不当,询问技巧欠佳造成结果不真实等。若这种错分偏倚以同样的程度发生于观察的各组,则结果可能不会对各组之间的相对关系产生太大影响,但相对危险度的估计趋向于1,即会低估相对危险度,这种情况叫做非特异性错分。若这种错分发生于一组而不发生于另一组,则对相对危险度的估计的影响不确定,这种情况叫做特异性错分。
4.混杂偏倚(confounding bias) 队列研究中同样会发生混杂偏倚。当我们研究某个因素与某种疾病的关联时,由于某个既与疾病有制约关系,又与所研究的暴露因素有联系的外来因素的影响,掩盖或夸大了所研究的暴露因素与疾病的联系。这种现象或影响叫混杂(confounding),其所带来的偏倚叫混杂偏倚(confounding bias),该外来因素叫混杂因素(confounding factor)
(二) 偏倚的控制
1.选择偏倚 严格按规定的标准选择研究对象,特别要弄清愿意加人和不愿意加入研究的两组人有哪些不同特点,了解这些特点有助于全面合理地解释研究结果。
2.失访偏倚 控制失访偏倚主要靠尽可能提高研究对象的依从性,在选择研究对象时选择那些符合条件并且依从性好的研究对象。当失访率大于10%时,对于失访可能的影响应当做进一步估计:①首先比较两组失访率的差别及不同程度暴露组失访率的差异;②比较失访人群与随访到的人群的某些基本特征有无差别,如果这两点差别不大,则可认为失访是随机的,对于研究结果的影响可能不大,只是减少了样本量;③还可以从各种途径了解失访者的最后结局,与被随访到的人群的结局进行比较,以推测失访的影响。如果失访率达到20%以上则该次研究的真实性值得怀疑。
3.信息偏倚 主要是提高设计水平和调查质量,做好质量控制工作。明确各项标准,严格按规定执行,采取定期抽取一定比例的样本复查等方法可减少信息偏倚。
4.混杂偏倚 在设计时利用限制和匹配的方法;资料分析时可采用分层分析或多因素分析模型处理。
第七节 队列研究的优缺点
(一)队列研究的优点
1. 在疾病发生前按是否暴露于某因素分组,所获资料完整,无回忆偏倚;
2. 可计算暴露组和非暴露组的发病率,能测量两组间的特异危险度和相对危险度;
3. 一次调查和观察多种结果,如在调查吸烟与肺癌关系时,可同时调查吸烟与支气管炎、肺气肿、冠心病等的关系,并能了解疾病的自然史;
4. 能直接估计因素与发病的联系强度,且先因后果,时间关系明确,所得联系比较确实可靠;
5. 暴露因素的作用可分等级,便于计算“剂量-反应关系”;
6. 样本量大,结果稳定;
7. 在有完整资料记录的条件下,可作回顾性定群研究,省时省力,出结果较快。
(二) 队列研究的缺点
1. 观察时间长、费人力、花费高,不能在较短时间内得到结果;
2. 准备工作较繁重,设计的科学性要求高,实施难度大;
3. 暴露人年计算工作量较为繁重;
4. 研究罕见病时,需要大量研究对象,因而不易收集到完整可靠的资料,故不适用于罕见病;
5. 每次只能研究一个或一组因素,因此不适用于多病因的疾病。