第八章 基因变异的群体行为
基因变异是人类进化的基础,构成了群体中的个体多样性.由于群体是由一群可以相互婚(交)配的个体组成,如果仅仅从个体的遗传结构是难以解释群体的遗传组成及其随时间和空间的变化规律,而且基因型和表型存在复杂关系,因此,研究群体中基因的分布及逐代传递中影响基因频率和基因型频率的因素,追踪基因变异的群体行为,应用数学手段研究基因频率和相对应的表型在群体中的分布特征和变化规律,这就是群体遗传学的研究内容,也是人类遗传学、人类进化和后基因组学研究的中心任务。
第一节 群体的遗传平衡
按照遗传学的分离率和自由组合率,当两个杂合个体婚配后,子代3/4表现显性性状,1/4表现为隐性性状,因此在群体中随着隐性性状的减少,显性性状将会增加,最终大多数为显性性状;然而实际上并非如此;在随机婚配的大群体中,没有受到外在因素影响的情况下,显性性状并没有随着隐性性状的减少而增加,不同基因型相互比例在一代代传递中保持稳定,这就是Hardy-Weinberg平衡律。
一、Hardy-Weinberg平衡律
Hardy-Weinberg平衡律是1908年由英国数学家GH Hardy和德国内科医生W Weinberg分别提出的,它是遗传学中最基本的原理之一,奠定了现代群体遗传学最重要的理论基础;即在一个大群体中,如果是随机婚配,没有突变,没有自然选择,没有大规模迁移所致的基因流,群体中的基因频率和基因型频率一代代保持不变。
假设在一个理想的群体中,某个基因座上的两个等位基因A和a,其频率分别为p和q;因为一个基因座只有两个等位基因,因此p+q=1,这一群体中的每种基因型频率可以通过不同等位基因的组合得出(表8-1)。
表8-1 第一代的两个等位基因频率和基因型频率
精 子
A(p) a(q)
卵 A(p) AA(p2) Aa(pq)
子 a(q) Aa(pq) aa(q2)
从表8-1可得到不同基因型频率,这是精子和卵子随机婚配的第一代基因型频率。如果这些个体相互婚配,可以得到第二代基因型频率并发现基因型的分布特点(表8-2、8-3)。
表8-2 第二代基因型频率
AA(p2)
Aa(2pq)
aa(q2)
AA( p2)
AA×AA(p4)
AA×Aa(2p3q)
AA×aa(p2q2)
Aa(2pq)
Aa×AA(2p3q)
Aa×Aa(4p2q2)
Aaxaa(2pq3)
aa(q2)
aaxAA(p2q2)
aaxAa(2pq3)
aaxaa(q4)
表8-3 各种婚配的后代基因型分布
婚配类型
频率
后 代
AA
Aa
aa
AA×AA
AA×Aa
AA×aa
Aa×Aa
Aa×aa
aa×aa
p4
4p3q
2p2q2
4p2q2
4pq3
q4
p4
2p3q
p2q2
2p3q
2p2q2
2p2q2
2pq3
p2q2
2pq3
q 4
表中结果显示:AA后代= p4+2p3q+p2q2=p2(p2+2pq+q2)=p2(p+q)2=p2;Aa后代=2p3q+4p2q2+2pq3=2pq(p2+2pq+q2)=2pq(p+q)2=2pq;而Aa后代=p2q2+2pq3+ q4=q2(p2+2pq+q2)=q2(p+q)2=q2
从表8-2和表8-3可以看出在这一群体中第一代和第二代的基因型频率是一致的。实际上无论经过多少代,基因型频率将保持不变,每种基因型的个体数量随着群体大小而增减,但是相对频率不变,这就是Hardy-Weinberg平衡的推理。当证明每个基因型的相对比例保持不变,即p2、2pq和q2的比例,那么这个群体可以说是处于Hardy-Weinberg平衡。
二、Hardy-Weinberg平衡的应用
Hardy-Weinberg平衡最重要的医学应用是通过某一性状(疾病)频率在群体中的分布情况,确定等位基因频率和杂合子频率,然而首先必须判定该群体的基因型和等位基因频率是否处于Hardy-Weinberg平衡。
(一)Hardy-Weinberg平衡的判定
当鉴定了某一群体特定性状的基因型频率,就可以得知这个群体的该性状是否处于Hardy-Weinberg平衡。假设某一基因座的一对等位基因A和a,有三种基因型AA,Aa/aA和aa,在随机1000人的群体中,观察的基因型分布如下:AA为600人、Aa/aA为340人、aa为60人。
从这个数据可以得到A等位基因频率p是(2×600+340)/2000等于0.77,而等位基因a的频率q是(2×60+340)/2000等于0.23,这些数据是在该群体中的观察值,如果是Hardy-Weinberg平衡,预期值如表8-4。
表8-4 不同基因型频率的预期值和观察值
基因型
预期值
观察值
AA
592.9(p2×1000)
600
Aa/aA
354.2(2pq×1000)
340
aa
52.9(q2×1000)
60
X2=1.607 p>0.05
用X2检验等位基因频率和基因型频率分布是否符合Hardy-Weinberg平衡,根据X2值查X2分布表得到p值;当p>0.05时,表示预期值和观察值之间没有显著差异,可以认为等位基因频率和基因型频率分布符合Hardy-Weinberg平衡,当p<0.05时,表示预期值和观察值之间有显著差异,则认为等位基因频率和基因型频率分布不符合Hardy-Weinberg平衡。
另假设某一基因座的一对等位基因B和b,在1000人群体中,该基因型频率分布是:BB为600人、Bb/bB为320、bb为80人。
因此可以得到B和b等位基因频率分别是p=(2×600+320)/2000=0.76和q=(2×80+320)/2000=0.24,通过比较基因型观察值和期望值(表8-5),经X2检验证明有显著差异。因此,对于该基因座随着BB纯合子的减少,Bb杂合子增加,该群体偏离了Hardy-Weinberg平衡,原因可能是某些因素如杂合子优势或负性选型婚配造成杂合子频率增加。通常对于大多数遗传性状,群体是处于Hardy-Weinberg平衡的。
表8-5 不同基因型频率的预期值和观察值
预期值
观察值
BB
577.6(p2×1000)
600
Bb/bB
364.8(2pq×1000)
320
bb
57.6(q2×1000)
80
X2=15.0816 p< 0.05
目前可采用HWE软件作X2检验判定基因型的Hardy-Weinberg平衡吻合度(fttp://linkage.sockefeller.edu/software/utilities)。此外,一群体MN血型基因型的Hardy-Weinberg平衡检验如表8-6。
表8-6 MN血型的观察值和期望值的X 2检验
MM
MN
NN
合计
观察值(O)
400
765
335
1500
预期值(E)
405.6
(p2×1500)
748.8
(2pq×1500)
345.6
(q2×1500)
1500
(O—E)2/E
0.077
0.35
0.32
X 2=0.747
p=(400×2+765)/3000=0.52;q=(235×2+765)/3000=0.48 p>0.05
(二)等位基因频率和杂合子频率的计算
当已知一群体某一性状的频率,就可以确定等位基因频率和杂合子频率。例如常染色体隐性遗传病囊性纤维化在欧洲白种人的发病率约1/2000,说明患者为突变基因的纯合子q2=1/2000,则q=√1/2000 =1/45=0.022,p=1-1/45=44/45=0.978,杂合子即携带突变基因的个体2pq=2×44/45×1/45=1/23=0.043。因此,白种人中有4%为囊性纤维化突变基因携带者,他们的生存和婚配是囊性纤维化突变基因遗传的重要原因,因此对囊性纤维化家族的遗传咨询十分重要。
对于罕见的隐性遗传病(q2≤0.0001),p近似于1,因此,杂合子频率(2pq)约为2q,也就是说杂合子频率是突变基因频率q的2倍;所以,群体中杂合携带者的数量2q远远高于患者q2。如表8-7所示,随着隐性遗传病的发病率下降(q2),携带者和患者的比率升高,由此可见,对于隐性遗传病在制定筛查计划时有重要意义。
表8-7 基因型频率对携带者/患者比率的影响
患病率
基因频率(q)
携带者频率(2pq)
携带者/患者(2pq/q2)
1/1000
1/32
1/16
1000/16=62.5
1/5000
1/71
1/36
5000/36=139
1/10000
1/100
1/50
10000/50=200
1/50000
1/244
1/112
50000/112=446
1/100000
1/316
1/518
100000/158=633
X连锁基因频率估计不同于常染色体基因,因为男性为半合子,男性发病率等于突变基因频率q。对于一种相对罕见的X连锁隐性遗传病如甲型血友病,其男性发病率为1/5000,q=1/5000,人群中杂合子频率2q,即1/2500,男性患者比女性患者高q(男)>q2(女)。相反,对于X连锁显性遗传病,男性患者是女性患者的1/2。
第二节 影响遗传平衡的因素
Hardy-Weinberg平衡的群体是一个理想群体,这个群体为无选择、无突变、无迁移、无限大的随机婚配群体,对人类某些基因如血型基因、酶变异型基因等能够达到这些条件,但是,对于单基因遗传病,一些因素就可以影响基因分布或改变基因频率,从而破坏Hardy-Weinberg平衡,这些因素包括:非随机婚配、突变、选择、遗传漂变、基因流。
一、非随机婚配
随机婚配指无须考虑配偶的基因型选择配偶;而非随机婚配可以通过两种方式增加纯合子的频率。一种是选型婚配(assortative mating),即选择具有某些特征(如身高、智力、种族)的配偶;如果这种选择发生在常染色体隐性遗传性聋哑病患者中,就将增加纯合患者的相对频率;另一种是近亲婚配(consanguinous mating),即有共同祖先血缘关系的亲属婚配,尽管表面上不改变等位基因频率,但可以增加纯合子的比例,降低杂合子数量,因此使不利的隐性表型面临选择,从而又最终改变了后代的等位基因频率。近亲婚配不仅提高了后代的有害隐性基因纯合子的发生风险,而且增加了后代对多基因或多因素疾病的出生缺陷的易感性,这是因为多基因病的患病风险与亲属级别成正比。近亲的程度可以用亲缘系数(coefficient of relationship,r)来表示。亲缘系数是指两个人从共同祖先获得某基因座的同一等位基因的概率。按照等位基因的分离规律,每传一代得到其中一个等位基因的概率是1/2,双亲和子女之间的亲缘系数为1/2,同胞之间的亲缘系数也是1/2(表8-8)。
表8-8 不同亲属级别的亲缘系数
亲属
级别
亲缘系数
双亲-子女
一级亲属
1/2
同胞(兄弟姐妹)
一级亲属
1/2
叔(姑、舅、姨)-侄(甥)
二级亲属
1/4
祖-孙
二级亲属
1/4
表/堂兄妹
三级亲属
1/8
(一)近婚系数
由于夫妇二人是近亲,他们可能从共同祖先传递到同一基因,婚后又可能把同一基因传递到他们子女。这样,子女的这一对基因是相同的。近亲婚配使子女中得到这样一对相同基因的概率,称为近婚系数(inbreeding coefficient,F)。
以常染色体上的某一基因座为例,计算一级亲属的近婚系数(图8-1)。设一对同胞兄妹的父亲某一基因座有等位基因A1和A2,母亲的这个基因座有等位基因A3和A4。他们的子女中,1/4为A1A3,1/4为A1A4,1/4为A2A3,1/4为A2A4。这一对子女如果近亲婚配,将来所生后代中,形成A1A1、A2A2、A3A3、A4A4的总概率即为其近婚系数。
图8-1 同胞兄妹婚配中等位基因的传递:P1、P2为父、母;B1、B2为兄、妹;S为子女
从图8-1可以看出,P1把等位基因A1传递给的B1机会是1/2,B1得到等位基因A1后又把它传递给S的机会也是1/2;另一方面,P1的等位基因A1传给B2的机会也是1/2,B2的等位基因A1又把它传递给S的机会也是1/2。因此,P1等位基因A1要经过4步传递,才能使S的基因型为A1A1,其概率为(1/2)4。同理,P1的等位基因A2也要经过4步传递,才能使S的基因型为A2A2。P2的等位基因A3和A4也要各经4步传递,才能使S的基因型为A3A3和A4A4。这样,S形成纯合子A1A1、A2A2、A3A3、A4A4的总概率就是4×(1/2)4=1/4。因此,一级亲属间的近婚系数就是F=1/4。
如果是舅甥女(或姑侄)之间婚配(图8-2),P1的等位基因A1经B1传递给S,需要传递2步;A1经B2和C传递给S,需要传递3步。所以,P1的等位基因A1需要经过5步传递才能使S的基因型为A1A1。同理P1的等位基因A2和P2的等位基因A3和A4都要经过5步传递,才能使S的基因型为A2A2、A3A3和A4A4。因此,S成为纯合子A1A1、A2A2、A3A3、A4A4的总概率为4×(1/2)5=1/8,近婚系数F=1/8。
图8-2 舅甥女婚配中等位基因的传递 图8-3 表兄妹婚配中等位基因的传递
如果是表兄妹婚配,则等位基因的传递比舅甥女婚配者又增加一步,形成A1A1、A2A2、A3A3、A4A4各需传递6步,所以其近婚系数为4×(1/2)6=1/16(图8-3)。三级亲属的近婚系数F=1/16。
在二级表兄妹婚配的情况下,P1的等位基因A1经B1、C1、D1传递给S需经过4步传递,S为A1A1、A2A2、A3A3、A4A4各需8步传递,其近婚系数为4×(1/2)8=1/64(图8-4),五级亲属的近婚系数F=1/64。
图8-4 二级表兄妹婚配中等位基因的传递图解
如果是X染色体上的等位基因,因为女性有两条X染色体,所以她可能形成纯合子,会受到近亲婚配的影响;男性是半合子,近亲婚配对他没有影响。因此,在计算X连锁基因的近婚系数时,只计算女性的F值。从传递特点来看,男性的X连锁基因一定传给其女儿,传递概率为1;相反,男性的X连锁基因不可能传给他的儿子,传递概率为0。这样,X连锁基因的近婚系数计算与常染色体基因者有所不同。
在姨表兄妹婚配中(图8-5),等位基因X1由P1经B1、C1传至S,只需计为传递1步(B1转至C1);基因X1经B2、C2传至S则传递2步(B2传至C2和C2传至S)。所以,S为X1X1的概率为(1/2)3。等位基因X2由P2经B1、C1传至S,需计为传递2步;基因X2经B2、C2传至S,需计为3步。所以,S为的概率为(1/2)5。同理,S为X2X2的概率也是(1/2)5。因此,对X连锁基因来说,姨表兄妹婚配的近婚系数F为(1/2)3+2×(1/2)5=3/16。
图8-5 姨表兄妹婚配中,X连锁基因的传递 图8-6 舅表兄妹婚配中,X连锁基因的传递
在舅表兄妹婚配中(图8-6),等位基因X1由P1传至B2时中断,所以,不能形成纯合子X1X1。等位基因X2由P2经B1、C1传至S,只需计为传递2步;基因X2由P2经B2、C2传至S,也只需计为传递2步。所以,S为X2X2的概率为(1/2)4。同理,S为X3X3的概率也是(1/2)4。因此,对X连锁基因来说,舅表兄妹婚配的近婚系数F为2×(1/2)4=1/8。
在姑表兄妹婚配中(图8-7),等位基因X1由P1传至B1时中断,基因X2和X3由P2经B1传至C1时,传递中断,所以,不能形成纯合子X1X1、X2X2和X3X3,其近婚系数F=0。
图8-7 姑表兄妹婚配中,X连锁基因的传递图解
图8-8 堂兄妹婚配中,X连锁基因的传递
如果堂表兄妹婚配(图8-8),基因X1由P1传到B1时中断,基因X2和X3由P2经B1传到C1时,传递中断,所以,也不能形成纯合子X1X1、X2X2和X3X3,其近婚系数F=0。
因此,仅就X连锁基因来看,姨表兄妹婚配或舅表兄妹婚配比姑表兄妹或堂表兄妹危害还要大。
(二)平均近婚系数
评价近亲婚配对群体的危害时,除近亲婚配率以外,平均近婚系数(average inbreeding coefficient,a)有重要作用。a值可按下列公式计算:
a =
∑Mi.Fi
N
其中,Mi为某型近亲婚配数,N为总婚配数,Fi为某型婚配的近婚系数。
例如,在一次群体普查中,某群体中共有1000例婚配,其中兄妹1例,姑侄婚1例,舅甥女婚1例,表兄妹婚45例,二级表兄妹婚18例,二级半表兄妹婚6例,三级表兄妹婚3例,其余均为非近亲婚配。这个群体的平均近婚系数a可按上述公式计算:
a=1/1000×1/4+1/1000 ×1/8+1/1000×1/8+45/1000×1/16+18/1000×1/64+6/1000×1/128+3/1000×1/256=0.003315
一般说来,a值如达到0.01即为高值。在发达国家的开放社会中,a值较低;在一些封闭或隔离的群体中或有特殊婚配风俗的人群中,a值较高。表8-9是一些国家或地区的人群中a值的比较。
表8-9 不同国家、地区人群中a值的比较
国家或地区
调查年代
调查婚姻数
近亲婚率
平均近婚系数(a)
美国
德国
法国
意大利
日本
南印度
北京、湖北(汉)
甘肃(回)
四川(彝)
贵州赤水(苗)
黑龙江(鄂伦春)
黑龙江(鄂温克)
吉林延吉(朝鲜)
1958
1946~1954
1956~1958
1956~1960
1950
1950
1980~1981
1980~1981
1980~1981
1980~1981
1980~1981
1980~1981
1980~1981
133228
119899
530000
1646612
213148
26042
7729
1376
2054
234
183
626
2080
0.11%
0.59%
0.67%
0.90%
8.16%
39.37%
1.4%
9.70%
14.16%
16.24%
1.6%
3.4%
0
0.00008
0.00019
0.00023
0.00070
0.004
0.02835
0.000665
0.005
0.00913
0.007696
0.000256
0.000116
0
图8-9 表兄妹婚配中隐性基因的传递
(三)近亲婚配的危害
近亲婚配的危害主要表现在增高隐性纯合子患者的频率。以表兄妹婚配为例(图8-9),他们所生的子女(S)是隐性纯合子(aa)有两种原因:①由于父母(C1和C2)近亲婚配从共同祖先(P1和P2)传递得到基因a,在这种情况下,如果群体中基因a的频率为q,S为aa的总概率是4×(1/64)q=(1/16)q;②由两个不同祖先分别传来基因a,在这种情况下,两个基因a可以来自同一曾祖(P1和P2)不同的同源染色体,可以来自不同曾祖(P1和P2),也可以来自祖辈( B1、B2、B3、B4)中的任何两个,S为aa的总概率为:1-(1/16)q2=(15/16)q2。
①和②相加,(1/16)q+(15/16)q2=q/16(1+15q)=pq/16+q2。
然而在随机婚配中,所生子女的纯合子(aa)频率为q2。二者之比为pq/16+q2∶q2。因此,表亲婚配的有害效应使子女中隐性纯合子频率增高pq/16。这种有害效应的大小与隐性基因频率(q)有关(表8-10)。
如表8-10所示,当q=0.10时,随机婚配所生子女的隐形纯合子频率q2=0.01,表亲婚配所生子女的隐形纯合子频率pq/16+q2=0.015625,二者之比为1.56∶1。这里,大约3/5的纯合子来自表亲婚配。当q=0.01时,q2=0.0001,pq/16+q2=0.000719,二者之比为7.19∶1。这里,大约7/8的纯合子来自表亲婚配。当q=0.001时,q2=0.000001,pq/16+q2=0.0000635,二者之比为63.5∶1。这里大约98.5%的纯合子来自表亲婚配,所以,隐性遗传病愈是罕见,患儿来自表亲婚配的几率愈大。
表8-10 表亲婚配和随机婚配生出隐性纯合子的概率
q
q2
pq/16
q2+pq/16
q2+pq/16:q2
0.20
0.10
0.04
0.02
0.01
0.001
0.04
0.01
0.0016
0.0004
0.0001
0.000001
0.01
0.005625
0.0024
0.001225
0.000619
0.0000625
0.05
0.015625
0.004
0.001625
0.000719
0.0000635
1.25
1.56
2.50
4.06
7.19
63.5
从吴立甫等对我西南地区7个少数民族近亲婚配的调查结果来看(表8-11),近亲婚配所生子女中,先天畸形由0.44%增高到1.34%,增高2倍;流产和早产由3.40%增高到5.27%,增高0.55倍;9岁前死亡率由13.09%增高到19.26%,增高0.47倍。
表8-11的资料表明,近亲婚配对后代的影响,不仅表现在隐性遗传病发病率的增高,而且先天畸形,早产和流产以及幼儿夭亡的风险也大为增高。
表8-11 近亲婚配与非近亲婚配对后代影响的比较
组别
婚配
对数
父母平
均年龄
子女数
早产、流产数(%)
先天畸形数
(%)
9岁前死亡数
(%)
近亲婚配(主要为表亲婚配)
非近亲婚配
203
199
37.63
38.14
1158
1001
61(5.27)
34(3.40)
15(1.34)
4(0.44)
233(19.26)
131(13.09)
二、选择
选择反映了环境因素对特定表型或基因型的作用,它可以是正性选择,也可以是负性选择。Hardy-Weinberg平衡的理想化群体对基因型没有选择,但是,实际上对特定缺陷的表型往往由于生育力下降,有一个负性选择;遗传学上用生物适合度(biological fitness)来衡量生育力大小,反映下一代基因库的分布情况;当适合度为0时,表示遗传性致死,即无生育力,当适合度为1时,为生育力正常;因此只有选择作用发生在育龄期之前,才会影响群体的基因频率或基因型频率,而发生在育龄期之后的选择作用,其影响将是微不足道的。
例如,根据丹麦的一项调查,软骨发育不全的侏儒108人,共生育了27个子女,这些侏儒的457个正常同胞共生育了582个子女,侏儒的相对生育率(f)是:
f =
27/108
=0.2
582/457
这个相对生育率即代表适合度。类似方法可以求得其他遗传病患者的适合度。
选择系数(selection coefficient)指在选择作用下适合度降低的程度,用s表示。s反映了某一基因型在群体中不利于存在的程度,因此s=1-f。
大多数的有害显性突变具有介于0和1之间的适合度,无论突变基因是纯合子还是杂合子都面临直接选择,因此选择压力的变化能迅速改变显性突变基因的频率。然而对常染色体隐性突变的等位基因选择则很慢,因为突变基因杂合携带者不被选择,其频率又高于受累纯合子的频率。X连锁隐性突变的等位基因有1/3分布在男性半合子中,将面临直接选择,如果提高受累男性的适合度,将会明显增加突变基因的频率。
选择可以通过增加适合度呈正性作用,对于某些常染色体隐性遗传病,杂合子与正常纯合子比较表现出了适合度增加,称之为“杂合子优势”。最好的例子是常染色体隐性遗传的镰状细胞贫血,纯合子患者有严重的溶血性贫血和持续恶病质,适合度明显降低;而杂合子对疟疾具有相对免疫力,原因在于镰形红细胞有疟原虫寄生后,比被寄生的正常红细胞更有效地清除,因此杂合子适合度增加。
三、突变
Hardy-Weinberg平衡是基于无突变的假设条件,如果某基因座具有较高的突变率,将使群体中的突变基因比例稳定增加。事实上,几乎所有基因座都可能以不同突变率发生突变,但是又都可能由于患病个体的适合度下降而造成突变基因消失,最终达到平衡。如果一个群体被认为符合Hardy-Weinberg平衡,可以假设两个相反的因素作用均衡抵消。
基因突变率是指每代每个配子中每个基因座的突变数量,假设初始群体的某一基因座全是等位基因A的纯合子,每一世代由等位基因A突变成等位基因a的突变率为1.0×10-5,那么,第一世代的等位基因a的频率为1.0×10-5,而等位基因A的频率为1.0-1.0×10-5;第二世代等位基因a的频率应为(1.0-1.0×10-5)×1.0×10-5+1.0×10-5,即2.0×10-5-1.0-5×10-10,而等位基因A的频率将为1.0-2.0×1.0-5+1.0×10-10。由此可见,新的等位基因a的频率增长极其缓慢,而且随着等位基因A的频率降低,突变等位基因a的增长速度逐渐减小。因此,由突变引起群体的基因频率改变十分缓慢,大多数人类突变率是根据常染色体显性性状来估计,大约在10-6~10-4之间。
对于孟德尔遗传病的基因突变率可以进行估计,如果某常染色体显性遗传病表现为完全显性,那么总是表现为杂合子,基因的突变率相对较易估计,可以通过计数出生人口中的新病例发生人数。假设在100000个出生人口中有12人患同一种常染色体显性遗传病,他们中的两个患儿的父母一方有同种病,其他10个患儿是由于基因新突变所致,突变率为10/20000=1/20000,即每代每20000个配子将发生1个突变。
对于常染色体显性遗传病,当适合度(f)等于0时,所有新病例出现一定是由于新突变所致,因此该疾病发生率是突变率的2倍(I=2u);如果适合度大于0时,该病符合Hardy-Weinberg平衡,这时适合度下降所造成的基因频率减少必须通过新突变来补偿,所以2u=I(1-f),u=I(1-f)/2;对于常染色体隐性遗传病和X连锁隐性遗传病,也可以用同样方法推算突变率。由于常染色体隐性遗传病患者均为纯合子,如果失去生育力,将丢失2个等位基因,该基因频率下降将有新的突变来补偿,因此2u=I(1-f)×2,u=I(1-f)。对X连锁隐性遗传病,由于每代传递三条X染色体,男性发病率为IM与突变率的关系是3u=IM(1-f),u=[IM(1-f)]/3。
突变率的估计与疾病发生率和适合度有关;如果某疾病基因有较高的突变率,还可以提供该基因的结构特征信息,例如易复制错误,可能由于基因含有大量GC碱基;在减数分裂时易发生重排而致缺失或重复,可能由于基因中有高度重复序列,或基因非常大。
四、遗传漂变
在大群体中,正常适合度条件下,繁衍后代数量趋于平衡,因此基因频率保持稳定;但是在小群体中可能出现后代的某基因比例较高的可能性,一代代传递中基因频率明显改变,破坏了Hardy-Weinberg平衡,这种现象称为随机遗传漂变(genetic shift)。例如,北美印第安人群中,ABO血型系统的IA基因频率为0.018,IB基因频率为0.009,i基因频率为0.973,O型血者占94.6%,A型血者占3.6%,B型血者占1.8%,AB型血者占0。但是,在一个称作Blackfeet的印第安人小群体中,基因IA的频率高达0.5,这高于任何印第安人的群体。小群体可以是由于政治、宗教或地理原因从一个大群体中分离出来,可能由于某种偶然因素该群体有某些隐性突变基因携带者,在逐代传递中该基因的频率高于原来的整个群体;也可能出于偶然,某等位基因不可传递而消失,仅有另一等位基因,这种机制称为建立者效应(founder effect),这种效应可能导致某些罕见疾病在这个隔离群体中高发。例如,在18世纪末,由于台风的袭击,太平洋中加罗林群岛的Pingelap岛居民大部分死亡,只剩下30人。从这30人形成了现在的1600人的群体,其中5%的人有一种罕见的常染色体隐性遗传病,即全色盲(bb)。依照Hardy-Weinberg平衡定律,该群体中,bb=q2=0.005;b=q=0.22;B=p=0.78;Bb=2pq=0.34。
然而,在这30个建立者中,最初可能只有一个是携带者(Bb)。所以,在原始的小群体中,突变基因b的频率 q=1/60=0.0016。经过若干代隔离状态的近亲繁殖,q上升为0.22。在这种建立者效应中,随机的遗传漂变起一定作用。
有人用计算机计算一个25人的小群体中,当基因A和基因a的频率各为0.5时,经过42代的随机婚配,基因A即可固定下来,而等位基因a则消失。如果是在一个250人的群体中,当基因A和基因a的频率各为0.5时,即使经100代的随机婚配,基因A和基因a都不会固定,也不会消失。如果在一个2500人的群体中,基因A和基因a的频率在每一代中的波动都很小,等位基因A和基因a都永远不会固定或消失。
五、基因流
随着群体迁移两个群体混合并相互婚配,新的等位基因进入另一群体,将导致基因频率改变,这种等位基因跨越种族或地界的渐近混合称之为基因流(gene flow)。最广泛引用的例子是血型B的等位基因,起源于亚洲,逐渐向西流动,因此,B型的等位基因在亚洲高频率,跨越欧洲而逐步降低。又如,欧洲和西亚白人中,对苯硫脲(PTC)的尝味能力缺乏(味盲)者频率为36%,这种形状是一种常染色体隐性遗传形状,味盲(tt)的频率q2=0.36,味盲基因频率t=0.60。我国汉族人群中,PTC味盲者为9%,q2=0.09,味盲基因频率t=0.30。我国宁夏一带聚居的回族人群中,PTC味盲者为20%,q2=0.20,味盲基因频率t=0.45。这可能是在唐代,欧洲和西亚的人,尤其是古代波斯人沿丝绸之路到长安进行贸易,以后在宁夏附近定居,与汉族人通婚,形成基因流所致。
第三节 遗传负荷
遗传负荷是由群体中导致适合度下降的所有有害基因构成,遗传负荷主要有突变负荷和分离负荷,受近亲婚配和环境因素的影响。一个群体的遗传负荷的大小,一般以平均每个人携带有害基因的数量来表示,据估计每个人携带6个致死或半致死隐性突变基因。
一、突变负荷
突变负荷(mutation load)是遗传负荷的主要部分,是由于基因的有害或致死突变而降低了适合度,给群体带来的负荷。突变负荷的大小取决于突变率(u)和突变基因的选择系数(s)。
如果在一个随机婚配的大群体中,显性基因发生致死突变时,受到选择作用,随着带有致死突变基因的患者死亡而该基因消失,不会增加群体的遗传负荷;如果显性基因是半致死突变(semi-lethal mutation),突变基因使携带者适合度下降50%,只有50%机会将半致死基因传递下去,造成下一代死亡的机会是(50%×50%)=25%,有75%机会再将半致死基因传到下一代;由此类推,半致死基因在一代代传递中仍可造成一定的遗传死亡,但遗传负荷不断增加。随着显性突变的致死性降低,虽然会受到选择系数的影响,仍造成遗传负荷的增加。
如果在一个随机婚配的大群体中,隐性有害基因在纯合子状况下受到选择作用,有害基因纯合子频率为q2,选择系数为s,降低的适合度为sq2;突变率u造成适合度降低,因此u=sq2,q2=u/s,对于某基因的突变负荷=sq2=s×u/s=u。
如果是X连锁隐性基因突变,在男性与常染色体显性基因突变相似,在女性则与常染色体隐性基因突变相同,在一定程度上增加群体的遗传负荷。如果X连锁显性基因突变,无论男性和女性,与常染色体显性基因突变相似,即显性突变的致死性下降,选择系数减少,导致群体的遗传负荷一定程度的增加。
二、分离负荷
分离负荷(segregation load)是由于杂合子(Aa)和杂合子(Aa)之间的婚配,后代中有1/4为纯合子(aa),其适合度降低,因而导致群体适合度的降低,造成遗传负荷增加;如果纯合子(aa)的选择系数愈大,适合度降低愈明显,群体遗传负荷的增加愈显著。
三、影响遗传负荷的因素
(一)近亲婚配对遗传负荷的影响
由于近亲婚配可以增加罕见的隐性有害基因的纯合子频率,因而增加了群体的遗传负荷;群体的遗传负荷应该是随机婚配群体的遗传负荷与近亲婚配的遗传负荷之和,即L=La(1-F)+L1F,这里L为总遗传负荷,La为随机婚配群体的遗传负荷,F为近婚系数,L1为近亲婚配的后代所产生的负荷。由于近亲婚配会造成有害的遗传效应,所以近亲婚配所造成的遗传负荷比随机婚配群体的遗传负荷要大。
(二)环境对遗传负荷的影响
环境中存在有害因素,可以诱发基因突变、畸形和癌的发生,从而增加群体的遗传负荷。
1.电离辐射 电离辐射可以直接破坏DNA的分子结构甚至引起染色体结构改变,这些突变如果是非致死性的,将增加群体的突变负荷。对群体来说,主要是小剂量慢性照射;辐射强度1rem可诱发2.5×10-8突变/基因,人群的自然突变率为1×10-6基因,因此40rem可使突变率增高一倍称为加倍剂量,加倍剂量是人群不能耐受的剂量。
2.化学诱变剂 化学品中有许多是诱变剂,致癌剂和致畸剂,这些化学品在工农生产中,日常饮食中,药品中均有可能有所接触,如杀虫剂中的杀螨醇,香烟和汽车尾气中的苯并苾,食物中的亚硝酸盐和糖精,花生霉变产生的黄曲霉素B1,诱发剂中的2,4-二氨基苯甲醚硫酸盐等都有致癌,致畸作用。
第四节 群体中的平衡多态现象
群体中的多态现象是在一个群体中存在由遗传决定的两种或两种以上的变异型或基因型,其中频率最低的形式也远远高于依赖突变所能维持的频率。对于同一基因座上的两个或两个以上的等位基因,等位基因频率至少为0.01,携带该等位基因的杂合子频率大于2%,则认为该基因座具有多态性。在已知蛋白质中,1/3以上的编码基因座具有多态性,例如编码常见血型如ABO,MN,Rh等系统的基因座,编码各种红细胞酶类和血清蛋白的基因座,编码主要组织相容性复合物细胞抗原的基因座,因此在人类群体出现了DNA多态性、染色体多态性、酶多态性和抗原多态性。正是不同基因座等位基因的多种组合,导致群体的高度遗传多样性和个体的遗传独特性。
一、DNA多态性
人类基因组有广泛的多态性,单核苷酸多态(SNP)是最常见的,占基因组DNA变异90%以上,SNP即DNA序列中单个核苷酸发生的变异,其中2/3是C→T转换,SNPs不仅分布在基因组非编码区域,而且存在于基因的编码序列中,称为编码SNPs(cSNPs),据估计,人类基因组有25×40万个cSNPs,其中,20%~30%引起蛋白质编码序列改变的非同义编码SNPs,可能会导致蛋白质功能的变化;单个核苷酸转换可能引起某个限制性内切酶酶切点的丢失或产生,导致酶切片段的变化,称之为限制性片段长度多态性(RFLP),这种多态在非编码序列出现频率很高。人类基因组中还存在很多重复序列,重复单位可以是2~4个核苷酸组成,重复单位数目不同,呈现多态性,称为可变数目的串联重复(VNTR)。这些DNA多态作为遗传标记可用于连锁分析和基因定位。
二、染色体多态性
染色体的多态性是指正常人群中经常可见到各种染色体形态的微小变异,故又称异形性(heteromorphism)。这种变异主要表现为同源染色体大小、形态或显带等方面的改变;染色体多态性遵循孟德尔遗传,可用于基因定位。典型例子是1号染色体异染色质区域变化(图8-10,图8-11),1968年Donahue用自己的白细胞制备中期染色体,发现1号染色体有所不同,他又研究了其家庭其他成员,这条染色体变异具有可遗传性特点,他注意到ABO血型和Rh血型细胞抗原与1号染色体变异无关,但一种较少血型Duffy的红细胞抗原完全同这条变形性1号染色体一致性传递,最终Duffy血型基因定位在1号染色体上,这是常染色体基因定位的首次成功。染色体多态性还可以表现在D和G组的随体增大,重复(双随体)或缺如,短臂的长短,1、9、16号染色体的次缢痕区加长或缩短,染色体着丝粒区的荧光强度变异等;Y染色体长度变异,可大于F组,也可以小于G组,这种变异可能存在种族差异。
图8-10 两个不同个体的一对1号染色体
图8-11 Duffy血型系谱和1号染色体异形性的遗传模式
半实心符号表示在1号染色体上存在异形性,a和b的标记表明Duffy血型的基因型。虽然第一代个体为未知状态,但从该系谱的其余部分能看到,有异形性的染色体总是与Duffy基因座上的等位基因一起传递
三、蛋白质多态性
人类结构蛋白质的多态性是一种普遍现象。当一种氨基酸被另一种替代就可能导致蛋白质性质的改变,在人体20种氨基酸中有5种氨基酸(谷氨酸、天冬氨酸、精氨酸、赖氨酸和组氨酸)含有可电离的侧链,所组成的蛋白质在一定的pH溶液中具有净电荷。它们中任意一种被其他氨基酸直接替代,或其周围被非电离的氨基酸所替代,都会影响这些氨基酸的电离度,由于蛋白质的净电荷不是简单的每个氨基酸电荷之和,而是取决于暴露的溶液,因此,这些氨基酸的替代会改变蛋白质的净电荷,在电泳时可发现蛋白质泳动速度不同。人血清运铁蛋白(transferrin)是一种高度多态性蛋白质,根据电泳迁移率快、慢分型,已发现有30多种遗传多态类型,而且有明显的种族差异。
四、酶多态性
酶的遗传多态性表现为许多酶都存在同工酶的现象。同工酶(isoenzyme)是催化相同的化学反应,而酶蛋白的分子结构、理化性质乃至免疫学性质不同的一组酶。同工酶是由不同等位基因编码的多肽链,或由同一基因的不同转录本翻译的多肽链,或翻译后经修饰生成的多分子形式所组成的蛋白质。同工酶存在于同一种属或同一个体的不同组织或同一细胞的不同亚细胞结构中。根据酶多态性产生的原因可以分为三类同工酶:
(一)多座位同工酶
多座位同工酶指由不同基因座决定的同工酶。例如乳酸脱氢酶(lactate dehydrogenase,LDH)是由两种肽链(H型和M型)组成的四聚体酶,不同比例肽链可以组成五种同工酶即LDH1(H4)、LDH2(H3M)、LDH3(H2M2)、LDH4(HM3)和LDH5(M4)。由于分子结构上的差异,这五种同工酶具有不同的电泳速度。H型和M型肽链分别是由A和B基因座的LDHA基因(11p15—p14)和LDHB基因(12p12.2-p12.1)所决定。LD的同工酶在不同组织器官中的含量与分布比例不同(表10-12)。
表8-12 人体各组织器官中LDH同工酶的分布
组织器官
同工酶百分比
LDH1
LDH2
LDH3
LDH4
LDH5
心肌
67
29
4
?1
?1
肾
52
28
16
4
?1
肝
2
4
11
27
56
骨骼肌
4
7
21
27
41
红细胞
42
36
15
5
肺
10
20
30
25
15
胰腺
30
15
50
—
5
脾
10
25
40
25
5
子宫
5
25
44
22
4
(二)复等位基因同工酶
复等位基因同工酶指同一座位上的不同等位基因所编码的酶蛋白。例如胎盘碱性磷酸酶(placental alkaline phosphatase,PLAP)是一种典型的复等位基因编码的酶,PLAP为二聚体,基因定位于2p37,依电泳速度可分为3种变异型即慢(S)、中(I)、快(F)型,它们受3个复等位基因PLs、PLi及PLf控制,每个基因分别编码S、I、F三种同工酶;(G6PD)和腺苷酸激酸(AK)的同工酶即属此类。
(三)翻译后同工酶
翻译后同工酶(post-translational isozyme)指翻译产物经不同修饰反应产生不同分子形式的同工酶。这些修饰反应包括蛋白质的磷酸化、乙酰化、甲基化、腺苷酸化等,酰胺键的水解,肽键的断裂和部分肽键的脱落,二硫键的形成和糖链的添加等。例如醛缩酶(ALD)是由4个A亚基组成的四聚体,在发育过程中,一部分肽链中羧基末端第4位的天冬氨酸肽键断裂,从而A亚基形成α和β两种类型,故A亚基可为纯合体也可为杂合体,但都有醛缩酶活性。
五、抗原多态性
在人类遗传学应用较多的抗原有红细胞抗原系统和白细胞抗原系统。个体间抗原性差异是由基因多态产生的。至今,人类已发现了400多种红细胞血型抗原,可分为23个血型系统,比较重要的有ABO、MNS、Rh和Xg等血型系统;在白细胞抗原系统中以人类的主要组织相容性复合体的人类白细胞抗原最引人注目,是目前所知人类最大的一个抗原多态系统。
(赵彦艳)