第二章 人类基因
基因(gene)是细胞内遗传物质的结构和功能单位,它以脱氧核糖核酸(deoxyribonucleic acid,DNA)化学形式存在于染色体上。在人类,基因通过生殖细胞从亲代向子代传递。早在1944年,Avery等用实验的方法就直接证明了DNA是生物的遗传物质。1953年Watson和Crick在前人的工作基础上,提出了著名的DNA分子双螺旋结构模型,奠定了基因复杂功能的结构基础。从此,遗传学的研究在医学领域取得突飞猛进的发展。
第一节 基因的概念
人类对基因的认识经历了一个由浅入深的历史发展过程。早在19世纪60年代,奥地利神甫孟德尔就采用豌豆作为实验材料,进行了8年的杂交试验研究,提出生物的性状是由遗传因子(hereditary factor)决定的,并总结出遗传因子传递的分离定律和自由组合定律。20世纪初丹麦遗传学家Johannsen将遗传因子更名为基因(gene),并一直沿用至今。随后美国遗传学家摩尔根及其学生Sturtevent、Mü11er等通过果蝇的杂交试验证实,基因在染色体上呈直线排列,并提出了基因传递的连锁交换定律,发表了著名的《基因论》;1927年Müller等人证明用人为因素(如X线等)可使基因发生突变;在此之前Garrod(1908)认为人类的黑尿酸症是一种遗传病,病因是患者缺乏某种相关生化反应的酶。于是人们开始将基因与酶联系起来。1936年Beadle等对果蝇(Drosophila melanogaster)朱矽眼型、朱红眼型和野生型进行研究,再次证实了基因与酶的关系。1941年他们又根据对粗糙链抱霉(Neurospora crassa)的研究结果,提出了“一个基因决定一种酶”的学说;然而,后来的研究揭示,基因除了决定酶之外,还决定其他蛋白质,于是有人提出了“—个基因一种蛋白质”的假说。但人们又发现有的蛋白质可以由几条多肽链组成,因此又修正成“一个基因一条多肽链”假说;经过100余年的研究,基因的概念逐渐清晰。但直到20世纪50年代,人们对基因的认识还仅仅停留在逻辑概念阶段,关于基因的物质基础和理化本质的认识,仍然是一个谜。首次揭开这—谜底的是1944年Avery等人的工作,他们用实验方法直接证明了DNA是生物的遗传物质。1953年Watson和Crick在前人的工作基础上,应用现代物理学和化学的新技术,对DNA的分子结构进行了深入研究,提出了著名的DNA分子双螺旋(double helix)结构模型。这个模型显示DNA具有自我复制功能,正式揭示了遗传之谜。至此人们认识到,基因是具有特定“遗传效应”的DNA片段、它决定细胞内RNA和蛋白质(包括酶分子)等的合成,从而决定生物遗传性状。
现代遗传学认为,基因是决定一定功能产物的DNA序列。这种功能产物主要是蛋白质和RNA。一个基因的结构除了编码特定功能产物的DNA序列外,还包括对这个特定产物表达所需的邻接DNA序列。在对某些遗传病的家系研究中发现,虽然基因的编码部分结构完整未发生改变,但它的邻接DNA序列发生了改变,如常见的邻接序列某些区域单个碱基的替换可使此功能产物不能表达,从而引起遗传病。
第二节 基因的化学本质
研究证明,DNA是生命体的遗传物质;但在某些仅含有RNA和蛋白质的病毒,其RNA是遗传物质。例如,烟草花叶病毒不含DNA,仅含有一条单链的RNA。实验证实,这条单链RNA能感染宿主细胞,并繁殖后代。在整个生物界中,绝大部分生物(包括人类)基因的化学本质是DNA。
一、DNA分子组成
组成DNA分子的基本单位是脱氧核苷酸。每个脱氧核苷酸由磷酸、脱氧核糖和含氮碱基组成。碱基有4种:腺嘌吟(A)、鸟嘌岭(G)、胞嘧啶(C)和胸腺嘧啶(T)。因碱基的不同,可以构成4种不同的脱氧核苷酸:脱氧腺嘌呤核苷酸(dAMP,A)、脱氧鸟嘌呤核苷酸(dGMP,G)、脱氧胞嘧啶核苷酸(dCMP,C)和脱氧胸腺嘧啶核苷酸(dTMP,T)。这4种脱氧核苷酸按一定顺序排列起来构成脱氧多核苷酸长链(DNA单链),两个相邻的脱氧核苷酸之间通过磷酸二酯键相连接。每条脱氧核苷酸单链都有3′端和5′端。生物的遗传性状是以脱氧核苷酸的排列序列来储存遗传信息的。因此,脱氧核苷酸的排列是DNA遗传的核心。
二、DNA分子结构
Watson和Crick(1953)提出了DNA分子的双螺旋结构模型,阐明了DNA空间结构的基本形式,要点如下:①DNA由两条碱基互补的、反向平行排列的脱氧多核苷酸单链所组成,一条是5′→3′端,另一条是3′→5′端,碱基互补的方式是A与T或T与A,C与G或G与C相对应;②在自然情况下,绝大多数DNA分子的两条互补链围绕一“主轴”向右盘旋形成双螺旋结构;③4种碱基(A、T、G、C)的排列顺序在不同的DNA分子中各不相同,储存着各种生物性状的遗传信息;④双螺旋的表面形成两条凹槽,一面宽而深,称之深沟;另一面狭而浅,称之浅沟。这两条沟,对于有特定功能的蛋白质(酶)识别并调节DNA双螺旋结构上的遗传信息是非常重要的;⑤由于DNA链通常很长,所包含的碱基数目很多,所以碱基排列顺序的组合方式是无限的,可以形成多种不同的DNA分子。例如,某一DNA分子有100个碱基对,因碱基排列组合的不同,就可以形成至少4100种DNA分子。实际上,由于DNA分子量巨大,所以其碱基对的排列方式可以说是多种多样,因而DNA分子也是种类繁多。在如此众多结构复杂的DNA分子内蕴藏着生物界无穷无尽的遗传信息,决定了形形色色、千姿百态的生命自然界。
第三节 人类基因和基因组的结构特点
人类基因组(genome)是人的所有遗传信息的总和。人类基因组包括两个相对独立而相互关联的基因组:核基因组与线粒体基因组。如果不特别注明,人类基因组通常是指核基因组(图2-1)。
图2-1人类基因组的组织结构
一、基因的结构
(一)基因的分类
随着人类基因组计划研究的深入和结构基因组学的基本完成,已知人类基因组共有2.6383(≈3)万~3.9114(≈4)万个基因,比蚯蚓仅多1万个,比果蝇多2万个。另外,科学家还发现与蛋白质合成有关的基因序列只占整个基因组序列的2%。人类的基因或人类基因组中的功能序列可分为4大类,即单一基因、基因家族、拟基因和串联重复基因。
1.单一基因 在人的基因中,25%~50%的蛋白质基因在单倍体基因组中只有一份,称为单一基因(solitary gene)或单一序列(unique sequence)。
2.基因家族 从已克隆的许多基因发现它们都不完全是单拷贝,有的是重复的多拷贝,这一部分基因属于两个或更多个相似基因的家族,称为基因家族(gene family),类同的蛋白质则组成蛋白质家族(protein family),其蛋白质成员由数个到数十个,个别的可达数百。β珠蛋白基因家族包括5个功能基因:β、δ、Aγ、Gγ和ε,它们分别在生活史的不同阶段表达,具有不尽相同的功能。细胞骨架蛋白、肌动蛋白、微管蛋白、中间纤丝等也形成不同的蛋白质家族,可能对同一个体的不同细胞类型,呈现差别性表达,以合理搭配,发挥其生理作用。
3.拟基因 在人的β珠蛋白基因家族中至少有两个区的序列ψβl和ψβ2与有功能的β珠蛋白基因相似,但是它没有相应的蛋白质产生,为拟基因或假基因(pseudogene)。拟基因是一种畸变基因,即核苷酸序列同有功能的正常基因有很大的同源性,但由于突变、缺失或插入以致不能表达,所以没有功能。
4.串联重复基因 45SrRNA、5SrRNA、各种tRNA基因以及蛋白质家族中的组蛋白基因是呈串联重复排列的,这类基因叫做串联重复基因(tandemly repeatd genes)。它们不同于成倍基因,编码了同一种或近乎同一种的RNA或蛋白质,rRNA、tRNA基因的每个拷贝完全或几乎完全相同,但在基因间的间隔DNA(linker DNA)相差很大。组蛋白基因家族较复杂,但每种组蛋白基因的拷贝完全相同。
(二)断裂基因
真核生物的结构基因是断裂基因(图2-2),由编码的外显子和非编码的内含子组成,二者相间排列。不同基因所含内含子数目和大小也不同,例如,导致杜氏肌营养不良症(Duchenne muscular dystrophy,DMD)基因dystrophin基因组全长2.5Mb,是目前已知人类最大的基因,由大约由80个外显子和相应的内含子组成,cDNA全长为11000bp,编码分子量为427000的蛋白质,从dystrophin转录形成一条完整的mRNA分子需要16小时。
图2-2 断裂基因的结构及其表达
断裂基因中的内含子和外显子的关系不完全是固定不变的,有时会出现这样的情况,即在同一条DNA分子上的某一段DNA顺序,在作为编码某一条多肽链的基因时是外显子,但是它作为编码另一条多肽链的基因时是内含子,这是由于mRNA剪接加工的方式不同所致。结果使同一个基因(确切地说是同一段DNA顺序)产生两条或者两条以上的mRNA链。这在真核生物基因的表达中,由于一个基因的内含子成为另一个基因的外显子,产生基因的差别表达,构成断裂基因结构上一个重要特点。每个断裂基因中第一个外显子的上游和最末一个外显子的下游,都有一段不被转录的非编码区,称为侧翼顺序。
断裂基因结构中外显子-内含子的接头区是一高度保守的一致顺序,称为外显子-内含子接头。这是形成断裂基因结构上又一个重要特点。每一个内含子的两端具有广泛的同源性和互补性,5′端起始的两个碱基是GT,3′端最后的两个碱基是AG,通常把这种接头形式叫做GT-AG法则(GT-AG rule)。这两个顺序是高度保守的,在各种真核生物基因的内含子中均相同。
二、基因组的组成
人类基因组按DNA序列分类既有单拷贝序列,也有重复频率不等的多拷贝序列。
(一)单拷贝序列
又称非重复序列。在基因组中仅有单一拷贝或少数几个拷贝,单拷贝序列的长度在800bp~1000bp之间,其中有些是编码细胞中各种蛋白质和酶的结构基因。单拷贝或低拷贝DNA序列可占到人类基因组的60%~70%。
(二)重复多拷贝序列
重复多拷贝序列有的较短,有的较长,分散地穿插于整个基因组,这些重复DNA是通过变性、复性实验而被发现的,重复DNA的复性速度较非重复DNA快。根据复性的速度,又可分为简单序列DNA和中度重复DNA。
1.简单序列DNA 简单序列DNA(simple-sequence DNA)以5bp、10bp或20bp、200bp为一个重复单位,它们串联重复很多次,约占整个基因组的10%~15%,大多数重复次数多(高度重复),长度可达105bp,即为简单序列DNA或卫星DNA(satellite DNA)。通过原位分子杂交检测,已知简单序列的DNA大多数位于染色体的着丝粒或染色体的臂和端粒区,进一步研究证明是位于染色体的异染色质区。
由15bp~100bp组成的重复单位(常富含GC),重复20~50次形成的lkb~5kb的短DNA,叫做小卫星DNA(minisateliite DNA),又叫做可变数目串联重复(variable number of tandem repeats,VNTR),比上述的卫星DNA(105bp)短。而在基因组的间隔序列和内含子等非编码区内,广泛存在着与小卫星DNA相似的一类小重复单位,重复序列为lbp~6bp,称为微卫星DNA(microsatellite DNA)或STR,如(A)n/(T)n、(CA)n/(TG)n、(CT)n、(AG)n等。由于这些微卫星DNA区域在人类基因组中出现的数目和频率不同,表现为多态性,为人类遗传分析提供了大量的多态遗传标志,其多态信息量大于RFLPs,可用于基因定位、群体进化以及基因诊断等研究。近年来在脆性X染色体综合征、脊髓小脑性共济失调等疾病中发现微卫星DNA如(CAG)n、(CTG)n等的不稳定性,往往发生三核苷酸重复扩增突变。
2.中度重复DNA和可动DNA因子 中度重复DNA(intermediate repeat DNA)是以不同的量分布于整个基因组的不同部位。这些间隔的DNA长度可短至100bp~500bp,称为短分散元件(short interspersed element),也可长达6000bp~7000bp,称为长分散元件(long interspersed element),占整个基因组的25%~40%。
Alu家族(Alu family)是短分散元件典型的例子,是人类基因组含量最丰富的中度重复顺序,占基因组总DNA含量的3%~6%,长达300bp,在一个基因组中重复30万~50万次。在Alu序列内含有一个限制性内切酶AluⅠ的特异性识别位点AGCT,因此这一序列称为Alu序列,它可被AluⅠ酶裂解为一个170bp和130bp的两个片段。研究表明神经母细胞纤维瘤发生是由于NF1抑癌基因突变所致,发现一患者的1对NF1等位基因之一有一新的Alu序列,使这一NF1基因失活,当另一个NF1基因发生突变后,遂造成肿瘤的发生。某些隐性遗传病也是由于Alu序列插入到外显子中,致使蛋白质编码区的结构改变,出现临床症状。
KpnⅠ家族(KpnⅠ family)是长分散元件的典型例子,是中度重复顺序中仅次于Alu家族的第二大家族,用限制性内切酶KpnⅠ消化,可分解成四个长度不等的片段,分别是1.2、1.5、1.8和1.9kb,即所谓的KpnⅠ家族,形成6.5kb的中度重复顺序,拷贝数为3000~4800个。KpnⅠ家族成员顺序比Alu家族长,散在分布,约占人体基因组的3%~6%。其功能不清。
第四节 基因的生物学特性
DNA分子中碱基对的排列顺序蕴藏着遗传信息,决定了基因的基本功能和特性。基因复制与表达构成了基因的主要功能。
The Gene for。。。。。。
The phrase current in genetics that most plainly do violence to understanding begin “the gene for”: the gene for breast cancer, the gene for hypercholesterolaemia, the gene for schizophrenia, the gene for homosexuality, and so on. We know of course that there are no single genes for such things. We need to revive and put into public use the term ‘allele’. Thus, “the gene for breast cancer” is rather the allele, the gene defect – one of several – that increased odds that a woman will get breast cancer. “the gene for” does, of course, have a real meaning: the enzyme or control element that the unmutated gene, the wild-type allele, specifies. But often, as yet, we do not know what the normal gene is for.
一、遗传信息的储存单位
在DNA的脱氧核苷酸长链上每三个相邻碱基序列构成一个三联体,每个三联体密码能编码某种氨基酸,所以三联体(triplet)是遗传信息的具体表现形式。因而三联体又称三联体密码(triplet code)、遗传密码(genetic code)或密码子(codon)。
(一)遗传密码
遗传密码的设想最早由物理学家Gamow提出,他认为在细胞合成蛋白质的过程中,可能存在某种密码来决定氨基酸。Khorana等人经过多年研究,逐步破译了编码20种氨基酸的密码子,发现4种碱基以三联体形式组合成43,即64种遗传密码。其中,61个密码子分别为20种氨基酸编码,其余3个不编码氨基酸,为蛋白质合成的终止信号,即终止密码子(stop codon)。至1967年正式完成了遗传密码表(遗传密码词典)的编制工作,不过DNA编码蛋白质是通过编码RNA序列来实现的,所以遗传密码中的4种碱基是构成mRNA的碱基,即A、G、C、U(尿嘧啶)(表2-l)。
表2-l 遗传密码表
第一碱基
第二碱基
第三碱基
5’
U
C
A
G
3’
U
UUU
苯丙氨酸
UCU
丝氨酸
UAU
酪氨酸
UGU
半胱氨酸
U
(Phe,F)
(Ser,S)
(Tyr, Y)
(Cys,C)
UUC
苯丙氨酸
UCC
丝氨酸
UAC
酪氨酸
UGC
半胱氨酸
C
UUA
亮氨酸
UAA
终 止
UGA
终 止
A
(Leu,L)
UUG
亮氨酸
UCG
丝氨酸
UAG
终 止
UGG
色氨酸
G
(Trp,W)
C
CUU
亮氨酸
CCU
脯氨酸
CAU
组氨酸
CGU
精 氨 酸
U
(Pro,P)
(His,H)
(Arg,R)
CUC
亮氨酸
CCC
脯氨酸
CAC
组氨酸
CGC
精 氨 酸
C
CUA
亮氨酸
CCA
脯氨酸
CAA
谷氨酰胺
CGA
精 氨 酸
A
(Gln,Q)
CUG
亮氨酸
CCG
脯氨酸
CAG
谷氨酰胺
CGG
精 氨 酸
G
A
AUU
异亮氨酸
ACU
苏氨酸
AAU
天冬酰胺
AGU
丝 氨 酸
U
(Ile,I)
(Thr,T)
(Asn,N)
AUC
异亮氨酸
ACC
苏氨酸
AAC
天冬酰胺
AGC
丝 氨 酸
C
AUA
异亮氨酸
ACA
苏氨酸
AAA
赖 氨酸
AGA
精 氨 酸
A
(Lys,K)
AUG
甲硫氨酸+起始
ACG
苏氨酸
AAG
赖 氨酸
AGG
精 氨 酸
G
(Met,M)
G
GUU
缬氨酸
GCU
丙氨酸
GAU
天冬酰胺
GGU
甘 氨 酸
U
(Val,V)
(Ala,A)
(Asp,D)
(Gly,G)
GUC
缬氨酸
GCC
丙氨酸
GAC
天冬酰胺
GGC
甘 氨 酸
C
GUA
缬氨酸
GCA
丙氨酸
GAA
谷氨酸
GGA
甘 氨 酸
A
(Glu,E)
GUG
缬氨酸
GCG
丙氨酸
GAG
谷氨酸
GGG
甘 氨 酸
G
(二)遗传密码的特性
1.遗传密码的通用性 在绝大多数情况下,遗传密码在病毒、原核生物、真核生物乃至人类的整个生物界中都是通用的。但这种通用性并不是绝对的,也有一些例外存在。如粒体DNA有3个遗传密码与通用密码不同:CUA编码苏氨酸,AUA编码甲硫氨酸,UGA编码色氨酸。
2.遗传密码的简并性 在61种编码氨基酸的密码中,除甲硫氨酸和色氨酸分别仅有一种密码子外,其余氨基酸都各被2~6个密码子编码,这种几个遗传密码编码一种氨基酸的现象称为遗传密码的简并性(degeneracy)。
3.起始密码和终止密码 在64个密码子中,AUG显得很特殊,若它位于mRNA的5′端的起始处,则是蛋白质合成的起始信号,称为起始密码子(initiation codon),同时它还编码甲酰甲硫氨酸和甲硫氨酸;若它不是位于mRNA的起始端,则只具有编码甲硫氨酸的作用。另外还有3个密码子:UAA、UAG和UGA,它们不编码任何氨基酸,而是作为肽链合成的终止信号,称为终止密码子。
二、基因通过自我复制保持遗传的连续性
基因的一个重要特性是自我复制(self-replication);基因的自我复制也就是DNA的复制。复制发生在细胞分裂周期的S期,以DNA分子自身为模板来合成新的DNA分子,其过程如下。
(一)DNA双螺旋结构解旋为两条单股的多核苷酸链
亲代DNA分子在解旋酶的作用下。从复制起点开始,双链之间的氢键断开,成为两条单股的多核苷酸链。复制的起点是特异的,由特定的碱基序列组成。真核生物具有数个复制起点序列,复制从多个位点开始同时进行。
(二)DNA分子的每一股单链都可作为模板进行自我复制
以每股单链为模板,在DNA聚合酶的作用下,逐个将单核苷酸串联成一定长度的多聚核苷酸片段,再经DNA连接酶的作用聚合成一条完整的DNA新链。在新链的复制过程中具有一定的特点。
1.互补性 在DNA复制时,作为模板的DNA单链按照碱基互补原则,来选择合成DNA新链的相应单核苷酸。如此合成的新链(子链)与模板链(亲链)在一级结构(碱基序列)上是不同的,二者之间呈互补关系。由于子链与亲链的碱基互补,就构成了一个完整的双链DNA分子,与复制前的双链DNA分子保持完全一样的结构。
2.半保留性 在DNA复制时,经解旋酶和解链酶等作用而分开的两条DNA单链,都能作为模板复制新链。因而,复制结束后,两条模板链(亲链)本身就分别成为子代DNA分子双链中的一条链,即在每个子代DNA分子的双链中,总是保留着一条亲链。DNA的这种复制方式称为半保留复制(semiconservative replication)。
3.反向平行性 DNA分子的两条双链之间是反向平行的,一条是5′→3′,另一条必然是3′→5′。复制时,如模板链是5′→3′,那么新合成的子链就是3′→5′;反之,模板链是3′→5′,子链则是5′→3′。这样新复制出来的DNA分子的子链与亲链也是反向平行的。
4.不对称性 DNA的复制是不对称的,即以3′→5′亲链作模板时,其子链合成是连续的;而以5′→3′亲链作模板时,子链的合成则是不连续的。以5′→3′亲链作模板时,首先在引发体(primosome)的起始引发下,合成数以千计的DNA小片段,称为冈崎片段(Okazaki fragment),然后,在DNA连接酶的作用下,将冈崎片段连接起来,新生链逐渐加长,直至合成一条完整的新链。
5.不连续性 真核细胞的 DNA包含多个复制起点,其DNA的复制是以复制单位(replicative unit)进行的。复制单位是介于两个复制起点之间的能独立进行复制的DNA区段。每个复制单位包括一个复制起点和一个接受起始信号的序列。
三、基因表达
基因表达(gene expression)是把基因所储存的遗传信息转变为由特定的氨基酸种类和序列构成的多肽链,再由多肽链构成蛋白质或酶分子,从而决定生物各种性状(表型)的过程。
基因表达包括两个步骤:①以DNA为模板转录合成mRNA;②将遗传信息翻译成多肽链中相应的氨基酸种类和序列。
(一)转录
转录(transcription)是在RNA聚合酶的催化下,以DNA的3′→5′单链(反编码链)为模板,按照碱基互补配对原则(但RNA以U和DNA的A配对,其余配对形式与复制时一致),以三磷酸核苷酸(NTP)为原料合成RNA的过程。转录的最终产物是mRNA、tRNA和rRNA等。合成不同的RNA所需的RNA聚合酶不一样,RNA聚合酶Ⅰ合成rRNA;RNA聚合酶Ⅱ合成mRNA的前体,RNA聚合酶Ⅲ合成snRNA及tRNA等小分子RNA。
1.转录过程 一般将mRNA的合成分为起始、延伸和终止3个连续的步骤。①在起始阶段,RNA聚合酶Ⅱ与启动子结合,即可启动RNA的转录合成。已发现的一些启动子包括TATA框(TATA box)、CAAT框(CAAT box)、GC框(GC box)以及增强子(enhancer)等,它们构成了结构基因的侧翼序列(flanking sequence),是人类基因组的一些特殊序列,称为调控序列,对基因的有效表达是必不可缺少的;②延伸过程是RNA聚合酶Ⅱ由全酶构型变为主酶构型,并沿着模板链的3′→5′方向移动,并精确地按照碱基互补原则,以三磷酸核苷酸(UTP、CTP、GTP和ATP)为底物,在3′端逐个添加核苷酸,使mRNA不断延伸;③终止是RNA聚合酶Ⅱ在DNA模板上移动到达终止信号时,RNA合成的停止。
2.转录产物的加工和修饰 由RNA聚合酶Ⅱ催化所形成的初始转录产物,仅仅是mRNA的前体,必须经过加工和修饰,才能形成有功能的mRNA(图2-3)。包括①“加帽”(capping):即在初级转录物的5′端加上“7-甲基鸟嘌吟核苷酸”帽子(m7GpppN);② “加尾”(tailing):大多数真核生物的初级转录物均需在3′端加上“多聚腺苷酸(poly A)”尾,也称为poly A化;③剪接(splicing):在剪接酶的作用下,将内含子非编码序列切除,再将外显子编码序列由连接酶逐段连接起来,形成成熟的mRNA分子。每个内含子的5′端起始处有GT序列,3′端尾部有AG序列,这两个序列为高度保守的一致序列,它们是酶切和拼接的信号。同样,tRNA和rRNA的转录最后也要经过相应的加工和修饰过程,才具有功能。
图2-3 转录及其加工过程
(二)翻译
翻译(translation)是以mRNA为模板指导蛋白质合成的过程。蛋白质合成是在细胞质内的核糖体上进行的。mRNA、tRNA和核糖体在翻译中起着重要的作用,mRNA携带遗传信息,作为合成蛋白质的模板;tRNA转运活化的氨基酸和识别mRNA分子上的遗传密码(表2-1);核糖体是蛋白质合成的场所,把各种特定的氨基酸分子连接成多肽链。蛋白质合成通常分为三个阶段:起始、延长和终止。每个阶段都涉及到许多不同而重要的生化过程。
要成为有功能的成熟的翻译产物,需要对合成初级翻译产物进行加工。mRNA只能决定多肽链中的氨基酸顺序,而蛋白质分子的空间结构是由翻译后修饰所决定的。
(三)RNA编辑及其意义
RNA编辑(RNA editing)是导致形成的mRNA分子在编码区的核苷酸序列不同于它的DNA模板相应序列的过程。RNA编辑与真核生物mRNA前体的修饰(如戴帽、加尾和剪接等)不同,后者不改变DNA的编码序列。RNA的编辑属遗传信息加工的一类,编辑的形成包括:①尿嘧啶核苷酸的加人或删除;②C→U,A→G或G→A的RNA碱基转换;③C→G,G→C或U→A的碱基颠换。编辑从mRNA的3′→5′方向进行。编辑过程首先发生在mRNA的3′端,除了mRNA,tRNA、rRNA也都发现有RNA编辑的加工方式存在。
RNA编辑的生物学意义主要表现在:①通过编辑的mRNA具有翻译活性;②使该mRNA能被通读;③在一些转录物5′末端可创造生成起始密码子AUG,以调节翻译活性;④RNA编辑可能与生物进化有关;⑤RNA编辑不偏离中心法则,因为提供编辑的信息源仍然来源于DNA贮藏的遗传信息。
四、基因表达的控制
绝大多数真核生物是多细胞的、复杂的有机体,基因表达控制的特点是能在特定时间和特定细胞中激活特定的基因,从而实现“预订”的有序的分化发育过程。真核生物基因表达调控是通过多阶段水平实现的,即转录前、转录水平、转录后、翻译和翻译后等五个水平。
第四节 人类基因组计划
“人类基因组计划(human genome project,HGP)”是20世纪90年代初开始的全球范围的全面研究人类基因组的重大科学项目。HGP是美国科学家在1985年率先提出的,旨在阐明人类基因组DNA 3.2×109核苷酸的序列,发现所有人类基因并阐明其在染色体上的位置,破译人类全部遗传信息,使得人类第一次在分子水平上全面地认识自我。
HGP的整体目标是阐明人类遗传信息的组成和表达,为人类遗传多样性的研究提供基本数据,揭示1万余种人类单基因异常(有临床意义的约计6000种)和上百种严重危害人类健康的多基因病(例如冠心病、高血压、糖尿病、恶性肿瘤、自身免疫性疾病等)的致病基因或者疾病易感基因,建立对各种基因病新的诊治方法,从而推动整个生命科学和医学领域发展。HGP的基本任务,是建立人类基因组的结构图谱,即遗传图、物理图、转录图与序列图,并在“制图-测序”的基础上鉴定人类的基因,绘出人类的基因图。
从基因组学的范畴来说,预计从1990年~2003年HGP的重点在于研究人类基因组的结构,属于基因组学的最基础的结构基因组学(structural genomics)的研究。HGP的科学意义是奠定了阐明人类所有基因功能的功能基因组学(functional genomics)研究的基础。
一、结构基因组学
结构基因组学主要包括四张图,即遗传图、物理图、转录图与序列图的制作。
(一)遗传图
遗传图(genetic map)又称“连锁图(linkage map)”。它是以具有遗传多态性的遗传标记作为“位标”,以遗传学距离为“图距”的基因组图。连锁遗传的基因彼此之间距离较近,独立遗传的基因相距甚远。遗传标记之间是否存在连锁与其相对位置和遗传距离有关。遗传学距离以厘摩(centi-Morgan,cM)表示。两个基因在精卵形成时的染色体交换中分离的几率为1%时,其间距为1cM,相当于106bp(1Mb)。随着人类基因组计划的研究和认识的深入,作为DNA的遗传标志也经历了从粗到细的转变过程,即从第一代标志限制性片段长度多态性(restriction fragment length polymorphism,RFLP)、第二代标志短串联重复(short tandem repeat,STR)到第三代标志单个核苷酸多态性(single nucleotide polymorphism,SNP)的发展,两个标志之间的平均距离为0.7cM,即两个位点之间有0.7%的机率进行遗传重组。人类基因组的遗传距离大小为3600cM。由于所有“遗传多态性”的分子基础都是核苷酸的差异,在理论上,SNP有可能在核苷酸水平上,把“序列图”、“物理图”与“遗传图”最终有机地整合、统一起来。
(二)物理图
物理图(physical map)是以一段已知核苷酸序列的DNA片段,称为序列标记部位(sequence tagged site,STS)为“位标”,以bp、kb和Mb作为图距的基因组图。物理图的基本原理是把庞大的无从下手的人类基因组先“敲碎”,再拼接,以便既能随意研究又能清楚地知道研究内容所处的染色体位置。
(三)转录图
转录图(transcription map)将最终成为基因图,就是在人类基因组中鉴别出占据2%长度的全部基因的位置、结构与功能。现已确定,人类有3万~4万个蛋白编码基因。在每一种细胞中,编码蛋白质序列仅有10%左右专一表达。如果获得了mRNA(或cDNA)序列,就获得了基因功能的主要部分。cDNA片段称为表达序列标记(expressed sequence tag,EST)或“表达序列”图,即人类的“基因图”的雏形。现阶段,转录图与EST还有多方面的现实意义:①它能为估计人类基因的数目提供较为可靠的依据;②它提供的不同组织(空间)、不同发育阶段(时间)的基因表达的数目、种类及结构,特别是序列的信息;③提供了鉴定基因的探针,以EST就可从“全长cDNA文库”到全长cDNA,再进而从不同“基因组文库”中筛选全长的基因;④本身就有直接的经济价值,如作为基因诊断的探针。
(四)序列图
序列图(sequence map)人类基因组的核苷酸序列图也就是分子水平的最高层次的、最详尽的物理图。测定的总长度约为1米,由30多亿核苷酸组成的序列图是人类基因组计划中最为明确、最为艰巨的定量、定质(准确性)、定时的任务。
二、后基因组时代
随着HGP遗传图、物理图、转录图与序列图等结构基因组学任务的基本完成,科学家们又启动了后基因组计划(post-genome era)。它主要研究基因组的功能,即功能基因组学。
功能基因组学就是在基因组的层次上,研究基因的表达、调控与功能。人类基因图的雏形“转录图”是最初步的人类基因组功能图。基因的转录具有组织、发育阶段的特异性,并受所有生理、病理及环境因素的调节。因此,转录图除了提供基因序列的结构信息外,还提供了该基因表达的组织、发育阶段、生理状况的信息。绘制人类基因组的一张三维的“转录图”或称“基因表达图”,反映某一基因在不同发育阶段、不同组织中不同水平的表达,反映某一组织中不同时间,不同基因的不同水平的表达,以及在某一生长、发育阶段在不同组织中不同基因的不同水平的表达。
后基因组计划还包括人类基因组多样性计划、比较基因组学、工业基因组学、药物基因组学、疾病基因组学以及蛋白质组学等方面。
人类基因组多样性计划(human genome diversity project,HGDP)是研究各人群的基因组,比较不同人种、民族、族群(ethnic group)基因组的差异,探讨人类进化的历史,研究不同人群间对疾病的易感性和抗性上的差异,为预防医学提供基础。
比较基因组学(comparative genomics)比较基因组学是指在基因组的层次上,比较不同基因组之间的异同。“人类基因组计划”的启动意味着比较基因组的问世。致病基因的鉴定、肿瘤“表达图”的构建,及不同组织、不同时间的“基因图”的构建,都已属于比较基因组的范畴。而“人类基因组计划”中的“模式动物”基因组研究,更是比较基因组学的重要内容。基因组学在人类基因组研究中的成功,使它很快进入了所有其他生物基因组的研究。“人类基因组计划”的四大模式生物:酵母、线虫、果蝇、小鼠,在人类基因组研究与人类基因鉴定中已发挥了重要的作用。
工业基因组学(industrial genomics)将是本世纪的支柱工业之一,是研究基因组学的工业应用的学科。随着人类及其他生物基因组学研究的进展,它的前景已展现在人们面前。作为动物反应器来生产人类生物制品的转基因猪、牛、鸡都已问世。能够提供人体器官的转基因动物已在实验室进行尝试。在基因组层次上改良原有的遗传结构来培育新的动、植物品种也已取得可喜的进展。可以预料,在本世纪里,新的食品、药品将越来越多地打上基因组学的印记。
药物基因组学(pharmacogenomics)是研究药物人体作用的遗传分布,以满足临床需要。遗传多样性对个体差异,临床症状的长短、费用和临床治疗的疗效等有决定因素,全基因组扫描可以用来寻找这些遗传多态性。得到影响药物作用的多态性后,可以优化药物设计和发现新化合物等。应用大规模系统研究基因组以加速发现对药物反应的标记,标记包括作用到药物目标、药物代谢或疾病通路上。
疾病基因组学(morbid genomics)主要任务是分离重要疾病的致病基因与相关基因,以及确定其发病机制。我国许多疾病的发生可能与西方人群可能存在一定的差别。以肿瘤为例,中国人肝癌、鼻咽癌、食管癌的发生率明显高于西方;又如,中国人1型糖尿病发生率明显低于西方。对这些差别的分析表明,除环境因素之外,遗传因素也有重要的作用。近年来,心血管病、糖尿病、老年痴呆症、精神分裂症等多基因疾病的发生率在中国不断增高,在大城市已接近西方国家水平。利用这些疾病遗传资源,分离在我国发生率高、危害性大的重要疾病的致病基因或相关易感基因将是今后医学研究的重点。
蛋白质组学(proteomics)研究细胞或组织中基因组所表达的全部蛋白质,尤其是不同生命时期,或正常、或疾病或给药前后的全部蛋白质的变化。
后基因组研究的进展将为医学发展提供的线索和机遇,从基因表达谱的变化、细胞内信号转导过程异常等角度认识疾病将是医学发展中的重要变化。后基因组研究将对各种疾病的发生机制做出最终的解释,也将在各个层次和水平上为疾病的诊治提供新的线索。
(黄天华)