02人类基因
human gene
基因的概念现代遗传学认为,基因 ( gene) 是决定一定功能产物的 DNA序列。这种功能产物主要是蛋白质和 RNA。
一个基因的结构除了编码特定功能产物的 DNA
序列外,还包括对这个特定产物表达所需的邻接 DNA序列。
基因的化学本质在整个生物界中,绝大部分生物(包括人类)
基因的化学本质是 DNA;在 某些仅含有 RNA和蛋白质的病毒中,基因的化学本质是 RNA。
DNA分子的基本单位是脱氧核苷酸,依各自所携碱基的不同,可以分成 A,G,C,T 4种。
将它们按一定顺序排列连接后即构成 DNA单链。
它们的排列顺序是 DNA遗传的核心。
人类基因组人类基因组 ( genome)是人的所有遗传信息的总和。它包括两个相对独立而相互关联的基因组:核基因组与线粒体基因组。通常人类基因组指的是核基因组 。
人类基因组的组织结构人类的基因或人类基因组中的功能序列可分为
4大类,即单一基因、基因家族、拟基因和串联重复基因。
基因的 分类基因的结构真核生物基因的 编码序列 往往被非编码序列所分割,呈现断裂状的结构,故而也称 断裂基因
( split gene)。
编码序列称为 外显子 ( exon),间隔的非编码序列称为 内含子 ( intron)。内含子在转录后的加工中会被切除。
内含子和外显子的关系不是固定不变的,有时同一条 DNA分子上的某一段 DNA顺序,在作为编码一条多肽链的基因时是外显子,但作为另一条多肽链的编码基因时却是内含子,这是由于 mRNA剪接加工的方式不同所致。其结果使同一个基因(确切地说是同一段 DNA顺序)产生两条或者两条以上的 mRNA链。
除 外显子、内含子 外,基因 还包括与 除 外显子、
内含子相邻的 DNA序列组件,它们对基因转录的起始和终止起调控作用。
断裂基因的结构外显子 -内含子的接头区是一高度保守的一致顺序,称为 外显子 -内含子接头 。每一个内含子的
5′ 端起始的两个碱基是 GT,3′ 端最后的两个碱基是 AG,通常把这种接头形式叫做 GT-
AG法则 ( GT-AG rule)。这两个序列是高度保守的,在各种真核基因的内含子中均相同。
每个断裂基因中第一个外显子的上游和最末一个外显子的下游,都有一段不被转录的非编码区,称为 侧翼顺序 。
基因组的组成人类基因组按 DNA序列分类既有单拷贝序列,
也有重复频率不等的多拷贝序列。
单拷贝序列,在基因组中仅有单一拷贝或少数几个拷贝,长度在 800~ 1000bp之间,其中有些是编码细胞中各种蛋白质和酶的结构基因,占到人类基因组的大多数。
重复多拷贝序列,分散地穿插于整个基因组中,根据复性的速度不同,又可分为简单序列 DNA和中度重复 DNA。
简单序列 DNA( simple-sequence DNA),以小于 200bp的 小片段 为单位串联重复很多次,约占整个基因组的 10%~ 15%,大多数长度可达 105bp,多位于染色体的异染色质区 。
某些存在于基因组的间隔序列和内含子等非编码区内的简单序列 DNA被称为 微卫星 DNA( microsatellite
DNA),它们在人类基因组中出现的数目和频率不同,
表现为多态性,为人类遗传分析提供了大量的多态遗传标志,可用于基因定位、群体进化以及基因诊断等研究。
中度重复 DNA( intermediate repeat DNA):
约占整个基因组的 25%~ 40%,以不同的量分布于整个基因组的不同部位。 DNA的长度可短至 100bp~
500bp,称为短分散元件( short interspersed
element),也可长达 6000bp~ 7000bp,称为长分散元件( long interspersed element)。
基因的生物学特性
DNA分子中碱基对的排列顺序蕴藏着遗传信息,
决定了基因的基本功能和特性。基因复制与表达构成了基因的主要功能。
遗传密码,在 DNA的脱氧核苷酸长链上,每三个相邻的碱基序列构成一个 三联体,每个三联体密码能编码某种氨基酸,所以三联体( triplet)是遗传信息的具体表现形式。因而三联体又称 三联体密码 ( triplet
code)、遗传密码( genetic code)或 密码子
( codon)。
遗传密码的特性
通用性在绝大多数情况下,遗传密码在整个生物界中都是通用的 。 但也有一些例外存在,如线粒体 DNA中有 3个遗传密码与通用密码不同 。
简并性除少数氨基酸仅有一种密码子外,其余氨基酸都各被
2~ 6个密码子编码,这种现象称为遗传密码的简并性
( degeneracy) 。
起始密码和终止密码密码子 AUG若位于 mRNA的 5′ 端起始处,则是蛋白质合成的起始信号,叫 起始密码子 ( initiation codon),
同时编码甲酰甲硫氨酸和甲硫氨酸;若不是位于
mRNA的起始端,则只具有编码甲硫氨酸的作用 。
密码子 UAA,UAG和 UGA不编码任何氨基酸,而是作为肽链合成的终止信号,称为 终止密码子 。
基因具有自我复制( self-replication)的重要特性。复制发生在细胞分裂周期的 S期,DNA
双螺旋结构解旋为两条单股的多核苷酸链,以
DNA分子自身 的每一股单链 为模板 进行自我复制 合成新的 DNA分子 。 复制的起点由特定的碱基序列组成。真核生物的复制从多个位点同时开始进行。
新链的复制过程具有一定的特点
互补性,新链与模板链的碱基序列呈互补关系,这样就构成了一个完整的双链 DNA分子,与复制前的双链 DNA分子保持完全一样的结构。
半保留性,两条模板链分别成为子代 DNA分子双链中的一条链,
即在每个子代 DNA分子的双链中,总是保留着一条亲链。
反向平行性,DNA分子的两条双链之间是反向平行的,一条是
5′→3′,另一条必然是 3′→5′ 。新复制出来的 DNA分子的子链与亲链也是反向平行的。
不对称性,DNA的复制是不对称的,即以 3′→5′ 亲链作模板时,
其子链合成是连续的;而以 5′→3 ′亲链作模板时,子链的合成则是不连续的。
不连续性,真核细胞的 DNA包含多个复制起点,其 DNA的复制是以复制单位 ( replicative unit) 进行的。
基因表达 ( gene expression),是把基因所储存的遗传信息转变为由特定的氨基酸种类和序列构成的多肽链,再由多肽链构成蛋白质或酶分子,从而决定生物各种性状(表型)的过程。
基因表达包括两个步骤,①以 DNA为模板转录合成 mRNA;②将遗传信息翻译成多肽链中相应的氨基酸种类和序列转录 ( transcription),是在 RNA聚合酶的催化下,
以 DNA的 3′ →5 ′ 单链(反编码链)为模板,按照碱基互补配对原则(但 RNA以 U和 DNA的 A配对,其余配对形式与复制时一致),以三磷酸核苷酸( NTP)为原料合成 RNA的过程。转录的最终产物是 mRNA、
tRNA和 rRNA等。
转录过程,一般将 mRNA的合成分为起始、延伸和终止 3个连续的步骤。
①在起始阶段,RNA聚合酶 Ⅱ 与启动子结合,即可启动 RNA的转录合成。
②延伸过程是 RNA聚合酶 Ⅱ 由全酶构型变为主酶构型,
并沿着模板链的 3′→5′ 方向移动,并精确地按照碱基互补原则,以三磷酸核苷酸( UTP,CTP,GTP和 ATP)
为底物,在 3′ 端逐个添加核苷酸,使 mRNA不断延伸;
③终止是 RNA聚合酶 Ⅱ 在 DNA模板上移动到达终止信号时,RNA合成的停止。
已发现的一些启动子包括 TATA框 ( TATA
box),CAAT框 ( CAAT box),GC框 ( GC
box)以及 增强子 ( enhancer)等,它们构成了结构基因的 侧翼序列 ( flanking sequence),
是人类基因组的一些特殊序列,称为调控序列,
对基因的有效表达是必不可缺少的。
转录产物的加工和修饰,由 RNA聚合酶 Ⅱ 催化所形成的初始转录产物,仅仅是 mRNA的前体,必须经过加工和修饰,才能形成有功能的 mRNA。主要 包括
,加帽,( capping)-- 5′ 端加,7-甲基鸟嘌吟核苷酸,;,加尾,( tailing)-- 3′ 端加,多聚腺苷酸,( poly A)和 剪接 -- 按 GT-AG法则将内含子切除,再将外显子由连接酶逐段连接起来,形成成熟的 mRNA分子。
转录及其加工过程翻译 ( translation),是以 mRNA为模板指导蛋白质合成的过程。蛋白质合成是在细胞质内的核糖体上进行的。
蛋白质翻译时 mRNA携带遗传信息,作为合成蛋白质的模板; tRNA转运活化的氨基酸和识别 mRNA分子上的遗传密码;核糖体是蛋白质合成的场所,把各种特定的氨基酸分子连接成多肽链。蛋白质分子最终的空间结构是由翻译后修饰所决定的。
RNA编辑 ( RNA editing) 是导致形成的 mRNA分子在编码区的核苷酸序列不同于它的 DNA模板相应序列的过程,属遗传信息加工 。
生物学意义主要表现在:①通过编辑的 mRNA具有翻译活性;②使该 mRNA能被通读;③在一些转录物 5′
末端可创造生成起始密码子 AUG,以调节翻译活性;
④ RNA编辑可能与生物进化有关;⑤ RNA编辑不偏离中心法则,因为提供编辑的信息源仍然来源于 DNA贮藏的遗传信息。
基因表达的控制基因表达控制的特点是能在特定时间和特定细胞中激活特定的基因,从而实现,预订,的有序的分化发育过程。真核生物基因表达调控是通过多阶段水平实现的,即转录前、转录水平、
转录后、翻译和翻译后等五个水平。
人类基因组( genome)通常是指核基因组,是人的所有遗传信息的总和。
人类基因组人类基因组计划
“人类基因组计划( human genome project,
HGP),是 20世纪 90年代初开始的全球范围的全面研究人类基因组的重大科学项目。 HGP
是美国科学家在 1985年率先提出的,旨在阐明人类基因组 DNA 3.2× 109核苷酸的序列,发现所有人类基因并阐明其在染色体上的位置,破译人类全部遗传信息,使得人类第一次在分子水平上全面地认识自我。
HGP的整体目标是阐明人类遗传信息的组成和表达,
为人类遗传多样性的研究提供基本数据,揭示人类单基因异常和严重危害人类健康的多基因病的致病基因或者疾病易感基因,建立对各种基因病新的诊治方法,
从而推动整个生命科学和医学领域发展。其基本任务是建立人类基因组的结构图谱,即遗传图、物理图、
转录图与序列图,并在,制图 -测序,的基础上鉴定人类的基因,绘出人类的基因图。
后基因组随着 HGP遗传图、物理图、转录图与序列图等结构基因组学任务的基本完成,科学家们又启动了后基因组计划( post-genome era)。它主要研究基因组的功能,即功能基因组学。
后基因组计划将为医学发展提供的线索和机遇,
从基因表达谱的变化、细胞内信号转导过程异常等角度认识疾病将是医学发展中的重要变化。