2009-7-27 1
第十三章 基因组学
一、基因图谱的构建
二、基因图谱的应用
三、后基因组学
2009-7-27 2
基因组学( genomics)是遗传学研究进入分子水平后发展起来的一个分支,只要研究生物体全基因组( genome)的分子特征。一个物种的单倍体的染色体数目称为该物种的基因组或染色体组,它包含了该物种自身的所有基因。不同物种的基因组大小差异极大,表 9-2列举了几种生物的基因组大小。
2009-7-27 3
基因组学强调的是以基因组为单位,而不是以单个基因为单位作为研究对象,
因此,基因组学的研究目标是认识基因组的结构,功能及进化,弄清基因组包含的遗传物质的全部信息及相互关系,
为最终充分合理地利用各种有效资源,
为预防和治疗人类遗传疾病提供科学依据 。
2009-7-27 4
基因组学的重要组成部分是基因组计划
( genome project),大体上可以分为:
① 构建基因组的遗传图谱 ( genetic map) ;
② 构建基因组的物理图谱 ( physical map) ;
③ 测定基因组 DNA的全部序列;
④ 构建基因组的转录本图谱;
⑤ 分析基因组的功能 。
2009-7-27 5
基因组计划研究开始于 1990年,美国国立卫生研究院( National Institutes of Health,
NIH)和能源部 (Department of Energy,DOE)
联合启动了被誉为,人体阿波罗计划,的,人类基因组计划,( human genome
project,HGP),预计投资 30亿美元,历时 15
年,将测定构成人类基因组的 30亿个核苷酸对的排列次序,构建高分辨率的人类基因组遗传图谱、人类基因组物理图谱,发展新实验技术、
研究系统和仪器设备,发展生物信息学。
2009-7-27 6
1996年,构 建了 每 个 标 记的 密 度 为
0.6Mb(1Mb=1× 106bp)的人类基因组遗传图谱,0.1Mb的物理图谱 。 2000年完成了人类基因组草图的构建,并已测定基因组的大量核苷酸序列,这些研究成果使人们深信,人类将在不远的将来会彻底揭示人类自身的全部遗传信息 。
2009-7-27 7
在美国提出人类基因组计划后,英、法、日、
俄罗斯和一些发展中国家不甘落后,也相继启动了类似的研究项目。如日本于 1991年 4月提出了与 HGP同等重要的,水稻基因组计划,
( rice genome project,RGP),1991年 10月正式实施。通过该计划,将绘制出水稻所有 12
条染色体的遗传图谱,并对全部 cDNA进行序列分析、组织特异性表达和基因功能研究。
2009-7-27 8
该计划正开展着广泛的国内国际合作研究,已构建成较为饱和的遗传图谱,构建了 YAC和 cosmid克隆的染色体物理图谱,
完成了数组不同组织器官的 cDNA文库 。
又如 1992年 8月,中国根据国情正式宣布实施自己的,水稻基因组研究计划,,
并于 2001年完成了水稻基因组物理图谱的构建 。
2009-7-27 9
由于以人类为对象的研究实际上受到诸多限制,也受伦理学的约束,所以人类基因组计划还将对有关的模式生物如酵母、线虫、果蝇、小鼠、家猪、拟南芥等进行相应的研究,为研究人类基因组的战略提供了重要的依据。
2009-7-27 10
目前已有多种模式生物的基因组序列已全部测定 。 在真核生物中,有酵母,线虫,果蝇,拟南芥 。 还有水稻基因组全序列已接近完成 。 在原核生物中,有大肠杆菌等 10多种生物的基因组序列也已经测定 。 人们预计,随着新技术和系统的不断发展,人类将测定更多基因组的全部序列 。
2009-7-27 11
一、基因组图谱的构建
人类基因组计划中,最终要测定人的基因组中核苷酸的全部排列顺序。而利用现有的 DNA测序方法,每个测序反应通常只能得到 800个核苷酸的序列,这就意味着要用很多 DNA小片段的序列,才能装配、连接构成完整的连续 DNA分子。 ]
2009-7-27 12
鸟枪射击法( shotgun)是许多小基因组序列测定中通常采用的途径(图 9-25),
利用构建的基因库直接测序,根据片段之间的重复序列,就可以连接成完整的基因组 DNA。但是随着 DNA片段数的增加,最后对各片段序列的分析连接会变得越来越复杂。
2009-7-27 13
例如当 DNA片段数为 n时,各片段之间可能的重复数将达到 2n2-2n。。 另外,若基因组中含有相同或相似的重复序列,
在构建,装配连续 DNA分子时就容易出现错误,会将来源不同区段的 DNA片段连接在一起 。 因此,仅用鸟枪射击法不适用于大基因组序列测定 。
2009-7-27 14
在进行大规模序列测定之前,构建基因组图谱是测定但是基因组全部核苷酸序列的重要一环 。
基因组图谱可作为序列测定中制定测序方案的依据,以便先重后轻地分析基因,锚定测知的核酸序列在染色体上的位置 。 因此,在人类基因组计划实施过程中,首先用了 6年时间构建高密度的基因组图谱,然后才进入测序工作 。
有了基因组图谱之后,基因组序列测定可用下列两种方法结合进行:
2009-7-27 15
A:克隆连续序列法 ( clone contig),
将基因组 DNA切割长度为 0.1Mb~1Mb的大片段,克隆到 YAC或 BAC载体上,分别测定单个克隆的序列,再装配,连接成连续的 DNA分子 。
2009-7-27 16
B,定 向 鸟 枪 射 击 法 ( directed
shotgun),以基因组图谱中的标记为依据,测序,装配和构建不同 DNA片段的序列 。
根据基因组图谱构建的途径,可分为基因组遗传图谱构建和物理图谱构建两种 。
2009-7-27 17
遗传图谱的构建是根据任一遗传性状
(如已知的多型性基因位点、功能未知的 DNA标记、可鉴别的表现性状)的分离比例,将其定位在基因组中。因此,
遗传图谱是据等位基因在减数分裂中的重组频率,来确定其在基因组中的顺序和相对距离的。
2009-7-27 18
物理图谱的构建不需要检测等位基因的差异,它既可以利用具有多型性的标记,
也可利用没有多型性的标记进行图谱构建,它将标记直接定位在基因组中某一位点 。 实际上这两种途径都需要利用分子遗传学的技术和方法 。 尽管两种图谱是分别构建的,但它们可以相互借鉴,
互为补充,作为基因组图谱利用 。
2009-7-27 19
(一)图谱的构建
1.图谱标记
2.遗传图谱的构建
2009-7-27 20
1.图谱标记
图谱构建中需要可以鉴别的标记
( marker),在构建遗传图谱中,可用基因和 DNA作为标记。
( 1) 基因标记。
( 2) DNA标记。
2009-7-27 21
( 1)基因标记。
基因控制性状的表现,所以也就是利用可以鉴别的形态、生化等表型性状作标记,这与前述的连锁交换中介绍的方法一样。遗传学中最早建立的果蝇连锁图,
就是利用控制果蝇眼睛的一些基因作为标记,分析各基因间的连锁关系及遗传距离,绘制出连锁遗传图谱。这些基本原理和方法,仍在现在的基因组遗传图谱构建中广泛应用。
2009-7-27 22
( 2) DNA标记。
基因是非常有用的标记,但并不十分理想 。 在高等真核生物中,根据基因绘制的遗传图谱都不太详细,每个标记之间相距很远 。 例如,经过半个多世纪的研究,到 1985年,水稻基因组的遗传图谱也仅具有 119个基因 。 另外对于一些复等位基因位点,也很难全部鉴定标记出来 。
因此遗传图谱构建中还需要其他标记 。 DNA可作为构建遗传图谱的标记,可有以下 3种类型 。
2009-7-27 23
① 限制性内切酶多型性:若在,基因工程,一节所述,限制性内切酶能识别饿切割特异核苷酸序列,DNA序列能或不能被某一酶酶切,实际上相当于一对等位基因的差异。
2009-7-27 24
如有两个 DNA分子,一个具有某一酶的酶切位点,而一个没有这个位点,酶切后形成的 DNA片段长度就有差异,即多型性
( RFLP) (图 9-20)。 根据这一等位基因的遗传,可将 RFLP作为标记,定位在基因组中某一位置上 。 这同用基因标记的方法一样 。 据分析,人类基因组中有
105RFLP位点,每一位点只有两个等位基因 。
2009-7-27 25
但是,用限制性酶酶切基因组 DNA后,会产生很多 DNA片段 。 例如,用识别 6个核苷酸的
EcoRI( 表 9-1) 酶切的 DNA,理论上它可以在每隔 4096bp(46)切割 DNA分子,这样,人类基因组就会有 75万个 DNA片段,所以内切酶酶切要结合 Southern杂交分析,用特异的杂交探针来检测差异,或用 PCR方法,扩增包括 RFLP的 DNA
片段,在琼脂糖凝胶电泳中检测等位基因的差异 。
2009-7-27 26
② 简单序列长度多型性:
简单序列长度多型性( simple sequence
length polymorphism,SSLP)是一些长度不等的重复序列。与 RFLP不同的是,
SSLP可有多个等位基因位点,SSLP又可分为两种,
2009-7-27 27
(a)多次重复序列 (variable number of
tandem repeat,VNTP),也称为微随体
( minisatellite)。这种重复序列长度为几十个核苷酸。
2009-7-27 28
(b) 简 单 重 复 序 列 ( simple tandem
repeat,STP ) 又 称 为 小 随 体
( microsatellite) 。 这种重复序列短,
常只有 2个,3个或 4个核苷酸重复单位
( 如一个基因具有 TCTGAGAGACGC,另一个等位基因具有 TCTGAGAGAGAGACGC) 。
2009-7-27 29
利用 STR作为标记比用 VNTR的更多,这是因为 VNTR主要集中在染色体末端,而 STR
分布在整个基因组中 。 利用 PCR检测小于
300bp的 DNA片段的速度快,准确度也高 。
VNTR的长度通常灾 00bp以上 。 将 PCR产物电泳,可直接观察等位基因之间的差异 。
2009-7-27 30
③ 单核苷酸多型性:
核苷酸多型性( single nucleotide
polymorphism,SNP)是基因中的点突变,
存在的数量多,其中有些可产生 RFLP,
但多数突变不是发生在酶切位点。据估计,人类基因组的编码基因只能感有 20
万个 SNPs,在非编码区的数目可能还要多 10倍以上。这种标记也只有两种等位基因。
2009-7-27 31
由于 SNPs数目大,可用寡聚核苷酸分子杂交法直接检测,例如,利用 DNA芯片技术将不同寡聚核苷酸固定在芯片上,标记待测 DNA,一次就可测得很多 SNPs标记。也可用特异等位基因动力学杂交方法( dynamic allele-specific
hybridization,DASH)检测。这种方法是利用液体杂交法检测,即在酶标偶联反应
( ELISA)板的 96个孔中进行杂交,再用一种只与双链 DNA结合的荧光染料检测。
2009-7-27 32
只有当两条 DNA分子完全互补配对,形成双链 DNA时才有信号 。 这种方法还可通过控制不同复性温度,来鉴别不同等位基因 。
2009-7-27 33
2.遗传图谱的构建
( 1)人类基因组遗传图谱的构建。
( 2)植物基因组遗传图谱的构建。
2009-7-27 34
( 1)人类基因组遗传图谱的构建。
人类的遗传图谱是利用家系分析法,在对 8个家系的 134个成员的分析中 ( 186个减数分裂 ),
主要根据 5264个 STR标记绘制而成的 。 因为 STR
在每一百万个碱基中总有几个位点,而且每一个 STR具有多个等位基因位点 。 利用这些家系的资料绘制第 1至 22号染色体与扑 。 对于 X染色体图谱,还利用了来自另外 12个家系,170个成员 ( 105个减数分裂 ) 的资料绘制而成 。
2009-7-27 35
最后,将 5264个标记定位在 2335个位点,
因为其中有些标记相距很近而作为一个位点,所以位点数小于标记数目 。 据此构建的人类基因组遗传图谱的密度为每个标记 599kb。 这个图谱密度比预期的每个标记 1000kb要好得多 。
2009-7-27 36
( 2)植物基因组遗传图谱的构建。
在利用前述图谱标记的原理和方法构建植物遗传图谱时,根据植物材料及其遗传特点,在具体的实验中又结合了植物遗传分析和植物育种的一些方法和材料,
所以植物遗传图谱的构建常可按以下步骤进行 。
2009-7-27 37
① 选择亲本:
②产生构图群体:
③遗传标记的染色体定位
④标记间的连锁分析:
2009-7-27 38
① 选择亲本:
选择亲本理论上要求亲缘关系远,遗传差异性大的品种或材料做亲本,但又不能相差太大以致引起子代不育。利用形态、同工酶,DNA标记对备选材料进行多态性(差异性)检测,综合测定结果,
选择出有一定量多态性的一对或几对材料作为构图亲本。
2009-7-27 39
② 产生构图群体:
用选好的亲本材料配制杂交组合,建立分离群体,如单交组合产生的 F2代或由其衍生的 F3,F4家系,或者由连续多代自 交 或 姊 妹 交 产 生 的 重 组 近 交 系
( recombinantinbred line,RIL),也可以利用回交或三交 ( 复交 ) 产生的后代群体,如图 9-26所示 。
2009-7-27 40
③ 遗传标记的染色体定位:
常用的染色体定位方法有单体分析、三体分析、代换系与附加系分析等方法,
依据染色体剂量的差异,将遗传标记定位在特定的染色体上,即当供体材料总
DNA等量时,DNA杂交带的信号强弱与该标记位于的染色体剂量成正比。
2009-7-27 41
③ 遗传标记的染色体定位
如水稻的初级三体是 2n=24+1,12个初级三体系分别代表着 12条不同的染色体,
当一个标记与 DNA含量相等的 12个三体系总 DNA杂交时,其中有一个三体系的 DNA
杂交带强度高于其他三体系,因此,该标记就位于高强度杂交带三体系所代表的染色体上 。
2009-7-27 42
④ 标记间的连锁分析:
通过分析分离群里内双亲间有多态性的遗传标记间的连锁交换情况和趋于协同分离的程度,即可确定标记间的连锁关系和遗传距离 。
2009-7-27 43
(二)理图谱的构建物
1,物理图谱的构建原因
2,物理图谱的构建途径
3,人类基因组物理图谱
2009-7-27 44
1,物理图谱的构建原因
前面介绍了遗传图谱的构建,为什么还要构建物理图谱呢?主要有以下两个原因。
( 1)遗传图谱的分辨率有限。
( 2)遗传图谱的精确性不高。
2009-7-27 45
( 1)遗传图谱的分辨率有限。
对于低等生物来说,因可重复进行多次杂交、测交,在短期内可产生大量群体,
可以得到大量重组交换的子代群体用于分析,因而可以构建高密度的遗传图谱,
每个标记之间相距不远。例如,1990年在大肠杆菌基因组计划启动时,其基因图谱上已有 1400个标记,每个标记平均只有 3.3kb,所以可直接据遗传图谱开始测序工作,不必再进行物理图谱的构建。
2009-7-27 46
( 1)遗传图谱的分辨率有限。
同样,酵母菌基因组计划也是在一个精细遗传图谱基础上开始的 ( 1150个标记,每个标记
10kb) 。 而对于像人类及其他高等真核生物来说,不可能得到大量子代群体,而只能分析一定数量的来自减数分裂的群体,使连锁分析受到限制 。 尽管人类基因组遗传图谱的密度达到每个标记 599kb,但这离计划的每个标记 100kb
的目标仍有较大的差距,因此有必要采用非遗传学途径,绘制基因组图谱 。
2009-7-27 47
( 2)遗传图谱的精确性不高。
现在已经知道,在减数分裂同源染色体之间发生的交换重组,并不是在真个染色体上随机发生的,在染色体上有一些重组热点( recombinant hotspot),其发生重组的频率高于其他位点,从而影响到重组热点邻近区段遗传图谱的准确性。这在 1992年酵母菌第 Ⅲ 染色体的核苷酸序列全部测序后,就得到了证实。
2009-7-27 48
( 2)遗传图谱的精确性不高。
比较酵母菌第 Ⅲ 染色体的遗传图谱和物理图谱,即可发现经遗传分析绘制的图谱,同染色体上实际 DNA序列的位置有较大差异,有的甚至还有基因顺序的误差 。
在真核生物中,酵母菌和果蝇的基因组曾被广泛用于遗传图谱的构建,如果这种遗传图谱都具有准确性问题,而那些未经广泛分析验证的生物遗传图谱的准确性就可想而知了 。
2009-7-27 49
2.物理图谱的构建途径
基因组物理图谱的构建不需要经过减数分裂的世代群体,可以直接利用 DNA分子分析,只要有以下 3种不同途径 。
( 1)限制性酶图谱。
( 2)荧光原位杂交。
( 3)序列标签位点。
2009-7-27 50
( 1)限制性酶图谱。
利用限制性内切酶绘制图谱对于 DNA分子长度在 50kb以下的片段,一般没有什么困难 。 而对于大于 50kb的 DNA分子,可选用稀有切点的内切酶酶切 DNA。
① 用识别较多核苷酸的内切酶,如 NotⅠ 。
理论上,8个核苷酸的酶切位点出现的频率是 48=65536bp,大大低于 6个核苷酸的酶切位点 ( 46=4094) 出现的频率 。
2009-7-27 51
② 选用其酶切位点在基因组中出现频率低的内切酶 。 如在人类基因组中,有一种 5’-CG-3’的序列,其出现的频率极低,
因为人类基因组中的甲基化酶常使胞嘧啶甲基化,形成的 C5’-甲基化不稳定,
很容易脱氨而变成胸腺嘧啶,结果在人类进化中,5’-CG-3’转变成 5’-TG-3’,使人类基因组中很少出现 5’-CG-3’序列 。
2009-7-27 52
如果用 SmaⅠ (5’-CCCGGG-3’)酶切 DNA,每
78kb才有一个切点;如果用 BssHⅡ (5’-
GCGCGC-3’)酶切,每 390kb有一个切点;
用 NotⅠ (5’-GCGCGCGC-3’)时,每 10Mb有一个切点 。 利用这类酶切的特点,可以提高限制性酶的应用范围 。
2009-7-27 53
( 2)荧光原位杂交。
荧光原位杂交技术 ( fluorescent in
situ hybridization,FISH) 是另一种物理图谱构建方法 。 它通过荧光标记探针与 DNA分子杂交,使染色体上的杂交信号在显微镜下可直接观察 。 原位杂交中的探针可用荧光或同位素标记 。 染色体上出现杂交信号的位置,就是探针 DNA在染色体上图谱位点 。
2009-7-27 54
方法是取处于有丝分裂中期的细胞制片,
将染色体变性成单链,再将标记的 DNA探针变性后加到染色体上,保温及处理后记录结果 。 在 FISH中,一个克隆的 DNA片段就可作为杂交的探针 。
2009-7-27 55
( 3)序列标签位点。
利用某一已知序列为标签的位点
(sequence tagged site,STS)作探针,
与基因组 DNA杂交,绘制物理图谱 。 作为
STS,需要具备两个条件,一是其序列是已知的,以便用 PCR检测;二是在基因组中仅一个位点,没有重复 。 目前广泛使用的 STS有以下两大类型,每一类型中又有几种 。
2009-7-27 56
① 特异 DNA序列 ;
A.表达的序列标签 (expressed sequence
tag,EST),表达的序列来自 cDNA,一些
cDNA的短片段测序后可作为 EST。
B.SSLP也可用于物理图谱的构建 。 可据遗传图谱中的 SSLP标记,再用于物理图谱构建,进而比较和相互验证 。
2009-7-27 57
C.DNA随机片段,可随机选择 DNA片段,
测序后经分析比较,如果不是重复序列,
也可作为 STS。
2009-7-27 58
② DNA片段:利用 DNA片段作为图谱标记的又可分为两种不同类型;辐射杂交系及克隆连续序列。
2009-7-27 59
A.辐射杂交系:辐射杂交系( radiation
hybrid)是指啮齿动物细胞含有另一个生物的染色体片段的细胞株,这类似植物中的异附加系。细胞遗传学研究表明,
用 3000~8000rdX射线处理后,人类染色体会出现随机断裂,再将处理的细胞与正常的仓鼠或其他啮齿动物细胞相融合,
断裂的人工染色体可与仓鼠染色体融合,
并随其复制。
2009-7-27 60
A.辐射杂交系:辐射杂交系( radiation
hybrid)是指啮齿动物细胞含有另一个生物的染色体片段的细胞株,这类似植物中的异附加系。细胞遗传学研究表明,
用 3000~8000rdX射线处理后,人类染色体会出现随机断裂,再将处理的细胞与正常的仓鼠或其他啮齿动物细胞相融合,
断裂的人工染色体可与仓鼠染色体融合,
并随其复制。
2009-7-27 61
利用这种方式,产生了一系列带有不同人类染色体的辐射杂交系 。 这种杂交系可携带人类染色体片段,长度在 5~10Mb,
以这种方式构成的一套杂交系称为辐射杂交系库 ( radiation hybrid panel) 。
2009-7-27 62
利用 100个人类基因组辐射后与仓鼠细胞融合形成的辐射杂交系,就可进行人类基因组物理图谱的构建 。 现在已有标准化的人类基因组辐射杂交系,供世界各国科学家使用,从而不同实验室的图谱结果,可以直接比较,这种辐射杂交系也用在其他动物 ( 如鸡 ) 的物理图谱构建中 。
2009-7-27 63
B,克隆的 DNA片段序列:利用 YAC或 BAC
克隆的 DNA,测序后也可作为分子标记 。
不同克隆的序列测定后,可分析他们之间的重叠序列,使各克隆的序列连接起来,这样装配起来的序列作为 STS标记应用,直接定位在染色体上 。 其中也可能包括 SSLP标记 。
2009-7-27 64
3.人类基因组物理图谱
在人类基因组计划开始序列测定时,已有 45万个 EST,其中一些重复序列,经计算机分析筛选后,得到 49625个,每一个代表一个基因。然后再从中选出 3万个
EST,两个辐射杂交系库(分别有 83个和
93个细胞株),一个具有 32000个克隆的
YAC库(平均长度 1Mb),用于分析构建图谱。
2009-7-27 65
结果表明,共有 20104个 EST可定位在基因组中,其中 19000个的图谱位置可用一个辐射杂交系库或两个库分析所证实,其余 EST用 YAC
库确定图谱位置。最后将 20104个 EST定位在人类基因组的 16354个不同能够位点(有些
EST来自同一基因而使位点数降低),所构建的物理图谱分子标记的密度是每个标记 183kb,
这与最初计划的目标 100kb的密度十分接近。
2009-7-27 66
EST是表达的基因序列,由此构建的物理图谱还可以表明在染色体不同位置的基因密度 。 从构建的物理图谱可见,基因在染色体上不是均匀分布的,每一条染色体都有一段基因密集区和非密集区,
而且有些染色体上基因密度相对较低 。
2009-7-27 67
将上述遗传图谱及其物理图谱整合后,
构成更加完整的人类基因组图谱,作为基因组序列测定的框架和分析的依据 。
2009-7-27 68
二、基因图谱的应用
一张基因组图在很多方面十分类似于我们熟知的交通地图 。 如果将特定的染色体比作是编了号的告诉公路的话,位于特定染色体上的基因则有如城市和城市里的街区 。 要有效快捷地到达目的地,
最好办法是有一张好的交通地图 。 因此,
高密度的基因组图谱在基础研究和应用研究方面都具有广泛的应用价值 。
2009-7-27 69
基因组图谱中除了如前所述按构建方法分为遗传图谱和物理图谱外,还刊物依其所用的标记类型不同分为不同的称谓。
如 RFLP连锁图,即利用 RFLP标记构建的图谱。此外还有 RAPD图谱,AFLP0图谱等。
2009-7-27 70
迄今为止,已构建了基因组图谱的植物达 30多种,其中农作物有:莴苣,马铃薯,胡椒,水稻,玉米,番茄,小扁豆,
油菜,大麦,棉花,大豆等 。 正在构建基因组图谱的植物也有 30多种,有些植物的基因组图谱已趋于饱和 。 基因组图谱除了用于基因组序列测定外,还主要用于以下几个方面 。
2009-7-27 71
(一)基因定位
(二)基因组比较分析
(三)标记辅助选择( marker-assisted
selection,MAS)
(四)基因的克隆和分离
2009-7-27 72
(一)基因定位
借助基因组图谱,可使基因定位在精度,速度,
广度等方面有极大的提高,已陆续在各种农作物上定位了许多重要农艺性状和经济性状的基因,如抗病基因,抗虫基因,耐逆性基因,高含油量基因,早熟基因,光周期敏感基因,雄性不育恢复基因,矮杠基因等 。 在复杂的数量性 状 基 因 位 点 ( quantitative trait
loci,QTL) 定位分析方面,也取得了很大进展 。
2009-7-27 73
(二)基因组比较分析
已经在禾本科的玉米、水稻、高粱、大麦小麦和黑麦,茄科的番茄、胡椒、马铃薯,十字花科的拟南芥、甘蓝、花椰菜、油菜等做了遗传图谱比较分析,从分子水平了解物种间的同源性,研究基因组的进化和染色体的演变。
2009-7-27 74
(三)标记辅助选择( marker-
assisted selection,MAS)
( 三 ) 饱和的基因组图谱至少可以用来确定与任何一个目的基因紧密连锁的分子标记,从而根据图谱间接选择目的基因,可以降低连锁累赘,大大加速目的基因的转移与利用,提高回交育种的效率 。 此外,标记辅助选择有助于克服轮回选择过程中早期选择的盲目性 。
2009-7-27 75
(四)基因的克隆和分离
根据饱和的基因组图谱,可以找到一个与目的基因紧密连锁的分子标记,作为染色体步行( chromosome walking)的起始点,进行基因的克隆和分离,此法又称图位克隆法( map-based cloning),为基因产物未知的基因克隆提供了捷径。
2009-7-27 76
三、后基因组学
后基因组学 ( post-genomics) 是在完成基因组图谱构建以及全部序列测定的基础上,进一步研究全基因组的基因功能,
基因之间的相互关系和调控机制为主要内容的学科 。
2009-7-27 77
目前人类基因组计划已测定了人类基因组序列中 85%以上的核苷酸序列,将计划完成全序列测定的时间从 2005年提前到
2003年 。 但是,要分析构成基因组中的各个基因的功能,弄清楚共有多少基因表达,何时表达,受什么因子控制等,
将比序列测定本身要复杂得多,需要的时间也长的多 。 有人估计还得花几十年甚至上百年时间才能完成这一工作 。
2009-7-27 78
从 1996年酵母菌基因组全序列测定以后的 4年多时间里,全世界已有 1000多个实验室,5000多名科学家从事酵母菌后基因组学的研究,共发表论文 7000多篇,
鉴定 1060个新基因的功能,但仍然还有约 1600个阅读框架的功能不清楚 。 这些结果充分说明后基因组学研究的复杂性 。
2009-7-27 79
后基因组学主要利用 DNA微列阵技术,蛋白质组学,酵母菌双杂交系统以及生物信息学等技术相结合,对已知的基因组序列进行研究 。
2009-7-27 80
(一) DNA微列阵
(二)蛋白质组学
(三)酵母菌双杂交系统
(四)生物信息学
2009-7-27 81
(一) DNA微列阵
DNA微列阵( DNA microarray)就是利用 DNA芯片技术,同时进行大量分子杂交,以分析比较不同组织或器官的基因表达水平,筛选突变基因,从核酸水平分析基因表达模式。这是后基因组学研究中的重要方法之一。
2009-7-27 82
(二)蛋白质组学
蛋白质组学( proteomics)是从蛋白质水平来研究基因组的基因表达,分析基因组的蛋白质类型、数量、空间结构变异以及相互作用的机制。蛋白质组学的英文全称是由蛋白质英文的前一部分
( prote)与基因组英文名的后一部分
( omics)组合而成,蛋白质组学也是以基因组为单位进行研究的。
2009-7-27 83
如在,基因调控,一节所述,有些基因不表达形成蛋白质,或表达成蛋白质后要经过修饰加工才有活性。 DNA的一段线状结构与二级结构的功能通常差异不大,而线状多肽链必须折叠成一定的三维空间构型才能成为有功能的蛋白质。
2009-7-27 84
同一种蛋白质可能因经历不同的加工修饰而具有不同的功能。因此生物的蛋白质多样性要大大高于基因数目。例如,据估计人类基因组共有约 3.5万个基因,而可能高达 2000万种不同的蛋白质。因此,蛋白质组学比基因组学更为复杂。在蛋白质分析中,目前主要利用奥佛诺
( O’Farrel,1975)发明的据蛋白质的等电点和分子量分析蛋白质的双向电泳技术,来分析蛋白质组( proteome),这也是迄今为止分辨率最高的蛋白质分析技术。
2009-7-27 85
这一技术现已发展为将 pH梯度整合到丙烯酰胺基质中,成为固定 pH梯度,这一改进比过去用安福林作为等电聚焦的 pH
梯度要好,使实验重复性大大提高 。 随着方法的不断发展,尤其是将双向电泳与计算机技术,以及扫描成乡技术结合,
使其检测灵敏度不断提高,用途更加广泛 。
2009-7-27 86
(三)酵母菌双杂交系统
酵母菌双杂交系统( two hybrid system)
是利用在酵母菌的同一细胞中共同表达不同蛋白质,以鉴定蛋白质之间相互作用的一种分析方法。这是目前用于鉴定真核生物蛋白质互作(除膜蛋白以外)
的最好体系。
2009-7-27 87
如前所述,真核生物的基因表达受到转录因子控制,转录因子必须与启动子区域的 DNA结合,
并激活 RNA聚合酶转录。转录因子的这种与
DNA结合及激活转录这两个功能,分别是由两个不同区域( domain)完成的,而且将有些转录因子的这两部分分割成两个片段后,它们仍可以互作,并装配成一个完整有功能的转录因子。正是基于这一特点,设计出酵母菌杂交系统。
2009-7-27 88
在双杂交系统中,当报告基因(作为检测信号的基因,如 β -半乳糖苷酶基因)
缺少转录因子的一部分时,它总是处于关闭状态。将酵母菌因子的 DNA结合区域以及 RNA聚合酶激活区域分开,分别克隆。
2009-7-27 89
再将 DNA结合区域与待分析的目的基因序列(即分析其蛋白质是否与其他蛋白质互作的基因,其蛋白质用 A表示)构建成融合蛋白。同时将 RNA聚合酶激活区域也与另一组 DNA序列的混合体连接,
构建成许多不同融合蛋白分子(用蛋白质 X表示,假设蛋白质 X和 A均是人类蛋白质)。
2009-7-27 90
再将构建的这两种类型的融合蛋白质分子混合后共转化酵母菌细胞,,有些共转化的酵母菌会含有两个融合蛋白质分子,一个带有 DNA结合区域及待测的目的基因序列,另一个具有 RNA聚合酶激活区域及其他未知的 DNA序列。
2009-7-27 91
如果这两个基因的产物能够互作,DNA
结合区域 —— 蛋白质 A融合蛋白与报告基因启动子结合后,另一个能与蛋白质 A互作的融合分子就会与蛋白质 A靠近,从而将 RNA聚合酶激活区域带到 DNA结合区域一起,形成一个完整有功能的转录因子,起始转录报告基因,使报告基因表达,形成的菌落具有可鉴别的表型。
2009-7-27 92
这样,与 RNA聚合酶激活区域融合在一起的蛋白质,就是与蛋白质 A互作的蛋白质 。
如果细胞中没有与蛋白质 A结合的蛋白质,
RNA聚合酶激活区域就不会被带到报告基因的启动子区域与 DNA结合区域结合,报告基因就不能转录,而不能表达 。 通过这种方式,就可鉴别出与人类蛋白质 A互作的蛋白质 。
2009-7-27 93
(四)生物信息学
生物信息学 ( bioinformatics) 是利用计算机贮存原始资料,分析生物信息,
将 DNA芯片以及蛋白质双向电泳结果转变成为可读的遗传学信息的学科 。 生物信息学是将现代生物技术与计算机科学结合,收集,加工和处理生物资料 。 具体来说,它是将数学,统计学,计算机方法结合起来,用于综合,分类,分析和阐述生物信息的科学 。
2009-7-27 94
生物信息学被认为是在为了生命科学中起关键作用的学科之一。以生物信息学为工具,人类可以将不同基因组的理论及应用研究结果综合并标准化,生物信息研究人员可以利用大量电子信息资料,
来了解生物遗传网络系统、信号传递及相互关系,可以利用计算机模拟蛋白质分子的三维结构,人工合成新的蛋白质以及创建新的生命形态。
2009-7-27 95
从微生物,植物,以及人类基因组的序列测定产生的大量资料需要分析,生物信息学的利用,对于这些研究结果的分析及弄清它们的遗传信息具有极其关键的作用 。 因此,在 21世纪,以生物基因组为对象的研究必将得到更快的发展,
而生物信息学对于利用和阐述生物信息将具有不可替代的作用 。
第十三章 基因组学
一、基因图谱的构建
二、基因图谱的应用
三、后基因组学
2009-7-27 2
基因组学( genomics)是遗传学研究进入分子水平后发展起来的一个分支,只要研究生物体全基因组( genome)的分子特征。一个物种的单倍体的染色体数目称为该物种的基因组或染色体组,它包含了该物种自身的所有基因。不同物种的基因组大小差异极大,表 9-2列举了几种生物的基因组大小。
2009-7-27 3
基因组学强调的是以基因组为单位,而不是以单个基因为单位作为研究对象,
因此,基因组学的研究目标是认识基因组的结构,功能及进化,弄清基因组包含的遗传物质的全部信息及相互关系,
为最终充分合理地利用各种有效资源,
为预防和治疗人类遗传疾病提供科学依据 。
2009-7-27 4
基因组学的重要组成部分是基因组计划
( genome project),大体上可以分为:
① 构建基因组的遗传图谱 ( genetic map) ;
② 构建基因组的物理图谱 ( physical map) ;
③ 测定基因组 DNA的全部序列;
④ 构建基因组的转录本图谱;
⑤ 分析基因组的功能 。
2009-7-27 5
基因组计划研究开始于 1990年,美国国立卫生研究院( National Institutes of Health,
NIH)和能源部 (Department of Energy,DOE)
联合启动了被誉为,人体阿波罗计划,的,人类基因组计划,( human genome
project,HGP),预计投资 30亿美元,历时 15
年,将测定构成人类基因组的 30亿个核苷酸对的排列次序,构建高分辨率的人类基因组遗传图谱、人类基因组物理图谱,发展新实验技术、
研究系统和仪器设备,发展生物信息学。
2009-7-27 6
1996年,构 建了 每 个 标 记的 密 度 为
0.6Mb(1Mb=1× 106bp)的人类基因组遗传图谱,0.1Mb的物理图谱 。 2000年完成了人类基因组草图的构建,并已测定基因组的大量核苷酸序列,这些研究成果使人们深信,人类将在不远的将来会彻底揭示人类自身的全部遗传信息 。
2009-7-27 7
在美国提出人类基因组计划后,英、法、日、
俄罗斯和一些发展中国家不甘落后,也相继启动了类似的研究项目。如日本于 1991年 4月提出了与 HGP同等重要的,水稻基因组计划,
( rice genome project,RGP),1991年 10月正式实施。通过该计划,将绘制出水稻所有 12
条染色体的遗传图谱,并对全部 cDNA进行序列分析、组织特异性表达和基因功能研究。
2009-7-27 8
该计划正开展着广泛的国内国际合作研究,已构建成较为饱和的遗传图谱,构建了 YAC和 cosmid克隆的染色体物理图谱,
完成了数组不同组织器官的 cDNA文库 。
又如 1992年 8月,中国根据国情正式宣布实施自己的,水稻基因组研究计划,,
并于 2001年完成了水稻基因组物理图谱的构建 。
2009-7-27 9
由于以人类为对象的研究实际上受到诸多限制,也受伦理学的约束,所以人类基因组计划还将对有关的模式生物如酵母、线虫、果蝇、小鼠、家猪、拟南芥等进行相应的研究,为研究人类基因组的战略提供了重要的依据。
2009-7-27 10
目前已有多种模式生物的基因组序列已全部测定 。 在真核生物中,有酵母,线虫,果蝇,拟南芥 。 还有水稻基因组全序列已接近完成 。 在原核生物中,有大肠杆菌等 10多种生物的基因组序列也已经测定 。 人们预计,随着新技术和系统的不断发展,人类将测定更多基因组的全部序列 。
2009-7-27 11
一、基因组图谱的构建
人类基因组计划中,最终要测定人的基因组中核苷酸的全部排列顺序。而利用现有的 DNA测序方法,每个测序反应通常只能得到 800个核苷酸的序列,这就意味着要用很多 DNA小片段的序列,才能装配、连接构成完整的连续 DNA分子。 ]
2009-7-27 12
鸟枪射击法( shotgun)是许多小基因组序列测定中通常采用的途径(图 9-25),
利用构建的基因库直接测序,根据片段之间的重复序列,就可以连接成完整的基因组 DNA。但是随着 DNA片段数的增加,最后对各片段序列的分析连接会变得越来越复杂。
2009-7-27 13
例如当 DNA片段数为 n时,各片段之间可能的重复数将达到 2n2-2n。。 另外,若基因组中含有相同或相似的重复序列,
在构建,装配连续 DNA分子时就容易出现错误,会将来源不同区段的 DNA片段连接在一起 。 因此,仅用鸟枪射击法不适用于大基因组序列测定 。
2009-7-27 14
在进行大规模序列测定之前,构建基因组图谱是测定但是基因组全部核苷酸序列的重要一环 。
基因组图谱可作为序列测定中制定测序方案的依据,以便先重后轻地分析基因,锚定测知的核酸序列在染色体上的位置 。 因此,在人类基因组计划实施过程中,首先用了 6年时间构建高密度的基因组图谱,然后才进入测序工作 。
有了基因组图谱之后,基因组序列测定可用下列两种方法结合进行:
2009-7-27 15
A:克隆连续序列法 ( clone contig),
将基因组 DNA切割长度为 0.1Mb~1Mb的大片段,克隆到 YAC或 BAC载体上,分别测定单个克隆的序列,再装配,连接成连续的 DNA分子 。
2009-7-27 16
B,定 向 鸟 枪 射 击 法 ( directed
shotgun),以基因组图谱中的标记为依据,测序,装配和构建不同 DNA片段的序列 。
根据基因组图谱构建的途径,可分为基因组遗传图谱构建和物理图谱构建两种 。
2009-7-27 17
遗传图谱的构建是根据任一遗传性状
(如已知的多型性基因位点、功能未知的 DNA标记、可鉴别的表现性状)的分离比例,将其定位在基因组中。因此,
遗传图谱是据等位基因在减数分裂中的重组频率,来确定其在基因组中的顺序和相对距离的。
2009-7-27 18
物理图谱的构建不需要检测等位基因的差异,它既可以利用具有多型性的标记,
也可利用没有多型性的标记进行图谱构建,它将标记直接定位在基因组中某一位点 。 实际上这两种途径都需要利用分子遗传学的技术和方法 。 尽管两种图谱是分别构建的,但它们可以相互借鉴,
互为补充,作为基因组图谱利用 。
2009-7-27 19
(一)图谱的构建
1.图谱标记
2.遗传图谱的构建
2009-7-27 20
1.图谱标记
图谱构建中需要可以鉴别的标记
( marker),在构建遗传图谱中,可用基因和 DNA作为标记。
( 1) 基因标记。
( 2) DNA标记。
2009-7-27 21
( 1)基因标记。
基因控制性状的表现,所以也就是利用可以鉴别的形态、生化等表型性状作标记,这与前述的连锁交换中介绍的方法一样。遗传学中最早建立的果蝇连锁图,
就是利用控制果蝇眼睛的一些基因作为标记,分析各基因间的连锁关系及遗传距离,绘制出连锁遗传图谱。这些基本原理和方法,仍在现在的基因组遗传图谱构建中广泛应用。
2009-7-27 22
( 2) DNA标记。
基因是非常有用的标记,但并不十分理想 。 在高等真核生物中,根据基因绘制的遗传图谱都不太详细,每个标记之间相距很远 。 例如,经过半个多世纪的研究,到 1985年,水稻基因组的遗传图谱也仅具有 119个基因 。 另外对于一些复等位基因位点,也很难全部鉴定标记出来 。
因此遗传图谱构建中还需要其他标记 。 DNA可作为构建遗传图谱的标记,可有以下 3种类型 。
2009-7-27 23
① 限制性内切酶多型性:若在,基因工程,一节所述,限制性内切酶能识别饿切割特异核苷酸序列,DNA序列能或不能被某一酶酶切,实际上相当于一对等位基因的差异。
2009-7-27 24
如有两个 DNA分子,一个具有某一酶的酶切位点,而一个没有这个位点,酶切后形成的 DNA片段长度就有差异,即多型性
( RFLP) (图 9-20)。 根据这一等位基因的遗传,可将 RFLP作为标记,定位在基因组中某一位置上 。 这同用基因标记的方法一样 。 据分析,人类基因组中有
105RFLP位点,每一位点只有两个等位基因 。
2009-7-27 25
但是,用限制性酶酶切基因组 DNA后,会产生很多 DNA片段 。 例如,用识别 6个核苷酸的
EcoRI( 表 9-1) 酶切的 DNA,理论上它可以在每隔 4096bp(46)切割 DNA分子,这样,人类基因组就会有 75万个 DNA片段,所以内切酶酶切要结合 Southern杂交分析,用特异的杂交探针来检测差异,或用 PCR方法,扩增包括 RFLP的 DNA
片段,在琼脂糖凝胶电泳中检测等位基因的差异 。
2009-7-27 26
② 简单序列长度多型性:
简单序列长度多型性( simple sequence
length polymorphism,SSLP)是一些长度不等的重复序列。与 RFLP不同的是,
SSLP可有多个等位基因位点,SSLP又可分为两种,
2009-7-27 27
(a)多次重复序列 (variable number of
tandem repeat,VNTP),也称为微随体
( minisatellite)。这种重复序列长度为几十个核苷酸。
2009-7-27 28
(b) 简 单 重 复 序 列 ( simple tandem
repeat,STP ) 又 称 为 小 随 体
( microsatellite) 。 这种重复序列短,
常只有 2个,3个或 4个核苷酸重复单位
( 如一个基因具有 TCTGAGAGACGC,另一个等位基因具有 TCTGAGAGAGAGACGC) 。
2009-7-27 29
利用 STR作为标记比用 VNTR的更多,这是因为 VNTR主要集中在染色体末端,而 STR
分布在整个基因组中 。 利用 PCR检测小于
300bp的 DNA片段的速度快,准确度也高 。
VNTR的长度通常灾 00bp以上 。 将 PCR产物电泳,可直接观察等位基因之间的差异 。
2009-7-27 30
③ 单核苷酸多型性:
核苷酸多型性( single nucleotide
polymorphism,SNP)是基因中的点突变,
存在的数量多,其中有些可产生 RFLP,
但多数突变不是发生在酶切位点。据估计,人类基因组的编码基因只能感有 20
万个 SNPs,在非编码区的数目可能还要多 10倍以上。这种标记也只有两种等位基因。
2009-7-27 31
由于 SNPs数目大,可用寡聚核苷酸分子杂交法直接检测,例如,利用 DNA芯片技术将不同寡聚核苷酸固定在芯片上,标记待测 DNA,一次就可测得很多 SNPs标记。也可用特异等位基因动力学杂交方法( dynamic allele-specific
hybridization,DASH)检测。这种方法是利用液体杂交法检测,即在酶标偶联反应
( ELISA)板的 96个孔中进行杂交,再用一种只与双链 DNA结合的荧光染料检测。
2009-7-27 32
只有当两条 DNA分子完全互补配对,形成双链 DNA时才有信号 。 这种方法还可通过控制不同复性温度,来鉴别不同等位基因 。
2009-7-27 33
2.遗传图谱的构建
( 1)人类基因组遗传图谱的构建。
( 2)植物基因组遗传图谱的构建。
2009-7-27 34
( 1)人类基因组遗传图谱的构建。
人类的遗传图谱是利用家系分析法,在对 8个家系的 134个成员的分析中 ( 186个减数分裂 ),
主要根据 5264个 STR标记绘制而成的 。 因为 STR
在每一百万个碱基中总有几个位点,而且每一个 STR具有多个等位基因位点 。 利用这些家系的资料绘制第 1至 22号染色体与扑 。 对于 X染色体图谱,还利用了来自另外 12个家系,170个成员 ( 105个减数分裂 ) 的资料绘制而成 。
2009-7-27 35
最后,将 5264个标记定位在 2335个位点,
因为其中有些标记相距很近而作为一个位点,所以位点数小于标记数目 。 据此构建的人类基因组遗传图谱的密度为每个标记 599kb。 这个图谱密度比预期的每个标记 1000kb要好得多 。
2009-7-27 36
( 2)植物基因组遗传图谱的构建。
在利用前述图谱标记的原理和方法构建植物遗传图谱时,根据植物材料及其遗传特点,在具体的实验中又结合了植物遗传分析和植物育种的一些方法和材料,
所以植物遗传图谱的构建常可按以下步骤进行 。
2009-7-27 37
① 选择亲本:
②产生构图群体:
③遗传标记的染色体定位
④标记间的连锁分析:
2009-7-27 38
① 选择亲本:
选择亲本理论上要求亲缘关系远,遗传差异性大的品种或材料做亲本,但又不能相差太大以致引起子代不育。利用形态、同工酶,DNA标记对备选材料进行多态性(差异性)检测,综合测定结果,
选择出有一定量多态性的一对或几对材料作为构图亲本。
2009-7-27 39
② 产生构图群体:
用选好的亲本材料配制杂交组合,建立分离群体,如单交组合产生的 F2代或由其衍生的 F3,F4家系,或者由连续多代自 交 或 姊 妹 交 产 生 的 重 组 近 交 系
( recombinantinbred line,RIL),也可以利用回交或三交 ( 复交 ) 产生的后代群体,如图 9-26所示 。
2009-7-27 40
③ 遗传标记的染色体定位:
常用的染色体定位方法有单体分析、三体分析、代换系与附加系分析等方法,
依据染色体剂量的差异,将遗传标记定位在特定的染色体上,即当供体材料总
DNA等量时,DNA杂交带的信号强弱与该标记位于的染色体剂量成正比。
2009-7-27 41
③ 遗传标记的染色体定位
如水稻的初级三体是 2n=24+1,12个初级三体系分别代表着 12条不同的染色体,
当一个标记与 DNA含量相等的 12个三体系总 DNA杂交时,其中有一个三体系的 DNA
杂交带强度高于其他三体系,因此,该标记就位于高强度杂交带三体系所代表的染色体上 。
2009-7-27 42
④ 标记间的连锁分析:
通过分析分离群里内双亲间有多态性的遗传标记间的连锁交换情况和趋于协同分离的程度,即可确定标记间的连锁关系和遗传距离 。
2009-7-27 43
(二)理图谱的构建物
1,物理图谱的构建原因
2,物理图谱的构建途径
3,人类基因组物理图谱
2009-7-27 44
1,物理图谱的构建原因
前面介绍了遗传图谱的构建,为什么还要构建物理图谱呢?主要有以下两个原因。
( 1)遗传图谱的分辨率有限。
( 2)遗传图谱的精确性不高。
2009-7-27 45
( 1)遗传图谱的分辨率有限。
对于低等生物来说,因可重复进行多次杂交、测交,在短期内可产生大量群体,
可以得到大量重组交换的子代群体用于分析,因而可以构建高密度的遗传图谱,
每个标记之间相距不远。例如,1990年在大肠杆菌基因组计划启动时,其基因图谱上已有 1400个标记,每个标记平均只有 3.3kb,所以可直接据遗传图谱开始测序工作,不必再进行物理图谱的构建。
2009-7-27 46
( 1)遗传图谱的分辨率有限。
同样,酵母菌基因组计划也是在一个精细遗传图谱基础上开始的 ( 1150个标记,每个标记
10kb) 。 而对于像人类及其他高等真核生物来说,不可能得到大量子代群体,而只能分析一定数量的来自减数分裂的群体,使连锁分析受到限制 。 尽管人类基因组遗传图谱的密度达到每个标记 599kb,但这离计划的每个标记 100kb
的目标仍有较大的差距,因此有必要采用非遗传学途径,绘制基因组图谱 。
2009-7-27 47
( 2)遗传图谱的精确性不高。
现在已经知道,在减数分裂同源染色体之间发生的交换重组,并不是在真个染色体上随机发生的,在染色体上有一些重组热点( recombinant hotspot),其发生重组的频率高于其他位点,从而影响到重组热点邻近区段遗传图谱的准确性。这在 1992年酵母菌第 Ⅲ 染色体的核苷酸序列全部测序后,就得到了证实。
2009-7-27 48
( 2)遗传图谱的精确性不高。
比较酵母菌第 Ⅲ 染色体的遗传图谱和物理图谱,即可发现经遗传分析绘制的图谱,同染色体上实际 DNA序列的位置有较大差异,有的甚至还有基因顺序的误差 。
在真核生物中,酵母菌和果蝇的基因组曾被广泛用于遗传图谱的构建,如果这种遗传图谱都具有准确性问题,而那些未经广泛分析验证的生物遗传图谱的准确性就可想而知了 。
2009-7-27 49
2.物理图谱的构建途径
基因组物理图谱的构建不需要经过减数分裂的世代群体,可以直接利用 DNA分子分析,只要有以下 3种不同途径 。
( 1)限制性酶图谱。
( 2)荧光原位杂交。
( 3)序列标签位点。
2009-7-27 50
( 1)限制性酶图谱。
利用限制性内切酶绘制图谱对于 DNA分子长度在 50kb以下的片段,一般没有什么困难 。 而对于大于 50kb的 DNA分子,可选用稀有切点的内切酶酶切 DNA。
① 用识别较多核苷酸的内切酶,如 NotⅠ 。
理论上,8个核苷酸的酶切位点出现的频率是 48=65536bp,大大低于 6个核苷酸的酶切位点 ( 46=4094) 出现的频率 。
2009-7-27 51
② 选用其酶切位点在基因组中出现频率低的内切酶 。 如在人类基因组中,有一种 5’-CG-3’的序列,其出现的频率极低,
因为人类基因组中的甲基化酶常使胞嘧啶甲基化,形成的 C5’-甲基化不稳定,
很容易脱氨而变成胸腺嘧啶,结果在人类进化中,5’-CG-3’转变成 5’-TG-3’,使人类基因组中很少出现 5’-CG-3’序列 。
2009-7-27 52
如果用 SmaⅠ (5’-CCCGGG-3’)酶切 DNA,每
78kb才有一个切点;如果用 BssHⅡ (5’-
GCGCGC-3’)酶切,每 390kb有一个切点;
用 NotⅠ (5’-GCGCGCGC-3’)时,每 10Mb有一个切点 。 利用这类酶切的特点,可以提高限制性酶的应用范围 。
2009-7-27 53
( 2)荧光原位杂交。
荧光原位杂交技术 ( fluorescent in
situ hybridization,FISH) 是另一种物理图谱构建方法 。 它通过荧光标记探针与 DNA分子杂交,使染色体上的杂交信号在显微镜下可直接观察 。 原位杂交中的探针可用荧光或同位素标记 。 染色体上出现杂交信号的位置,就是探针 DNA在染色体上图谱位点 。
2009-7-27 54
方法是取处于有丝分裂中期的细胞制片,
将染色体变性成单链,再将标记的 DNA探针变性后加到染色体上,保温及处理后记录结果 。 在 FISH中,一个克隆的 DNA片段就可作为杂交的探针 。
2009-7-27 55
( 3)序列标签位点。
利用某一已知序列为标签的位点
(sequence tagged site,STS)作探针,
与基因组 DNA杂交,绘制物理图谱 。 作为
STS,需要具备两个条件,一是其序列是已知的,以便用 PCR检测;二是在基因组中仅一个位点,没有重复 。 目前广泛使用的 STS有以下两大类型,每一类型中又有几种 。
2009-7-27 56
① 特异 DNA序列 ;
A.表达的序列标签 (expressed sequence
tag,EST),表达的序列来自 cDNA,一些
cDNA的短片段测序后可作为 EST。
B.SSLP也可用于物理图谱的构建 。 可据遗传图谱中的 SSLP标记,再用于物理图谱构建,进而比较和相互验证 。
2009-7-27 57
C.DNA随机片段,可随机选择 DNA片段,
测序后经分析比较,如果不是重复序列,
也可作为 STS。
2009-7-27 58
② DNA片段:利用 DNA片段作为图谱标记的又可分为两种不同类型;辐射杂交系及克隆连续序列。
2009-7-27 59
A.辐射杂交系:辐射杂交系( radiation
hybrid)是指啮齿动物细胞含有另一个生物的染色体片段的细胞株,这类似植物中的异附加系。细胞遗传学研究表明,
用 3000~8000rdX射线处理后,人类染色体会出现随机断裂,再将处理的细胞与正常的仓鼠或其他啮齿动物细胞相融合,
断裂的人工染色体可与仓鼠染色体融合,
并随其复制。
2009-7-27 60
A.辐射杂交系:辐射杂交系( radiation
hybrid)是指啮齿动物细胞含有另一个生物的染色体片段的细胞株,这类似植物中的异附加系。细胞遗传学研究表明,
用 3000~8000rdX射线处理后,人类染色体会出现随机断裂,再将处理的细胞与正常的仓鼠或其他啮齿动物细胞相融合,
断裂的人工染色体可与仓鼠染色体融合,
并随其复制。
2009-7-27 61
利用这种方式,产生了一系列带有不同人类染色体的辐射杂交系 。 这种杂交系可携带人类染色体片段,长度在 5~10Mb,
以这种方式构成的一套杂交系称为辐射杂交系库 ( radiation hybrid panel) 。
2009-7-27 62
利用 100个人类基因组辐射后与仓鼠细胞融合形成的辐射杂交系,就可进行人类基因组物理图谱的构建 。 现在已有标准化的人类基因组辐射杂交系,供世界各国科学家使用,从而不同实验室的图谱结果,可以直接比较,这种辐射杂交系也用在其他动物 ( 如鸡 ) 的物理图谱构建中 。
2009-7-27 63
B,克隆的 DNA片段序列:利用 YAC或 BAC
克隆的 DNA,测序后也可作为分子标记 。
不同克隆的序列测定后,可分析他们之间的重叠序列,使各克隆的序列连接起来,这样装配起来的序列作为 STS标记应用,直接定位在染色体上 。 其中也可能包括 SSLP标记 。
2009-7-27 64
3.人类基因组物理图谱
在人类基因组计划开始序列测定时,已有 45万个 EST,其中一些重复序列,经计算机分析筛选后,得到 49625个,每一个代表一个基因。然后再从中选出 3万个
EST,两个辐射杂交系库(分别有 83个和
93个细胞株),一个具有 32000个克隆的
YAC库(平均长度 1Mb),用于分析构建图谱。
2009-7-27 65
结果表明,共有 20104个 EST可定位在基因组中,其中 19000个的图谱位置可用一个辐射杂交系库或两个库分析所证实,其余 EST用 YAC
库确定图谱位置。最后将 20104个 EST定位在人类基因组的 16354个不同能够位点(有些
EST来自同一基因而使位点数降低),所构建的物理图谱分子标记的密度是每个标记 183kb,
这与最初计划的目标 100kb的密度十分接近。
2009-7-27 66
EST是表达的基因序列,由此构建的物理图谱还可以表明在染色体不同位置的基因密度 。 从构建的物理图谱可见,基因在染色体上不是均匀分布的,每一条染色体都有一段基因密集区和非密集区,
而且有些染色体上基因密度相对较低 。
2009-7-27 67
将上述遗传图谱及其物理图谱整合后,
构成更加完整的人类基因组图谱,作为基因组序列测定的框架和分析的依据 。
2009-7-27 68
二、基因图谱的应用
一张基因组图在很多方面十分类似于我们熟知的交通地图 。 如果将特定的染色体比作是编了号的告诉公路的话,位于特定染色体上的基因则有如城市和城市里的街区 。 要有效快捷地到达目的地,
最好办法是有一张好的交通地图 。 因此,
高密度的基因组图谱在基础研究和应用研究方面都具有广泛的应用价值 。
2009-7-27 69
基因组图谱中除了如前所述按构建方法分为遗传图谱和物理图谱外,还刊物依其所用的标记类型不同分为不同的称谓。
如 RFLP连锁图,即利用 RFLP标记构建的图谱。此外还有 RAPD图谱,AFLP0图谱等。
2009-7-27 70
迄今为止,已构建了基因组图谱的植物达 30多种,其中农作物有:莴苣,马铃薯,胡椒,水稻,玉米,番茄,小扁豆,
油菜,大麦,棉花,大豆等 。 正在构建基因组图谱的植物也有 30多种,有些植物的基因组图谱已趋于饱和 。 基因组图谱除了用于基因组序列测定外,还主要用于以下几个方面 。
2009-7-27 71
(一)基因定位
(二)基因组比较分析
(三)标记辅助选择( marker-assisted
selection,MAS)
(四)基因的克隆和分离
2009-7-27 72
(一)基因定位
借助基因组图谱,可使基因定位在精度,速度,
广度等方面有极大的提高,已陆续在各种农作物上定位了许多重要农艺性状和经济性状的基因,如抗病基因,抗虫基因,耐逆性基因,高含油量基因,早熟基因,光周期敏感基因,雄性不育恢复基因,矮杠基因等 。 在复杂的数量性 状 基 因 位 点 ( quantitative trait
loci,QTL) 定位分析方面,也取得了很大进展 。
2009-7-27 73
(二)基因组比较分析
已经在禾本科的玉米、水稻、高粱、大麦小麦和黑麦,茄科的番茄、胡椒、马铃薯,十字花科的拟南芥、甘蓝、花椰菜、油菜等做了遗传图谱比较分析,从分子水平了解物种间的同源性,研究基因组的进化和染色体的演变。
2009-7-27 74
(三)标记辅助选择( marker-
assisted selection,MAS)
( 三 ) 饱和的基因组图谱至少可以用来确定与任何一个目的基因紧密连锁的分子标记,从而根据图谱间接选择目的基因,可以降低连锁累赘,大大加速目的基因的转移与利用,提高回交育种的效率 。 此外,标记辅助选择有助于克服轮回选择过程中早期选择的盲目性 。
2009-7-27 75
(四)基因的克隆和分离
根据饱和的基因组图谱,可以找到一个与目的基因紧密连锁的分子标记,作为染色体步行( chromosome walking)的起始点,进行基因的克隆和分离,此法又称图位克隆法( map-based cloning),为基因产物未知的基因克隆提供了捷径。
2009-7-27 76
三、后基因组学
后基因组学 ( post-genomics) 是在完成基因组图谱构建以及全部序列测定的基础上,进一步研究全基因组的基因功能,
基因之间的相互关系和调控机制为主要内容的学科 。
2009-7-27 77
目前人类基因组计划已测定了人类基因组序列中 85%以上的核苷酸序列,将计划完成全序列测定的时间从 2005年提前到
2003年 。 但是,要分析构成基因组中的各个基因的功能,弄清楚共有多少基因表达,何时表达,受什么因子控制等,
将比序列测定本身要复杂得多,需要的时间也长的多 。 有人估计还得花几十年甚至上百年时间才能完成这一工作 。
2009-7-27 78
从 1996年酵母菌基因组全序列测定以后的 4年多时间里,全世界已有 1000多个实验室,5000多名科学家从事酵母菌后基因组学的研究,共发表论文 7000多篇,
鉴定 1060个新基因的功能,但仍然还有约 1600个阅读框架的功能不清楚 。 这些结果充分说明后基因组学研究的复杂性 。
2009-7-27 79
后基因组学主要利用 DNA微列阵技术,蛋白质组学,酵母菌双杂交系统以及生物信息学等技术相结合,对已知的基因组序列进行研究 。
2009-7-27 80
(一) DNA微列阵
(二)蛋白质组学
(三)酵母菌双杂交系统
(四)生物信息学
2009-7-27 81
(一) DNA微列阵
DNA微列阵( DNA microarray)就是利用 DNA芯片技术,同时进行大量分子杂交,以分析比较不同组织或器官的基因表达水平,筛选突变基因,从核酸水平分析基因表达模式。这是后基因组学研究中的重要方法之一。
2009-7-27 82
(二)蛋白质组学
蛋白质组学( proteomics)是从蛋白质水平来研究基因组的基因表达,分析基因组的蛋白质类型、数量、空间结构变异以及相互作用的机制。蛋白质组学的英文全称是由蛋白质英文的前一部分
( prote)与基因组英文名的后一部分
( omics)组合而成,蛋白质组学也是以基因组为单位进行研究的。
2009-7-27 83
如在,基因调控,一节所述,有些基因不表达形成蛋白质,或表达成蛋白质后要经过修饰加工才有活性。 DNA的一段线状结构与二级结构的功能通常差异不大,而线状多肽链必须折叠成一定的三维空间构型才能成为有功能的蛋白质。
2009-7-27 84
同一种蛋白质可能因经历不同的加工修饰而具有不同的功能。因此生物的蛋白质多样性要大大高于基因数目。例如,据估计人类基因组共有约 3.5万个基因,而可能高达 2000万种不同的蛋白质。因此,蛋白质组学比基因组学更为复杂。在蛋白质分析中,目前主要利用奥佛诺
( O’Farrel,1975)发明的据蛋白质的等电点和分子量分析蛋白质的双向电泳技术,来分析蛋白质组( proteome),这也是迄今为止分辨率最高的蛋白质分析技术。
2009-7-27 85
这一技术现已发展为将 pH梯度整合到丙烯酰胺基质中,成为固定 pH梯度,这一改进比过去用安福林作为等电聚焦的 pH
梯度要好,使实验重复性大大提高 。 随着方法的不断发展,尤其是将双向电泳与计算机技术,以及扫描成乡技术结合,
使其检测灵敏度不断提高,用途更加广泛 。
2009-7-27 86
(三)酵母菌双杂交系统
酵母菌双杂交系统( two hybrid system)
是利用在酵母菌的同一细胞中共同表达不同蛋白质,以鉴定蛋白质之间相互作用的一种分析方法。这是目前用于鉴定真核生物蛋白质互作(除膜蛋白以外)
的最好体系。
2009-7-27 87
如前所述,真核生物的基因表达受到转录因子控制,转录因子必须与启动子区域的 DNA结合,
并激活 RNA聚合酶转录。转录因子的这种与
DNA结合及激活转录这两个功能,分别是由两个不同区域( domain)完成的,而且将有些转录因子的这两部分分割成两个片段后,它们仍可以互作,并装配成一个完整有功能的转录因子。正是基于这一特点,设计出酵母菌杂交系统。
2009-7-27 88
在双杂交系统中,当报告基因(作为检测信号的基因,如 β -半乳糖苷酶基因)
缺少转录因子的一部分时,它总是处于关闭状态。将酵母菌因子的 DNA结合区域以及 RNA聚合酶激活区域分开,分别克隆。
2009-7-27 89
再将 DNA结合区域与待分析的目的基因序列(即分析其蛋白质是否与其他蛋白质互作的基因,其蛋白质用 A表示)构建成融合蛋白。同时将 RNA聚合酶激活区域也与另一组 DNA序列的混合体连接,
构建成许多不同融合蛋白分子(用蛋白质 X表示,假设蛋白质 X和 A均是人类蛋白质)。
2009-7-27 90
再将构建的这两种类型的融合蛋白质分子混合后共转化酵母菌细胞,,有些共转化的酵母菌会含有两个融合蛋白质分子,一个带有 DNA结合区域及待测的目的基因序列,另一个具有 RNA聚合酶激活区域及其他未知的 DNA序列。
2009-7-27 91
如果这两个基因的产物能够互作,DNA
结合区域 —— 蛋白质 A融合蛋白与报告基因启动子结合后,另一个能与蛋白质 A互作的融合分子就会与蛋白质 A靠近,从而将 RNA聚合酶激活区域带到 DNA结合区域一起,形成一个完整有功能的转录因子,起始转录报告基因,使报告基因表达,形成的菌落具有可鉴别的表型。
2009-7-27 92
这样,与 RNA聚合酶激活区域融合在一起的蛋白质,就是与蛋白质 A互作的蛋白质 。
如果细胞中没有与蛋白质 A结合的蛋白质,
RNA聚合酶激活区域就不会被带到报告基因的启动子区域与 DNA结合区域结合,报告基因就不能转录,而不能表达 。 通过这种方式,就可鉴别出与人类蛋白质 A互作的蛋白质 。
2009-7-27 93
(四)生物信息学
生物信息学 ( bioinformatics) 是利用计算机贮存原始资料,分析生物信息,
将 DNA芯片以及蛋白质双向电泳结果转变成为可读的遗传学信息的学科 。 生物信息学是将现代生物技术与计算机科学结合,收集,加工和处理生物资料 。 具体来说,它是将数学,统计学,计算机方法结合起来,用于综合,分类,分析和阐述生物信息的科学 。
2009-7-27 94
生物信息学被认为是在为了生命科学中起关键作用的学科之一。以生物信息学为工具,人类可以将不同基因组的理论及应用研究结果综合并标准化,生物信息研究人员可以利用大量电子信息资料,
来了解生物遗传网络系统、信号传递及相互关系,可以利用计算机模拟蛋白质分子的三维结构,人工合成新的蛋白质以及创建新的生命形态。
2009-7-27 95
从微生物,植物,以及人类基因组的序列测定产生的大量资料需要分析,生物信息学的利用,对于这些研究结果的分析及弄清它们的遗传信息具有极其关键的作用 。 因此,在 21世纪,以生物基因组为对象的研究必将得到更快的发展,
而生物信息学对于利用和阐述生物信息将具有不可替代的作用 。