第九讲 基因组与比较基因组学
研究
? 一、人工染色体构建
? 二、新的测序策略 --全基因组鸟枪法测序
? 三、全基因组序列分析 --基因组学的新内容
? 四、比较基因组学 (Comparative
genomics)
一、人工染色体构建
1983年,美国的 Dana-Farber癌症研究所和
哈佛大学医学院的教授首次在 Nature上发表文章,
报道了构建 YAC( Yeast Artificial Chromosome)
库的过程。 1987年,Burke等人发现,仅仅带有
ARS序列的载体虽然能够被复制,但极易在有丝
分裂时丢失。即使在选择培养基上,也只有 5%-
20%的子代细胞带有 ARS载体。加入
Centromeres ( CEN)能显著提高 ARS质粒在有
丝分裂时的稳定性,90%以上子代细胞带有该载
体。 CEN还能显著降低拷贝数,从 20-50/细胞降
为 1-2/细胞。( Science,236:806-812)。
人工染色体含有三种必需成分:着丝粒、端粒和复
制起点。
? 着丝粒 (CEN)位于染色体中央,呈纽扣状结构,
在有丝分裂时结合微管并调控染色体的运动,也
是姐妹染色单体配对时的最后位点,接收细胞信
号而使姐妹染色体分开。
? 端粒( TEL):主要功能是防止染色体融合、降
解、确保其完整复制。端粒酶以其自身 RNA为模
板,在染色体端部添加上端粒重复序列,并参与
端粒长度和细胞增殖的调控。
? 复制起点,DNA复制通常由起始蛋白与特定的
DNA序列相互作用开始。 DNA合成的起始位点和
DNA复制起点 (遗传位点 )所需的 Cis靶区常位于同
一段长约 100bp的 DNA上。
? YAC的主要缺点
1.存在高比例的嵌合体,即一个 YAC克隆
含有两个本来不相连的独立片段;
2.部分克隆子不稳定,在转代培养中可能
会发生缺失或重排;
3.难与酵母染色体区分开,因为 YAC与酵
母染色体具有相似的结构。
4.操作时容易发生染色体机械切割。
? 以细 菌寄主系统为基础的克隆载体形成嵌合体的频率较低,
转化效率高,又易于分离。科学家用 "染色体建造 "法用 F质
粒及其调控基因构建细菌载体,克隆大片段 DNA。该质粒
主要包括 oriS,repE(控制 F质粒复制)和 parA,parB
(控制拷贝数)等成分。
BAC的优点
1,易于用电击法转化 E.coli(转化效率比转化酵
母高 10-100倍);
2,超螺旋环状载体,易于操作;
3,F'质粒本身所带的基因控制了质粒的复制;
4,很少发生体内重排。
有人把人类染色体端粒 DNA上单个 α-卫星 DNA
单元多聚化形成 1Mb左右的大片段并与人类基因
组 DNA混合,产生了能被复制、能正常分裂并得
到长期稳定保存的人工合成的染色体,长度约为
6-10Mb,称为 MAC或 HAC。
二,新的测序策略 --全基因组鸟枪法测序
对某基因组文库全部克隆片段进行末端序列
测定中未测到的碱基数,即缺口 (gap),与已测定
的总碱基数相关。随着已测定碱基数的增加,缺
口的总碱基数目会按照泊松公式的一个推论
( P=e-m)迅速减小。其中 P为基因组中某个碱基
未被测定的概率,m为所测定的碱基数与基因组
大小相比的倍数。 m越大 P值越小。当 m值达到 5
(即随机测定的碱基数达到基因组 5倍时),基因
组中未测定的碱基数为基因组总碱基数的
0.67%(e-5=0.0067)。对流感嗜血杆菌这样大的基
因组 (1.83Mb),可能留有 128个平均长度为 100bp
的缺口。
? 全基因组鸟枪法测序的主要步骤是:
第一,建立高度随机、插入片段大小为 2kb左右的基因
组文库。克隆数要达到一定数量,即经末端测序的克隆片
段的碱基总数应达到基因组 5倍以上。
第二,高效、大规模的末端测序。对文库中每一个克
隆,进行两端测序,TIGR在完成流感嗜血杆菌的基因组
时,使用了 14台测序仪,用三个月时间完成了必需的
28,463个测序反应,测序总长度达 6倍基因组。
第三,序列集合。 TIGR发展了新的软件,修改了序列
集合规则以最大限度地排除错误的连锁匹配。
第四,填补缺口。有两种待填补的缺口,一是没有相
应模板 DNA的物理缺口,二是有模板 DNA但未测序的序列
缺口。他们建立了插入片段为 15-20kb的 λ文库以备缺口填
补。
? 鸟枪法测序的缺点
随着所测基因组总量增大,所需测序的片段大量增加,各
个片段重叠或一个连续体的概率是 2n2-2n
高等真核生物(如人类)基因组中有大量重复序列,导致
判断失误。
? 对鸟枪法的改进
(1) Clone contig法。
首先用稀有内切酶
把待测基因组降解
为数百 kb以上的片
段,再分别测序。
(2) 靶标鸟枪法
(direted shotgun)。
首先根据染色体上
已知基因和标记的
位置来确定部分
DNA片段的相对位
置,再逐步缩小各
片段之间的缺口。
? SSLPs,simple sequence length polymorphisms;
? STRs,simple tandem repeats;
? SNPs,single nucleotide polymorphisms.
? LINEs,long interspersed nuclear elements;
? SINEs,short interspersed nuclear elements;
? LTR,long terminal repeat.
? FISH,Fluorescent in situ Hybridization;
? STS,Sequence Tagged Site
STS一般为 100-500bp的 DNA片段,只在整个
genome或染色体中出现 1次。
? EST,End Sequence Tag.
三、全基因组序列分析 --基因组学的新内容
1.数据存放。
2.碱基百分含量分析。无论是 GC富含区还是 AT富
含区,都可能是一些特殊功能的区域。
肺炎支原体 GC百分含量高和 GC百分含量低的区域
对应于重组值较低的区域,包括着丝粒和端粒,而
尿殖道支原体 GC百分含量最低的区域对应于 rRNA
和 tRNA。流感嗜血杆菌 GC百分含量高的区域也对
应于 6个 rRNA基因。
3.ORF分析。首先要用多个不同的软件来要找到并
估测基因组中的每一个 ORF。
通过比较确知其功能的;
在数据库中有相匹配的蛋白质序列,但不知其能
的;
在数据库中找不到任何相匹配蛋白质序列的新基
因。
? 1995年,J.C,Venter所领导的 TIGR( The Institute
of Genomic Reseach)完成了第一个单细胞自由生
物基因组,流感嗜血杆菌 (Haemopophilus
influenzae Rd)全序列测定。
? 1996年他们又完成了拥有最小基因组的单细胞生物
尿殖道支原体 (Mycoplasma genitalium)和一种不同
于原核、真核生物的单细胞生物 --产甲烷古细菌
(Methanococcus jannaschi) 的全序列测定。
? 德国人则测定了肺炎支原体 (Mycoplasma
pneumoniae)基因组全序列。
? 与此同时,历时七年 (1989-1996年 )的第一个
真核生物酿酒酵母 (Saccharomyces
cevevisiae)基因组计划在欧共体及美、日、
加、英等各国实验室共同努力下得以完成。
? 1997年大肠杆菌 (Escherichia,Coli S)的基因
组计划完成,美丽隐杆线虫 (caenothabditis
elegans)的基因组计划也于 1998年完成。
最受瞩目的人类基因组计划 (HGP,Human
GenomeProject)也于 2000年底前完成。
(1)通过流感嗜血杆菌能量代谢类群的 ORF分析,了解
到在这种生物中缺乏三羧酸循环 (TCA)中必需的三
个酶,即柠檬酸合成酶基因、异柠檬酸脱氢酶基因
和顺乌头酸酶基因。由此推断流感嗜血杆菌 TCA缺
失,不能合成谷氨酸,因为谷氨酸的供体是 TCA的
中间产生物 α-酮戊二酸。
(2)在尿殖道支原体基因组中有一个称为 MgPa的 ORF。
考察全基因组,共发现有 9个与 MgPa同源的重复序
列,这些重复序列之间发生重组可能诱导尿殖道支
原体群体中抗原性改变,帮助细菌逃避宿主免疫攻
击。
四、比较基因组学 (Comparative genomics)
尿殖道支原体是已知最小的基因组,由此可能
确定能自我复制的细胞必需的一套最少的核心基因。
流感嗜血杆菌的基因组为 1.83Mb,而尿殖道支原体
的基因组只有 0.58Mb,二者相差 3倍多,那么,基
因组大小影响了基因数目还是基因尺度?
流感嗜血杆菌基因大小平均 900bp,尿殖道支
原体的基因为 1040bp,基因大小差不多;流感嗜
血杆菌中平均 1042bp 有 1个基因,尿殖道支原体中
平均 1235bp 有 1个基因。 可见基因组尺度减小并
不引起基因密度的增加和基因本身尺寸的减小。二
者差别在于基因数量上,流感嗜血杆菌基因组有
1743个 ORF,而尿殖道支原体只有 470个 ORF。
? 通过对尿殖道支原体与流感嗜血杆菌这两个亲缘关
系较远的生物基因组的比较,选取其共同的基因
(共 240个),再加上一些其他基因,最后组成一
套含 256个基因的最小基因组。
? 古细菌产甲烷球菌与原核生物有着共同的染色体组
织与结构,如环状基因组、基因的操纵子结构等,
其能量产生和固氮基因与原核生物也有很高的同源
性。该基因组中与细胞分裂有关的蛋白质及 20多个
编码无机离子运输蛋白的 ORF与细菌基因同源,而
且其调控模式也类似于原核生物。然而,产甲烷球
菌在细胞遗传信息传递,尤其是转录和翻译系统,
以及分泌系统方面与真核生物同源,说明该细菌与
真核生物亲缘关系较近。
? 比较基因组学提供的结果表明,在进化系统
树上,古细菌与真核生物亲缘关系比原核生
物更近。在自养生物的三个分支,细菌、古
细菌和真核生物中,细菌的分化发生较早。
表 6.6 E.coli,Haemophilus influenzae和 Mycoplasma genitalium基因组中的基因分类
分 类 基 因 数E,coli H,influenzae M,genitalium
总 ORF数 4288 1727 470
氨基酸合成 131 68 1
辅基等的合成 103 54 5
核苷酸合成 58 53 19
细胞膜合成与装配 237 84 17
能量代谢 243 112 31
中合物代谢 188 30 6
脂肪代谢 48 25 6
DNA复制、重组和修
复 115 87 32
蛋白质结构 9 6 7
调控蛋白 178 64 7
转录 55 27 12
翻译 182 141 101
吸收与转运 427 123 34
? 最简单的真核生物 --酿酒酵母基因组
单细胞真核生物酿酒酵母基因组为 12,068kb,
比单细胞的原核生物和古细菌大一个数量级。酿酒
酵母基因组共有 5887个 ORF,这比原核生物和古细
菌要多很多。酿酒酵母的基因密度为 1个基因 /2kb,
密度小于原核生物流感嗜血杆菌和尿殖道支原体等。
酿酒酵母是最小的真核基因组,裂殖酵母其次,
其密度是 1/2.3kb,简单多细胞生物线虫的基因密度
为 1/30kb。第二、酿酒酵母只有 4%的编码基因有内
含子,而裂殖酵母则有 40%编码基因有内含子。
? 人类基因组中有多少基因 5-15万,大约 80000左右。
推测依据有三条:
1,根据已测定大片段 DNA中 ORF的比例;
2,CpG island的个数( 56%的已知基因 5'都与 CpG相连,而
人基因组中有 45000个 Islands)
3,ESTs。
? 已经报道的是第 22染色体和第 21染色体。第 21染色体全长
33.65Mb,长臂上有 33.546Mb,仍有 7个缺口,长约 3kb,
99.7%。
The DNA sequence of human chromosome 22,
Nature 402,489-495(1999),
The DNA sequence of human chromosome 21,
Nature 405,311-319(2000),
21q上有 127个已知基因,98个推测的基因 59个 pseudo
genes。 Chromosome22中有 545个编码基因
第 21+22染色体共占 2%的人类总 DNA,共有 770%基因
Nature,406,151-157
? 苏格兰爱丁堡罗斯林研究所用来自乳腺的细
胞,使它们饥饿,迫使大多数基因进入非活
化状态,与受体细胞周期相匹配。将这些乳
腺细胞核转移到去核的卵细胞内,某些未知
因子使 6岁细胞的非活化 DNA重返过去,指导
卵细胞发育成羊。在 227个这样的卵细胞中,
只有一个形成了健康的活体:多利羊。
? 果蝇基因组全长 180mb,2/3 euchromatio,1/3是
hetrochromatin,WGS定位 3114.8mb,Blast
Search确定有 14113个转录产物(功能基因)。
Science,287:2185-2195 (2000)
? 拟南芥基因组
Nature
408:796-815
(2000)
全长 125mb,
5条染色体,
25,498个转录
产物。
? X-inactivation:
Clerc & Avner,Science (2000) 290,1518-
1519; Eggan et al,Science (2000) 290,
1578-1581
Acetylation:
Schlissel,Science (2000) 287,438-440;
Strahl & Allis,Nature (2000) 403,41-45.
Gene Targetting
Rong & Golic,Science (2000) 288,2013-
2018
研究
? 一、人工染色体构建
? 二、新的测序策略 --全基因组鸟枪法测序
? 三、全基因组序列分析 --基因组学的新内容
? 四、比较基因组学 (Comparative
genomics)
一、人工染色体构建
1983年,美国的 Dana-Farber癌症研究所和
哈佛大学医学院的教授首次在 Nature上发表文章,
报道了构建 YAC( Yeast Artificial Chromosome)
库的过程。 1987年,Burke等人发现,仅仅带有
ARS序列的载体虽然能够被复制,但极易在有丝
分裂时丢失。即使在选择培养基上,也只有 5%-
20%的子代细胞带有 ARS载体。加入
Centromeres ( CEN)能显著提高 ARS质粒在有
丝分裂时的稳定性,90%以上子代细胞带有该载
体。 CEN还能显著降低拷贝数,从 20-50/细胞降
为 1-2/细胞。( Science,236:806-812)。
人工染色体含有三种必需成分:着丝粒、端粒和复
制起点。
? 着丝粒 (CEN)位于染色体中央,呈纽扣状结构,
在有丝分裂时结合微管并调控染色体的运动,也
是姐妹染色单体配对时的最后位点,接收细胞信
号而使姐妹染色体分开。
? 端粒( TEL):主要功能是防止染色体融合、降
解、确保其完整复制。端粒酶以其自身 RNA为模
板,在染色体端部添加上端粒重复序列,并参与
端粒长度和细胞增殖的调控。
? 复制起点,DNA复制通常由起始蛋白与特定的
DNA序列相互作用开始。 DNA合成的起始位点和
DNA复制起点 (遗传位点 )所需的 Cis靶区常位于同
一段长约 100bp的 DNA上。
? YAC的主要缺点
1.存在高比例的嵌合体,即一个 YAC克隆
含有两个本来不相连的独立片段;
2.部分克隆子不稳定,在转代培养中可能
会发生缺失或重排;
3.难与酵母染色体区分开,因为 YAC与酵
母染色体具有相似的结构。
4.操作时容易发生染色体机械切割。
? 以细 菌寄主系统为基础的克隆载体形成嵌合体的频率较低,
转化效率高,又易于分离。科学家用 "染色体建造 "法用 F质
粒及其调控基因构建细菌载体,克隆大片段 DNA。该质粒
主要包括 oriS,repE(控制 F质粒复制)和 parA,parB
(控制拷贝数)等成分。
BAC的优点
1,易于用电击法转化 E.coli(转化效率比转化酵
母高 10-100倍);
2,超螺旋环状载体,易于操作;
3,F'质粒本身所带的基因控制了质粒的复制;
4,很少发生体内重排。
有人把人类染色体端粒 DNA上单个 α-卫星 DNA
单元多聚化形成 1Mb左右的大片段并与人类基因
组 DNA混合,产生了能被复制、能正常分裂并得
到长期稳定保存的人工合成的染色体,长度约为
6-10Mb,称为 MAC或 HAC。
二,新的测序策略 --全基因组鸟枪法测序
对某基因组文库全部克隆片段进行末端序列
测定中未测到的碱基数,即缺口 (gap),与已测定
的总碱基数相关。随着已测定碱基数的增加,缺
口的总碱基数目会按照泊松公式的一个推论
( P=e-m)迅速减小。其中 P为基因组中某个碱基
未被测定的概率,m为所测定的碱基数与基因组
大小相比的倍数。 m越大 P值越小。当 m值达到 5
(即随机测定的碱基数达到基因组 5倍时),基因
组中未测定的碱基数为基因组总碱基数的
0.67%(e-5=0.0067)。对流感嗜血杆菌这样大的基
因组 (1.83Mb),可能留有 128个平均长度为 100bp
的缺口。
? 全基因组鸟枪法测序的主要步骤是:
第一,建立高度随机、插入片段大小为 2kb左右的基因
组文库。克隆数要达到一定数量,即经末端测序的克隆片
段的碱基总数应达到基因组 5倍以上。
第二,高效、大规模的末端测序。对文库中每一个克
隆,进行两端测序,TIGR在完成流感嗜血杆菌的基因组
时,使用了 14台测序仪,用三个月时间完成了必需的
28,463个测序反应,测序总长度达 6倍基因组。
第三,序列集合。 TIGR发展了新的软件,修改了序列
集合规则以最大限度地排除错误的连锁匹配。
第四,填补缺口。有两种待填补的缺口,一是没有相
应模板 DNA的物理缺口,二是有模板 DNA但未测序的序列
缺口。他们建立了插入片段为 15-20kb的 λ文库以备缺口填
补。
? 鸟枪法测序的缺点
随着所测基因组总量增大,所需测序的片段大量增加,各
个片段重叠或一个连续体的概率是 2n2-2n
高等真核生物(如人类)基因组中有大量重复序列,导致
判断失误。
? 对鸟枪法的改进
(1) Clone contig法。
首先用稀有内切酶
把待测基因组降解
为数百 kb以上的片
段,再分别测序。
(2) 靶标鸟枪法
(direted shotgun)。
首先根据染色体上
已知基因和标记的
位置来确定部分
DNA片段的相对位
置,再逐步缩小各
片段之间的缺口。
? SSLPs,simple sequence length polymorphisms;
? STRs,simple tandem repeats;
? SNPs,single nucleotide polymorphisms.
? LINEs,long interspersed nuclear elements;
? SINEs,short interspersed nuclear elements;
? LTR,long terminal repeat.
? FISH,Fluorescent in situ Hybridization;
? STS,Sequence Tagged Site
STS一般为 100-500bp的 DNA片段,只在整个
genome或染色体中出现 1次。
? EST,End Sequence Tag.
三、全基因组序列分析 --基因组学的新内容
1.数据存放。
2.碱基百分含量分析。无论是 GC富含区还是 AT富
含区,都可能是一些特殊功能的区域。
肺炎支原体 GC百分含量高和 GC百分含量低的区域
对应于重组值较低的区域,包括着丝粒和端粒,而
尿殖道支原体 GC百分含量最低的区域对应于 rRNA
和 tRNA。流感嗜血杆菌 GC百分含量高的区域也对
应于 6个 rRNA基因。
3.ORF分析。首先要用多个不同的软件来要找到并
估测基因组中的每一个 ORF。
通过比较确知其功能的;
在数据库中有相匹配的蛋白质序列,但不知其能
的;
在数据库中找不到任何相匹配蛋白质序列的新基
因。
? 1995年,J.C,Venter所领导的 TIGR( The Institute
of Genomic Reseach)完成了第一个单细胞自由生
物基因组,流感嗜血杆菌 (Haemopophilus
influenzae Rd)全序列测定。
? 1996年他们又完成了拥有最小基因组的单细胞生物
尿殖道支原体 (Mycoplasma genitalium)和一种不同
于原核、真核生物的单细胞生物 --产甲烷古细菌
(Methanococcus jannaschi) 的全序列测定。
? 德国人则测定了肺炎支原体 (Mycoplasma
pneumoniae)基因组全序列。
? 与此同时,历时七年 (1989-1996年 )的第一个
真核生物酿酒酵母 (Saccharomyces
cevevisiae)基因组计划在欧共体及美、日、
加、英等各国实验室共同努力下得以完成。
? 1997年大肠杆菌 (Escherichia,Coli S)的基因
组计划完成,美丽隐杆线虫 (caenothabditis
elegans)的基因组计划也于 1998年完成。
最受瞩目的人类基因组计划 (HGP,Human
GenomeProject)也于 2000年底前完成。
(1)通过流感嗜血杆菌能量代谢类群的 ORF分析,了解
到在这种生物中缺乏三羧酸循环 (TCA)中必需的三
个酶,即柠檬酸合成酶基因、异柠檬酸脱氢酶基因
和顺乌头酸酶基因。由此推断流感嗜血杆菌 TCA缺
失,不能合成谷氨酸,因为谷氨酸的供体是 TCA的
中间产生物 α-酮戊二酸。
(2)在尿殖道支原体基因组中有一个称为 MgPa的 ORF。
考察全基因组,共发现有 9个与 MgPa同源的重复序
列,这些重复序列之间发生重组可能诱导尿殖道支
原体群体中抗原性改变,帮助细菌逃避宿主免疫攻
击。
四、比较基因组学 (Comparative genomics)
尿殖道支原体是已知最小的基因组,由此可能
确定能自我复制的细胞必需的一套最少的核心基因。
流感嗜血杆菌的基因组为 1.83Mb,而尿殖道支原体
的基因组只有 0.58Mb,二者相差 3倍多,那么,基
因组大小影响了基因数目还是基因尺度?
流感嗜血杆菌基因大小平均 900bp,尿殖道支
原体的基因为 1040bp,基因大小差不多;流感嗜
血杆菌中平均 1042bp 有 1个基因,尿殖道支原体中
平均 1235bp 有 1个基因。 可见基因组尺度减小并
不引起基因密度的增加和基因本身尺寸的减小。二
者差别在于基因数量上,流感嗜血杆菌基因组有
1743个 ORF,而尿殖道支原体只有 470个 ORF。
? 通过对尿殖道支原体与流感嗜血杆菌这两个亲缘关
系较远的生物基因组的比较,选取其共同的基因
(共 240个),再加上一些其他基因,最后组成一
套含 256个基因的最小基因组。
? 古细菌产甲烷球菌与原核生物有着共同的染色体组
织与结构,如环状基因组、基因的操纵子结构等,
其能量产生和固氮基因与原核生物也有很高的同源
性。该基因组中与细胞分裂有关的蛋白质及 20多个
编码无机离子运输蛋白的 ORF与细菌基因同源,而
且其调控模式也类似于原核生物。然而,产甲烷球
菌在细胞遗传信息传递,尤其是转录和翻译系统,
以及分泌系统方面与真核生物同源,说明该细菌与
真核生物亲缘关系较近。
? 比较基因组学提供的结果表明,在进化系统
树上,古细菌与真核生物亲缘关系比原核生
物更近。在自养生物的三个分支,细菌、古
细菌和真核生物中,细菌的分化发生较早。
表 6.6 E.coli,Haemophilus influenzae和 Mycoplasma genitalium基因组中的基因分类
分 类 基 因 数E,coli H,influenzae M,genitalium
总 ORF数 4288 1727 470
氨基酸合成 131 68 1
辅基等的合成 103 54 5
核苷酸合成 58 53 19
细胞膜合成与装配 237 84 17
能量代谢 243 112 31
中合物代谢 188 30 6
脂肪代谢 48 25 6
DNA复制、重组和修
复 115 87 32
蛋白质结构 9 6 7
调控蛋白 178 64 7
转录 55 27 12
翻译 182 141 101
吸收与转运 427 123 34
? 最简单的真核生物 --酿酒酵母基因组
单细胞真核生物酿酒酵母基因组为 12,068kb,
比单细胞的原核生物和古细菌大一个数量级。酿酒
酵母基因组共有 5887个 ORF,这比原核生物和古细
菌要多很多。酿酒酵母的基因密度为 1个基因 /2kb,
密度小于原核生物流感嗜血杆菌和尿殖道支原体等。
酿酒酵母是最小的真核基因组,裂殖酵母其次,
其密度是 1/2.3kb,简单多细胞生物线虫的基因密度
为 1/30kb。第二、酿酒酵母只有 4%的编码基因有内
含子,而裂殖酵母则有 40%编码基因有内含子。
? 人类基因组中有多少基因 5-15万,大约 80000左右。
推测依据有三条:
1,根据已测定大片段 DNA中 ORF的比例;
2,CpG island的个数( 56%的已知基因 5'都与 CpG相连,而
人基因组中有 45000个 Islands)
3,ESTs。
? 已经报道的是第 22染色体和第 21染色体。第 21染色体全长
33.65Mb,长臂上有 33.546Mb,仍有 7个缺口,长约 3kb,
99.7%。
The DNA sequence of human chromosome 22,
Nature 402,489-495(1999),
The DNA sequence of human chromosome 21,
Nature 405,311-319(2000),
21q上有 127个已知基因,98个推测的基因 59个 pseudo
genes。 Chromosome22中有 545个编码基因
第 21+22染色体共占 2%的人类总 DNA,共有 770%基因
Nature,406,151-157
? 苏格兰爱丁堡罗斯林研究所用来自乳腺的细
胞,使它们饥饿,迫使大多数基因进入非活
化状态,与受体细胞周期相匹配。将这些乳
腺细胞核转移到去核的卵细胞内,某些未知
因子使 6岁细胞的非活化 DNA重返过去,指导
卵细胞发育成羊。在 227个这样的卵细胞中,
只有一个形成了健康的活体:多利羊。
? 果蝇基因组全长 180mb,2/3 euchromatio,1/3是
hetrochromatin,WGS定位 3114.8mb,Blast
Search确定有 14113个转录产物(功能基因)。
Science,287:2185-2195 (2000)
? 拟南芥基因组
Nature
408:796-815
(2000)
全长 125mb,
5条染色体,
25,498个转录
产物。
? X-inactivation:
Clerc & Avner,Science (2000) 290,1518-
1519; Eggan et al,Science (2000) 290,
1578-1581
Acetylation:
Schlissel,Science (2000) 287,438-440;
Strahl & Allis,Nature (2000) 403,41-45.
Gene Targetting
Rong & Golic,Science (2000) 288,2013-
2018