第 7 章 基因组分析
3’ 5’CDS
UTR UTR
本章主要内容
5.1 基因组分析概述
5.2 基因组作图
5.3 比较基因组学
5.4 功能基因组学
5.1 基因组分析概述
Genome一词最早由 H.Winkler于 1920年提出。系
Gene和 Chromosome二词缩并而成。它可被译为
“基因组”或“染色体组” 。后者指全套染色体,
前者指一个生物体、细胞器或病毒的全部基因总和或全部遗传信息总和,这两个译名在早期被当作同义词使用,近年来,前者仅在染色体水平研究中使用。
以基因组分析为手段,研究基因组的结构组成、时序表达模式和功能,并提供有关生物物种及其细胞功能进化信息的一门学科。
Genome
Genomics
基因组学包括三个相互联系的领域:
1.结构基因组学主要涉及从 DNA序列水平上来确定基因组结构,代表着基因组分析的起始阶段,结构图谱指某一有机体的完整的 DNA
序列图谱。
2.功能基因组学利用结构基因组学研究所得到的各种来源的信息,建立与发展各种技术和实验模型来测定基因及基因组非编码序列生物学功能的学科。代表着基因组学的新阶段。
3.比较基因组学主要涉及不同有机体基因组间的比较研究。 是基因组学与生物信息学的一个重要分支。通过模式生物基因组间或模式生物与人类基因组之间,待研究生物与模式生物基因组之间的比较和鉴别,为研究生物进化、基因分离以及预测新基因提供依据。
1.确定基因在染色体上的位置及包含的遗传信息;
2.分析基因之间的联系;
3.分析基因与性状之间的关系;
4.基因的组成结构、表达调控等。
基因组分析的任务,
基因组的特点,
1,不同生物基因组大小不同
2,不同生物基因组组成即 基因在染色体上的分布、编码区与非编码区的相对频率 等不同基因组大小与进化位置无关;
基因数目和基因组大小也不成比例。
3,非编码区不只是基因组的组成部分非编码区 DNA对于 DNA复制和控制特定细胞中基因的表达相当重要 。
非编码区一些序列与某些生长因子、激素受体等特异结合,调节细胞以及胚胎发生期的细胞分化、形态发生和模式形成 。
非编码区在进化方面:包含了碱基组成中的大部分变异,给染色体重组和沉默突变的积累提供了一个“平台”。
~10 000
1,限制性酶切片段长度多态性 (RFLP),
非编码区变异的检测
2,单核苷酸多态性 (Single Nucleotide Polymorphism,SNP),
是指在基因组水平上由单个核苷酸的变异所引起的一种 DNA序列多态性。是人类可遗传的变异中最常见的一种。占所有已知多态性的 90%以上。
SNP在人类基因组中广泛存在,平均每 500~ 1 000个碱基对中就有 1个,估计其总数可达 300万个甚至更多。
SNP多态性只涉及单个碱基变异,可由 转换 (transition)或颠换
(transversion)引起,也可由碱基 插入或缺失 所致。但通常所说的 SNP并不包括后两种情况。
转换型变异的 SNP约占 2/3,多为 C T,
易被甲基化而自发地脱氨基形成 T。
因为 CpG二核苷酸上的 C
cSNP (coding SNP):
位于编码区内的 SNP,分为 2种:同义 cSNP 和非同义 cSNP
同义 cSNP:指 SNP所致的编码序列的改变并不影响其所翻译的蛋白质的氨基酸序列,突变碱基与未突变碱基的含义相同;
非同义 cSNP:指碱基序列的改变可使以其为蓝本翻译的蛋白质序列发生改变,从而影响了蛋白质的功能。这种改变常是导致生物性状改变的直接原因。
特点:
1,数量大,分布密;
2,基因组中分布不均匀,大多数位于非编码区;
3,非同义 cSNP 导致性状改变,对医学诊断、药物开发研究具有重大意义。
SNP(单核苷酸多态性 )
(1) dbSNP (http://www.ncbi.nlm.nih.gov/SNP/),
由美国的 NCBI主办,除了可接受各地发来的 SNP申请注册外,也向公众免费提供对 SNP的查询。
国际上重要的 SNP信息网站有:
(2) HGBASE (http://hgbase.interactiva.de):
该网站建在德国,收集基因内 SNP,研究者可通过检测出的序列查询 SNP。
(4) CHLC (Cooperative Human Linkage Center):
http://gai.nci.nih.gov/CHLC/
(3) MIT SNP数据库
(http://www-genome.wi.mit.edu/SNP/human/index.html):
由美国麻省理工学院建立,包括数千条已经定位的 SNP,可以通过指定染色体的某一区域查询 SNP。
5.2 基因组作图
5.2 基因组作图遗传连锁图谱物理图谱转录图谱序列图谱基因图谱 (gene map) 的类型
1,染色体核型 与 细胞遗传学图谱利用染色体的形态结构特征如着丝粒、疖、随体、
端粒等进行基因的定位而绘制出的图谱。
2,遗传连锁图谱表明两个或两个以上的基因位点间的位置关系和遗传距离的图谱。 也称连锁图谱 (linkage map)或遗传连锁图谱 (genetic linkage map)。
基因图谱 (gene map) 的类型物理图谱把 DNA片段按照实际的物理位置进行排序,通常是指高分辨率的基因组长度片段限制性酶切图谱和重叠克隆图谱,是仅次于基因组测序的染色体精细结构图,
是系统性、大规模基因组测序的必备条件,也是对基因定位、克隆和分析基因组结构的关键工具。
转录图谱也叫“基因图谱”或“基因表达图”,基本含义是鉴别人类目前认识的全部基因,包括编码蛋白质的基因和决定各类 RNA的基因。反映基因在不同条件下的表达情况; 为基因表的绘制提供依据;提供功能基因的标记;为鉴定重要的编码 DNA提供信息等。
基因图谱 (gene map) 的类型序列图谱是基因组计划最实质的内容,是最精密的基因图谱,即它将 DNA序列按照遗传图和物理图的标记,确定在基因组中而组合成完整的染色体序列图谱。
遗传图与物理图遗传图两个或两个以上基因共同遗传的频率相互间在染色体上的位置关系物理图实际物理位置限制性酶切片断作图重复序列克隆图谱
DNA序列
为何要绘制遗传图与物理图?
1)基因组太大,必需分散测序,然后将分散的顺序按原来位置组装,需要图譜进行指导,
3)遗传图和物理图各有优缺点,必须相互整合校正
2)基因组存在大量重复顺序,会干扰排序,因此要高密度基因组图,
基因组路标 (landmarker)
标记 1
标记 2
标记 3
染色体上的 基因 和 DNA顺序 均可作为路标,路标具有 物理属性,他们由特定的 DNA顺序组成,路标位于染色体上的 位置是固定 的,不会更改的,因而提供了作图的 依据目前应用的路标
—— 多态性分子标记
RFLP restriction fragment length polymorphism,限制性片段长度多态性
RAPD random amplified polymorphism DNA随机扩增多态性
AFLP amplified fragment lenth polymorphism扩增片段长度多态性
SSLP simple sequence length polymorphism简单序列长度多态性
SNP single nucleotide polymorphism单核苷酸多态性
SSCP single-strand comformation polymorphism单链构象多态性
简单重复序列 SSR
single sequence repeat
特异序列扩增区域标记 SCAR
Sequence Characterized Amplified
Region)
序列标签位点 STS
sequence-tagged site
最早发现的 DNA分子标记 --RFLP
RFLP的特点
1) 处于染色体上的 位置相对固定 ;
2) 同一亲本及其子代 相同位点 上的多态性片段 特征不变 ;
3) 同一凝胶电泳可显示不同多态性片段,
表现为 共显性,
AFLP(amplified fragment lenth
polymorphism,扩增片段长度多态性 )
1) 这是一种 筛选 RFLP分子标记 的方法,先将
DNA样品采用选定的 限制性内切酶 (如 EcoRI,
Sau3A)消化,然后加上 接头 PCR引物,
2) 接头 PCR引物设计,根据限制酶接头添加数个向外延伸 的碱基,然后 向 3’方向延伸 1-3个不同的碱基,
3) 选择不同的引物对扩放样品 DNA,经 聚丙烯胺凝胶电泳 分离标记的 PCR产物,
AFLP的操作程序系譜分析
SSCP (single-strand comformation
polymorphism)单链构象多态性
1) DNA大分子在非变性凝胶中的泳动速度取决于空间构象及分子量。
2) DNA分子中的碱基变异(即使单个碱基)可导致其空间构象的改变,影响泳动速度。
3) 可将变异的 DNA分子酶切后再进行电泳。
简单序列长度多态性 (simple sequence
length polymorphism,SSLP)
1) 可变排列的简单重复顺序,即重复次数不一,
在染色体的 同一座位重复顺序拷贝数不同 ;
2) SSLP的类型,
小卫星序列 (minisatellite),重复单位较长微卫星序列 (micrisatellite),重复单位较短,
在 1-6个核苷酸之间微卫星序列( SSR)
如何检测 SSR
5.3 比较基因组学比较基因组学也称比较遗传学,包括基因组结构比较和功能比较。
比较基因组分析物种关系物种进化物种起源人、鼠基因组比较人基因组 鼠基因组鼠染色体上的颜色和数字代表在人染色体上对应的片段,
老鼠约 75%的基因与人类相同。
5.4 功能基因组学包括 结构注释 和 功能注释,其中基因组功能注释是 功能基因组学 的主要研究目标。
基因组序列注释结构注释,通过基因组组成元素的寻找来识别、搜寻基因,
也称基因注释。
如确定基因组的 全部编码 区或 ORF
功能注释,
① 用最大相似的 同源基因的功能注释 咨询序列;
②用模体 (MOTIF)搜索,模体往往是功能相关的 保守序列 ;
③ 直系 同源簇 方法,即用 不同种族 的基因成对 相似聚类 法把它们划分成各种 直系同源簇,从而可以用同一簇中的已知基因来注释未知基因;
④以 近缘 物种 EST搜索、注释。
随着人类基因组计划的全面推进和愈来愈多的模式生物基因组全序列测定的完成,
基因组计划的重心已逐渐由结构基因组研究转移到功能基因组上。后基因组时代 (post-
genome era)已经到来,并随之产生了蛋白质组学 (proteomics)这一专门领域。
随着基因组测序和注释工作的逐渐深入,蛋白质组研究开始引起人们的重视。
什么是蛋白质组及蛋白质组学?
蛋白质组( proteome)的概念由澳大利亚的 Marc
Wilkins和 Keith Williams于 1994年提出的。
蛋白质组是指一个基因组中每个基因编码产生的蛋白质的总体,即一个基因组的全部蛋白产物及其表达情况。
蛋白质组与基因组不同,它随组织或环境状态而异;在转录时一个基因能以多种 mRNA形式剪接,
每种形式 mRNA的翻译产物可能不同,且同一蛋白也可能以多种形式进行翻译后的修饰。因而,
一个蛋白质组不是一个基因组的直接产物,蛋白质组中蛋白质的数目有时会超过基因组中基因的数目。
蛋白质组研究也不同于传统的蛋白质化学。蛋白质组研究的对象不是单一的或少数蛋白质,它更强调全面性与整体性。
1、基因表达产物是否或何时被翻译。
2、基因产物的相应含量。
3、翻译后修饰的程度。
4、基因剔除 (knock out)或过表达的影响。
5、遗留的小基因或长度小于 300bp的可读框。
欲深入了解不同生命活动的分子基础,仅靠测定基因组全序列是不够的,还必须开展大规模、全方位的蛋白质研究。
仅靠 DNA序列信息有时很难“胜任”如下工作
基因敲除( gene knock out),是指对一个结构已知但功能未知的基因,从分子水平上设计实验,将该基因去除,或用其它顺序相近基因取代,然后从整体观察实验动物,推测相应基因的功能。这与早期生理学研究中常用的切除部分 -观察整体 -推测功能的三部曲思想相似。
基因敲除除可中止某一基因的表达外,还包括引入新基因及引入定点突变。既可以是用突变基因或其它基因敲除相应的正常基因,也可以用正常基因敲除相应的突变基因。
本章结束
3’ 5’CDS
UTR UTR
本章主要内容
5.1 基因组分析概述
5.2 基因组作图
5.3 比较基因组学
5.4 功能基因组学
5.1 基因组分析概述
Genome一词最早由 H.Winkler于 1920年提出。系
Gene和 Chromosome二词缩并而成。它可被译为
“基因组”或“染色体组” 。后者指全套染色体,
前者指一个生物体、细胞器或病毒的全部基因总和或全部遗传信息总和,这两个译名在早期被当作同义词使用,近年来,前者仅在染色体水平研究中使用。
以基因组分析为手段,研究基因组的结构组成、时序表达模式和功能,并提供有关生物物种及其细胞功能进化信息的一门学科。
Genome
Genomics
基因组学包括三个相互联系的领域:
1.结构基因组学主要涉及从 DNA序列水平上来确定基因组结构,代表着基因组分析的起始阶段,结构图谱指某一有机体的完整的 DNA
序列图谱。
2.功能基因组学利用结构基因组学研究所得到的各种来源的信息,建立与发展各种技术和实验模型来测定基因及基因组非编码序列生物学功能的学科。代表着基因组学的新阶段。
3.比较基因组学主要涉及不同有机体基因组间的比较研究。 是基因组学与生物信息学的一个重要分支。通过模式生物基因组间或模式生物与人类基因组之间,待研究生物与模式生物基因组之间的比较和鉴别,为研究生物进化、基因分离以及预测新基因提供依据。
1.确定基因在染色体上的位置及包含的遗传信息;
2.分析基因之间的联系;
3.分析基因与性状之间的关系;
4.基因的组成结构、表达调控等。
基因组分析的任务,
基因组的特点,
1,不同生物基因组大小不同
2,不同生物基因组组成即 基因在染色体上的分布、编码区与非编码区的相对频率 等不同基因组大小与进化位置无关;
基因数目和基因组大小也不成比例。
3,非编码区不只是基因组的组成部分非编码区 DNA对于 DNA复制和控制特定细胞中基因的表达相当重要 。
非编码区一些序列与某些生长因子、激素受体等特异结合,调节细胞以及胚胎发生期的细胞分化、形态发生和模式形成 。
非编码区在进化方面:包含了碱基组成中的大部分变异,给染色体重组和沉默突变的积累提供了一个“平台”。
~10 000
1,限制性酶切片段长度多态性 (RFLP),
非编码区变异的检测
2,单核苷酸多态性 (Single Nucleotide Polymorphism,SNP),
是指在基因组水平上由单个核苷酸的变异所引起的一种 DNA序列多态性。是人类可遗传的变异中最常见的一种。占所有已知多态性的 90%以上。
SNP在人类基因组中广泛存在,平均每 500~ 1 000个碱基对中就有 1个,估计其总数可达 300万个甚至更多。
SNP多态性只涉及单个碱基变异,可由 转换 (transition)或颠换
(transversion)引起,也可由碱基 插入或缺失 所致。但通常所说的 SNP并不包括后两种情况。
转换型变异的 SNP约占 2/3,多为 C T,
易被甲基化而自发地脱氨基形成 T。
因为 CpG二核苷酸上的 C
cSNP (coding SNP):
位于编码区内的 SNP,分为 2种:同义 cSNP 和非同义 cSNP
同义 cSNP:指 SNP所致的编码序列的改变并不影响其所翻译的蛋白质的氨基酸序列,突变碱基与未突变碱基的含义相同;
非同义 cSNP:指碱基序列的改变可使以其为蓝本翻译的蛋白质序列发生改变,从而影响了蛋白质的功能。这种改变常是导致生物性状改变的直接原因。
特点:
1,数量大,分布密;
2,基因组中分布不均匀,大多数位于非编码区;
3,非同义 cSNP 导致性状改变,对医学诊断、药物开发研究具有重大意义。
SNP(单核苷酸多态性 )
(1) dbSNP (http://www.ncbi.nlm.nih.gov/SNP/),
由美国的 NCBI主办,除了可接受各地发来的 SNP申请注册外,也向公众免费提供对 SNP的查询。
国际上重要的 SNP信息网站有:
(2) HGBASE (http://hgbase.interactiva.de):
该网站建在德国,收集基因内 SNP,研究者可通过检测出的序列查询 SNP。
(4) CHLC (Cooperative Human Linkage Center):
http://gai.nci.nih.gov/CHLC/
(3) MIT SNP数据库
(http://www-genome.wi.mit.edu/SNP/human/index.html):
由美国麻省理工学院建立,包括数千条已经定位的 SNP,可以通过指定染色体的某一区域查询 SNP。
5.2 基因组作图
5.2 基因组作图遗传连锁图谱物理图谱转录图谱序列图谱基因图谱 (gene map) 的类型
1,染色体核型 与 细胞遗传学图谱利用染色体的形态结构特征如着丝粒、疖、随体、
端粒等进行基因的定位而绘制出的图谱。
2,遗传连锁图谱表明两个或两个以上的基因位点间的位置关系和遗传距离的图谱。 也称连锁图谱 (linkage map)或遗传连锁图谱 (genetic linkage map)。
基因图谱 (gene map) 的类型物理图谱把 DNA片段按照实际的物理位置进行排序,通常是指高分辨率的基因组长度片段限制性酶切图谱和重叠克隆图谱,是仅次于基因组测序的染色体精细结构图,
是系统性、大规模基因组测序的必备条件,也是对基因定位、克隆和分析基因组结构的关键工具。
转录图谱也叫“基因图谱”或“基因表达图”,基本含义是鉴别人类目前认识的全部基因,包括编码蛋白质的基因和决定各类 RNA的基因。反映基因在不同条件下的表达情况; 为基因表的绘制提供依据;提供功能基因的标记;为鉴定重要的编码 DNA提供信息等。
基因图谱 (gene map) 的类型序列图谱是基因组计划最实质的内容,是最精密的基因图谱,即它将 DNA序列按照遗传图和物理图的标记,确定在基因组中而组合成完整的染色体序列图谱。
遗传图与物理图遗传图两个或两个以上基因共同遗传的频率相互间在染色体上的位置关系物理图实际物理位置限制性酶切片断作图重复序列克隆图谱
DNA序列
为何要绘制遗传图与物理图?
1)基因组太大,必需分散测序,然后将分散的顺序按原来位置组装,需要图譜进行指导,
3)遗传图和物理图各有优缺点,必须相互整合校正
2)基因组存在大量重复顺序,会干扰排序,因此要高密度基因组图,
基因组路标 (landmarker)
标记 1
标记 2
标记 3
染色体上的 基因 和 DNA顺序 均可作为路标,路标具有 物理属性,他们由特定的 DNA顺序组成,路标位于染色体上的 位置是固定 的,不会更改的,因而提供了作图的 依据目前应用的路标
—— 多态性分子标记
RFLP restriction fragment length polymorphism,限制性片段长度多态性
RAPD random amplified polymorphism DNA随机扩增多态性
AFLP amplified fragment lenth polymorphism扩增片段长度多态性
SSLP simple sequence length polymorphism简单序列长度多态性
SNP single nucleotide polymorphism单核苷酸多态性
SSCP single-strand comformation polymorphism单链构象多态性
简单重复序列 SSR
single sequence repeat
特异序列扩增区域标记 SCAR
Sequence Characterized Amplified
Region)
序列标签位点 STS
sequence-tagged site
最早发现的 DNA分子标记 --RFLP
RFLP的特点
1) 处于染色体上的 位置相对固定 ;
2) 同一亲本及其子代 相同位点 上的多态性片段 特征不变 ;
3) 同一凝胶电泳可显示不同多态性片段,
表现为 共显性,
AFLP(amplified fragment lenth
polymorphism,扩增片段长度多态性 )
1) 这是一种 筛选 RFLP分子标记 的方法,先将
DNA样品采用选定的 限制性内切酶 (如 EcoRI,
Sau3A)消化,然后加上 接头 PCR引物,
2) 接头 PCR引物设计,根据限制酶接头添加数个向外延伸 的碱基,然后 向 3’方向延伸 1-3个不同的碱基,
3) 选择不同的引物对扩放样品 DNA,经 聚丙烯胺凝胶电泳 分离标记的 PCR产物,
AFLP的操作程序系譜分析
SSCP (single-strand comformation
polymorphism)单链构象多态性
1) DNA大分子在非变性凝胶中的泳动速度取决于空间构象及分子量。
2) DNA分子中的碱基变异(即使单个碱基)可导致其空间构象的改变,影响泳动速度。
3) 可将变异的 DNA分子酶切后再进行电泳。
简单序列长度多态性 (simple sequence
length polymorphism,SSLP)
1) 可变排列的简单重复顺序,即重复次数不一,
在染色体的 同一座位重复顺序拷贝数不同 ;
2) SSLP的类型,
小卫星序列 (minisatellite),重复单位较长微卫星序列 (micrisatellite),重复单位较短,
在 1-6个核苷酸之间微卫星序列( SSR)
如何检测 SSR
5.3 比较基因组学比较基因组学也称比较遗传学,包括基因组结构比较和功能比较。
比较基因组分析物种关系物种进化物种起源人、鼠基因组比较人基因组 鼠基因组鼠染色体上的颜色和数字代表在人染色体上对应的片段,
老鼠约 75%的基因与人类相同。
5.4 功能基因组学包括 结构注释 和 功能注释,其中基因组功能注释是 功能基因组学 的主要研究目标。
基因组序列注释结构注释,通过基因组组成元素的寻找来识别、搜寻基因,
也称基因注释。
如确定基因组的 全部编码 区或 ORF
功能注释,
① 用最大相似的 同源基因的功能注释 咨询序列;
②用模体 (MOTIF)搜索,模体往往是功能相关的 保守序列 ;
③ 直系 同源簇 方法,即用 不同种族 的基因成对 相似聚类 法把它们划分成各种 直系同源簇,从而可以用同一簇中的已知基因来注释未知基因;
④以 近缘 物种 EST搜索、注释。
随着人类基因组计划的全面推进和愈来愈多的模式生物基因组全序列测定的完成,
基因组计划的重心已逐渐由结构基因组研究转移到功能基因组上。后基因组时代 (post-
genome era)已经到来,并随之产生了蛋白质组学 (proteomics)这一专门领域。
随着基因组测序和注释工作的逐渐深入,蛋白质组研究开始引起人们的重视。
什么是蛋白质组及蛋白质组学?
蛋白质组( proteome)的概念由澳大利亚的 Marc
Wilkins和 Keith Williams于 1994年提出的。
蛋白质组是指一个基因组中每个基因编码产生的蛋白质的总体,即一个基因组的全部蛋白产物及其表达情况。
蛋白质组与基因组不同,它随组织或环境状态而异;在转录时一个基因能以多种 mRNA形式剪接,
每种形式 mRNA的翻译产物可能不同,且同一蛋白也可能以多种形式进行翻译后的修饰。因而,
一个蛋白质组不是一个基因组的直接产物,蛋白质组中蛋白质的数目有时会超过基因组中基因的数目。
蛋白质组研究也不同于传统的蛋白质化学。蛋白质组研究的对象不是单一的或少数蛋白质,它更强调全面性与整体性。
1、基因表达产物是否或何时被翻译。
2、基因产物的相应含量。
3、翻译后修饰的程度。
4、基因剔除 (knock out)或过表达的影响。
5、遗留的小基因或长度小于 300bp的可读框。
欲深入了解不同生命活动的分子基础,仅靠测定基因组全序列是不够的,还必须开展大规模、全方位的蛋白质研究。
仅靠 DNA序列信息有时很难“胜任”如下工作
基因敲除( gene knock out),是指对一个结构已知但功能未知的基因,从分子水平上设计实验,将该基因去除,或用其它顺序相近基因取代,然后从整体观察实验动物,推测相应基因的功能。这与早期生理学研究中常用的切除部分 -观察整体 -推测功能的三部曲思想相似。
基因敲除除可中止某一基因的表达外,还包括引入新基因及引入定点突变。既可以是用突变基因或其它基因敲除相应的正常基因,也可以用正常基因敲除相应的突变基因。
本章结束