动物基因组学
( Animal Genomics)
第十一章
主要内容
第一节 人类基因组计划
第二节 比较基因组与功能基因组
第三节 生物信息学
第四节 表观遗传学
第五节 分子遗传标记
第一节
人类基因组计划
( Human Genome Project)
人类基因组计划( 1)
* 1990年多国合作小组启动,2001年在 Nature上公布
结果;
*Craig Venter博士采用
散弹法于 Science上发表
结果。
* 人基因组测序的完成
可与人类登月媲美。
人类基因组计划( 2)
* 耗时 10载,耗费 20余亿美圆;
* 基因组大小 30亿碱基;
* 1%为外显子,99%为内含子和重复序列;
* 表达蛋白质的基因组数量约为 3万;
* 约含 100万个 SNP标记。
序列测定方法 1
全基因组鸟枪法:
在一定作图信息基础
上,绕过大片段连续
克隆系的构建而直接
将基因组分解成小片
段随机测序,利用超
级计算机进行组装
(美国 Celera公司)。
序列测定方法 2
人类基因组计划的意义
基因组大小的比较 ( 1)
基因组大小的比较 ( 2)
基因组 ( Genome) 就是指生物体染色体、细胞
器中所含的全套遗传物质 ; 一种生物全部基因的
集合称为“基因组”。
基因组 学 ( Genomics) 就是 研究基因组结构和
功能的科学。
基因组与基因组学
基因组学的分类
基因组学可以分为结构基因组学和功能基因组学 。
对基因组物理结构的作图和测序的研究 称为 结构 基
因组 学;
功能基因组学 是指应用整体的研究技术阐明这些
基因和蛋白的生物学功能,
结构基因组学 功能基因组学
后基因组时代
( Postgenome era)
* 人类基因组计划完成之后,生物学被重新划分为
前基因组和后基因组两部分。
* 科学研究已开始进入“后基因组时代”。主要是
开展蛋白质组的研究。
* 有科学家形象地说道,即使基因测序全部完成,
也只好像是一本没有姓名、只有号码的电话簿。
“后基因组时代”的最终目标,是要把深奥的
DNA语言变成一本基因大百科全书。
第二节
比较基因组与功能基因组
( Comparative Genome & Functional Genome)
遗传图谱, 又称连锁图谱 (linkage map),它是以具有
遗传多态性(在一个遗传位点上具有一个以上的等位基因,
在群体中的出现频率皆高于 1%)的遗传标记为, 路标,,
以遗传学距离(在减数分裂事件中两个位点之间进行交换、
重组的百分率,1%的重组率称为 1cM)为图距的基因组图。
物理图谱, 物理图谱是指有关构成基因组的全部基因的
排列和间距的信息,它是通过对构成基因组的 DNA分子进行
测定而绘制的。绘制物理图谱的目的是把有关基因的遗传
信息及其在每条染色体上的相对位置线性而系统地排列出
来。
遗传图谱与物理图谱
随着遗传图谱和物理图谱的完成,测序就成为重中之重的工作。
DNA序列分析技术是一个包括制备 DNA片段化及碱基分析、
DNA信息翻译的多阶段的过程。通过测序得到基因组的 序列
图谱 。
基因图谱 是在识别基因组所包含的蛋白质编码序列的基础
上绘制的结合有关基因序列、位置及表达模式等信息的图谱。
在人类基因组中鉴别出占具 2%~5%长度的全部基因的位置、
结构与功能,最主要的方法是通过基因的表达产物 mRNA反追
到染色体的位置。
序列图谱与基因图谱
什么是比较基因组学?
利用生物在进化上的亲缘关系,来比较它们与
人类之间的相似与相异,即比较基因组学。
* 蛋白组( Proteome)
蛋白质组 是指, 一种 基因 组所表达的全套蛋白
质, 。
* 蛋白组学( Proteomics)
一门在整体水平上研究细胞内蛋白质的组成及其
活动规律的新兴学科。
* 蛋白组学与功能基因组学息息相关。
蛋白组学与功能基因组学
1.蛋白质分离和鉴定:
2.翻译后修饰:翻译后修饰是蛋白质调节功能的重要方式,
因此对蛋白质翻译后修饰的研究对阐明蛋白质的功能具有重
要作用。
3.蛋白质功能确定:如分析酶活性和确定酶底物,细胞因子
的生物分析 /配基 -受体结合分析。可以利用基因敲除和反义
技术分析基因表达产物 -蛋白质的功能。另外对蛋白质表达出
来后在细胞内的定位研究也在一定程度上有助于蛋白质功能
的了解。
4.对人类而言,蛋白质组学的研究最终要服务于人类的健康,
主要指促进分子医学的发展。如寻找药物的靶分子。很多药
物本身就是蛋白质,而很多药物的靶分子也是蛋白质。药物
也可以干预蛋白质 -蛋白质相互作用。
蛋白质组学的研究内容
生物芯片 1
生物芯片 2
第三节
生物信息学
( Bioinformatics)
背景知识
包括人、鸡、水稻等动植物以及大肠杆菌等原核生
物的数十种模式生物的基因组序列的成功获得;以
及更多生物基因组序列的即将获得。
生物信息学是在此背景下发展起来的综合运用生物
学、数学、物理学、信息科学以及计算机科学等诸
多学科的理论方法的崭新交叉学科。生物信息学是
内涵非常丰富的学科,其核心是基因组信息学,包
括基因组信息的获取、处理、存储、分配和解释。
生物信息学 是以生物大分子为研究对象,以计算
机为工具,运用数学和信息科学的观点、理论和
方法去研究生命现象、组织和分析呈指数级增长
的生物信息数据的一门科学,
什么是生物信息学?
主要研究内容 1
1,生物信息的收集、存储、管理与提供
包括建立国际基本生物信息库和生物信息传输的国际联网系统;
建立生物信息数据质量的评估与检测系统;生物信息的在线服
务;生物信息可视化和专家系统。
2、基因组序列信息的提取和分析
包括基因的发现与鉴定;基因组中非编码区的信息结构分析,
提出理论模型,阐明该区域的重要生物学功能;进行模式生物
完整基因组的信息结构分析和比较研究;利用生物信息研究遗
传密码起源、基因组结构的演化、基因组空间结构与 DNA折
叠的关系以及基因组信息与生物进化关系等生物学的重大问题。
3,功能基因组相关信息分析
包括与大规模基因表达谱分析相关的算法、软件研究,基
因表达调控网络的研究;与基因组信息相关的核酸、蛋白
质空间结构的预测和模拟,以及蛋白质功能预测的研究。
4、生物大分子结构模拟和药物设计
包括 RNA(核糖核酸 )的结构模拟和反义 RNA的分子设计;
蛋白质空间结构模拟和分子设计;具有不同功能域的复合
蛋白质以及连接肽的设计;生物活性分子的电子结构计算
和设计;纳米生物材料的模拟与设计;基于酶和功能蛋白
质结构、细胞表面受体结构的药物设计;基于 DNA结构的
药物设计等。
主要研究内容 2
5、生物信息分析的技术与方法研究
包括发展软件、数据库工具;改进现有的理论分析方法;创建一
切适用于基因组信息分析的新方法、新技术。包括引入复杂系统
分析技术、信息系统分析技术等;建立严格的多序列比较方法;
发展与应用密码学方法以及其他算法和分析技术;发展研究基因
组完整信息结构和信息网络的研究方法等;发展生物大分子空间
结构模拟、电子结构模拟和药物设计的新方法与新技术。
6、应用与发展研究
汇集与疾病相关的人类基因信息,发展患者样品序列信息检测技
术和基于序列信息选择表达载体、引物的技术,建立与动植物良
种繁育相关的数据库以及与大分子设计和药物设计相关的数据库。
主要研究内容 3
EMBL,GenBank和 DDBJ是国际上三大主要
核酸序列数据库。
EMBL是由 European Molecular Biology
Laboratory于 1982年创建的,目前由欧洲生物
信息学研究所负责管理。 数据库网址是:
http://www.ebi.ac.uk/embl/。
基因和基因组数据库 1
美国国家健康研究院 NIH也于 80年代初委托洛
斯阿拉莫斯国家实验室建立 GenBank,后移交给
国家生物技术信息中心 NCBI,隶属于 NIH下设的
国家医学图书馆。 NCBI的网址是:
http://www.ncbi.nlm.nih.gov。
基因和基因组数据库 2
DDBJ是 DNA Data Base of Japan的简称,
创建于 1986年,由日本国家遗传学研究所负责
管理。 DDBJ的网址是:
http://www.ddbj.nig.ac.jp/。
1988年,EMBL,GenBank 与 DDBJ共同
成立了国际核酸序列联合数据库中心,建立了
合作关系。
基因和基因组数据库 3
蛋白质数据库 1
1,PIR和 PSD
PIR国际蛋白质序列数据库 (PSD)是由蛋白质信息资源 (PIR)、
慕尼黑蛋白质序列信息中心 (MIPS)和日本国际蛋白质序列数据
库 (JIPID)共同维护的国际上最大的公共蛋白质序列数据库。
PIR和 PSD的网址是,http://pir.georgetown.edu/。
2,SWISS-PROT
SWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息
学研究所 (EBI)维护。 SWISS-PROT的网址是:
http://www.ebi.ac.uk/swissprot/。
3,PROSITE
PROSITE数据库收集了生物学有显著意义的蛋白质位点和序
列模式,并能根据这些位点和模式快速和可靠地鉴别一个
未知功能的蛋白质序列应该属于哪一个蛋白质家族。
PROSITE的网址是,http://www.expasy.ch/prosite/。
4,PDB
蛋白质数据仓库 (PDB)是国际上唯一的生物大分子结构数据
档案库,由美国 Brookhaven国家实验室建立。
RCSB的 PDB数据库网址是,http://www.rcsb.org/pdb/。
蛋白质数据库 2
功能数据库
1,KEGG
京都基因和基因组百科全书 (KEGG)是系统分析基因功能,
联系基因组信息和功能信息的知识库。
http://www.genome.ad.jp/kegg/。
2,DIP
相互作用的蛋白质数据库 (DIP)收集了由实验验证的蛋白质
-蛋白质相互作用。 http://dip.doe-mbi.ucla.edu/。
3,ASDB
可变剪接数据库 (ASDB)包括蛋白质库和核酸库两部分。
ASDB的网址是,http://cbcg.nersc.gov/asdb。
4,TRRD
转录调控区数据库 (TRRD)是在不断积累的真核生物基因调
控区结构-功能特性信息基础上构建的。
http://wwwmgs.bionet.nsc.ru/mgs/dbases/trrd4/。
5,TRANSFAC
TRANSFAC数据库是关于转录因子、它们在基因组上的结合
位点和与 DNA结合的 profiles的数据库。
http://transfac.gbf.de/TRANSFAC/。
常用操作举例
基因组序列信息分析
序列比对和数据库搜索( BLAST)
核酸与蛋白质结构和功能的预测分析
蛋白质的三维结构预测
分子进化分析(序列进化树)
功能基因组相关信息分析
第四节
表观遗传学
( Epigenetics)
在基因组中除了 DNA和 RNA序列以外,还有许多调控
基因的信息,它们虽然本身不改变基因的序列,但
是可以通过基因修饰,蛋白质与蛋白质,DNA和其
它分子的相互作用,而影响和调节遗传的基因的功
能和特性,并且通过细胞分裂和增殖周期影响遗传
的一门新兴学科。因此 表观遗传学 又称为实验遗传
学、化学遗传学、特异性遗传学、后遗传学、表遗
传学和基因外调节系统,它是生命科学中一个普遍
而又十分重要的新的研究领域。
什么是表观遗传学
表观遗传学 (epigenetics)则是指基于非基
因序列改变所致基因表达水平变化,如
DNA甲基化和染色质构象变化等 。
表观基因组学 (epigenomics)则是在基因
组水平上对表观遗传学改变的研究 。
表观遗传学与表观基因组学
表观遗传学的分子机制
1,DNA甲基化 ;
2,RNA干扰;
3、组蛋白修饰;
4、染色质改型 ;
DNA 甲基化, DNA的甲基化是生物关闭基因
表达的一种有效手段,也是印迹遗传的主要机制
之一;基因的去甲基化可能使得印迹丢失,基因
过度表达,甚至引起肿瘤或癌症的发生,如促肿
瘤生长因子 IGF2基因过度表达引发大肠癌。
DNA甲基化
RNA干扰 (RNA interference,RNAi)是正常
生物体内抑制特定基因表达的一种现象,它
是指当细胞中导入与内源性 mRNA编码区同
源的双链 RNA(double stranded RNA,
dsRNA)时,该 mRNA发生降解而导致基因
表达沉默的现象,这种现象发生在转录后水
平,又称为转录后基因沉默。
RNA干扰
RNA干扰的作用机制
长片段 dsRNA在细胞内被 Ⅲ 型 RNA酶 Dicer切
成长度大约为 19-23nt的小片段干扰 RNA
(small interfering RNA,siRNA),由
siRNA参与构成复合物 RISC(RNA-induced
silence complex)。 siRNA通过与同源 mRNA
的特异配对,引导 RISC特异地降解同源 mRNA,
导致基因表达的抑制。因此小片段的 siRNA
也可以诱导高效的基因沉默。
RNA干扰的应用
1、研究基因功能的新工具;
2、病毒性疾病的治疗;
3、遗传性疾病的治疗;
4、肿瘤病的治疗
组蛋白的修饰可通过影响组蛋白与 DNA双
链的亲和性,从而改变染色质的疏松或凝
集状态,或通过影响其它转录因子与结构
基因启动子的亲和性来发挥基因调控作用。
组蛋白修饰对基因表达的调控有类似 DNA
遗传密码的调控作用。
组蛋白修饰
染色质改型
第二节
分子遗传标记
( Molecular Genetic Marker)
什么是遗传标记?
遗传标记 genetic marker:指可追踪染色体、染色
体某一节段、某个基因座在家系中传递的任何一
种遗传特性。
它具有两个基本特征,即 可遗传性 和 可识别性;
因此生物的任何有差异表型的基因突变型均可作
为遗传标记。
遗传标记的类型
形态学标记( morphological marker)
细胞学标记 (cytological marker)
生化标记 (biochemical marker)
分子标记 (molecular marker),DNA分子遗
传标记,或 DNA标记。
形态学标记
形态标记即个体的外部形态特征。
形态标记简单直观、经济方便;但其数量在多数
有限、多态性较差,表现易受环境影响,并且有
一些标记与不良性状连锁。此外形态标记的获得
需要通过诱变、分离纯合的过程,周期较长。
主要在早期使用。
细胞遗传标记
细胞学标记即植物细胞染色体的变异。
包括染色体核型(染色体数目、结构、随体有无、着
丝粒位置等)和带型( C带,N带,G带等)的变化。
与形态标记相比,细胞学标记的优点是能进行一些重
要基因的染色体或染色体区域定位。
但细胞学标记材料需要花费较大的人力和较长时间来
培育,难度很大;同时某些物种对染色体变异反应敏
感;还有些变异难以用细胞学方法进行检测。
生化标记
生化标记包括同工酶和等位酶标记。 同工酶是指一个以上
基因座位编码的酶的不同形式,而等位酶是指由一个基因座位的
不同等位基因编码的酶的不同分子形式。分析方法是电泳和组织
化学染色法将酶的多种形式转变成肉眼可辩的酶谱带型。
生化标记具两个方面的优点,一是表现近中性,对生物经
济性状一般没有大的不良影响;二是直接反映了基因产物差异,
受环境影响较小。
生化标记的应用有限,一是可用标记数量少,二是染色方法
和电泳技术有一定难度。
分子标记
分子标记指能反映生物个体或种群间基因组中某种
差异特征的 DNA片段,它直接反映基因组 DNA间的差
异。分子标记的优越性表现为:( 1)直接以 DNA的
形式表现,在生物体的各个组织、各个发育阶段均
可检测到,不受季节、环境限制,不存在表达与否
等问题;( 2)数量极多,遍布整个基因组,可检测
座位几乎无限;( 3)多态性高,自然界存在许多等
位变异,无须人为创造;( 4)表现为中性,不影响
目标性状的表达;( 5)许多标记表现为共显性的特
点,能区别纯合体和杂合体。
分子标记的三个阶段
随着分子生物学技术发展和研究水平的深入,分
子标记的发展经历了三个阶段,也称为三代 DNA
分子标记。
第一代分子标记,RFLP;
第二代分子标记:微卫星( ms);
第三代分子标记,SNP;
目前的分子标记类型
目前的分子标记有三类:
第一类是以分子杂交为核心的分子标记技术,包括
RFLP,DNA指纹技术( DNA Fingerprinting)、原位杂交
( in situ hybridization)等;
第二类是以 PCR为核心的分子标记技术,包括 RAPD、
简单序列重复标记 SSR或简单序列长度多态性( Simple
sequence length polymorphism,简称 SSLP标记)、扩展片段
长度多态性标记 AFLP、序标位 STS、序列特征化扩增区域
SCAR等;
第三类是一些新型的分子标记,如,SNP标记、表达序
列标签 EST标记等。
1,RFLP
基本原理,特定生物类型的基因组 DNA经限制性内切酶切
后,产生分子量不同的同源等位片段,再通过电泳的方法分
离和检测这些片段。
特点,( 1)遍布于整个基因组,数量几乎是无限的;( 2)
无表型效应,不受发育阶段及器官特异性限制;( 3)共显性,
可区分纯合子和杂合子;( 4)结果稳定、可靠;( 5) DNA
需要量大,检测技术繁杂,难以用于大规模的育种实践中。
2,RAPD
基本原理,用一个(有时用两个)随机引物(一般 8-10个
碱基)非定点地扩增基因组 DNA,然后用凝胶电泳分开扩增
片段。
RAPD标记的特点有,( 1)不需 DNA探针,设计引物也
无须知道序列信息;( 2)显性遗传(极少数共显性),不能
鉴别杂合子和纯合子;( 3)技术简便,不涉及分子杂交和放
射性自显影等技术;( 4) DNA样品需要量少,引物价格便
宜,成本较低;( 5)实验重复性较差,结果可靠性较低。
3,AFLP
基本原理,AFLP标记是选择性扩增基因组 DNA酶切片段所
产生的扩增产物的多态性,其实质也是显示限制性内切酶酶
切片段的长度多态性,只不过这种多态性是以扩增片段的长
度不同被检测出来。
AFLP标记的特点有,( 1)由于 AFLP分析可以采用的限
制性内切酶及选择性碱基种类、数目很多,所以该技术所产
生的标记数目是无限多的;( 2)典型的 AFLP分析,每次反
应产物的谱带在 50-100条之间,所以一次分析可以同时检测
到多个座位,且多态性极高;( 3)表现共显性,呈典型孟德
尔式遗传;( 4)分辩率高,结果可靠;( 5)目前该技术受
专利保护,用于分析的试剂盒昂贵,实验条件要求较高。
。
4、微卫星标记 ms
基本原理,ms是一类由几个(多为 1-5个)碱基组成的基序
串联重复而成的 DNA序列,其长度一般较短,广泛分布于基
因组的不同位置,如( CA) n、( AT) n、( GGC) n等重复。
不同遗传材料重复次数的可变性,导致了 SSR长度的高度变
异性,这一变异性正是 SSR标记产生的基础。
ms标记的特点有,( 1)数量丰富,广泛分布于整个基因
组;( 2)具有较多的等位性变异;( 3)共显性标记,可鉴
别出杂合子和纯合子;( 4)实验重复性好,结果可靠;( 5)
由于创建新的标记时需知道重复序列两端的序列信息,因此
其开发有一定困难,费用也较高。
5、序列标签位点 STS
基本原理,STS是指基因组中长度为 200-500bp,且核苷酸
顺序已知的单拷贝序列,通过 PCR可将其专一扩增出来。其
基本原理是,依据两端序列,设计合适的引物,进行 PCR扩
增,电泳显示扩增产物多态性。
STS标记的主要特点有,( 1)标记来源广,数量多;( 2)
共显性遗传,可区分纯合子和杂合子;( 3)技术简便,检测
方便;( 4)与 SSR标记一样,开发依赖于序列分析及引物合
成,成本较高;( 5)多态性常常低于相应的 RFLP标记。
6、染色体原位杂交
染色体原位杂交技术 是 DNA探针与染色体上的 DNA杂交,
并在染色体上直接进行检测的分子标记技术,现在常用的是
荧光原位杂交( FISH)技术。
分子标记技术的应用
1 分子遗传图谱的构建;
2 遗传多样性与种质鉴定
3 重要经济性状相关基因的定位
4 分子标记辅助选择
5 重要经济性状的图位克隆
标记辅助选择 ( marker assisted selected, MAS)是
指与特定的数量性状相关的遗传标记为工具,以标记信息
作为辅助信息,对该数量性状进行选择,以在育种中获得
较大的遗传进展。
图位克隆 (map-based cloning):目标基因在染色体遗
传图谱及物理图谱中的位置,采用染色体步移法
(chromosomal walking)进行基因克隆,称为图位克隆。
基本概念
动物的标记辅助选择应用
1 猪的应激基因检测;
2 猪的 ESR基因与多仔性状;
3 鸡的羽速自别雌雄;
4 矮小基因与矮小鸡
5 肌肉生长抑制素
Myostatin基因与肉牛生产
( Animal Genomics)
第十一章
主要内容
第一节 人类基因组计划
第二节 比较基因组与功能基因组
第三节 生物信息学
第四节 表观遗传学
第五节 分子遗传标记
第一节
人类基因组计划
( Human Genome Project)
人类基因组计划( 1)
* 1990年多国合作小组启动,2001年在 Nature上公布
结果;
*Craig Venter博士采用
散弹法于 Science上发表
结果。
* 人基因组测序的完成
可与人类登月媲美。
人类基因组计划( 2)
* 耗时 10载,耗费 20余亿美圆;
* 基因组大小 30亿碱基;
* 1%为外显子,99%为内含子和重复序列;
* 表达蛋白质的基因组数量约为 3万;
* 约含 100万个 SNP标记。
序列测定方法 1
全基因组鸟枪法:
在一定作图信息基础
上,绕过大片段连续
克隆系的构建而直接
将基因组分解成小片
段随机测序,利用超
级计算机进行组装
(美国 Celera公司)。
序列测定方法 2
人类基因组计划的意义
基因组大小的比较 ( 1)
基因组大小的比较 ( 2)
基因组 ( Genome) 就是指生物体染色体、细胞
器中所含的全套遗传物质 ; 一种生物全部基因的
集合称为“基因组”。
基因组 学 ( Genomics) 就是 研究基因组结构和
功能的科学。
基因组与基因组学
基因组学的分类
基因组学可以分为结构基因组学和功能基因组学 。
对基因组物理结构的作图和测序的研究 称为 结构 基
因组 学;
功能基因组学 是指应用整体的研究技术阐明这些
基因和蛋白的生物学功能,
结构基因组学 功能基因组学
后基因组时代
( Postgenome era)
* 人类基因组计划完成之后,生物学被重新划分为
前基因组和后基因组两部分。
* 科学研究已开始进入“后基因组时代”。主要是
开展蛋白质组的研究。
* 有科学家形象地说道,即使基因测序全部完成,
也只好像是一本没有姓名、只有号码的电话簿。
“后基因组时代”的最终目标,是要把深奥的
DNA语言变成一本基因大百科全书。
第二节
比较基因组与功能基因组
( Comparative Genome & Functional Genome)
遗传图谱, 又称连锁图谱 (linkage map),它是以具有
遗传多态性(在一个遗传位点上具有一个以上的等位基因,
在群体中的出现频率皆高于 1%)的遗传标记为, 路标,,
以遗传学距离(在减数分裂事件中两个位点之间进行交换、
重组的百分率,1%的重组率称为 1cM)为图距的基因组图。
物理图谱, 物理图谱是指有关构成基因组的全部基因的
排列和间距的信息,它是通过对构成基因组的 DNA分子进行
测定而绘制的。绘制物理图谱的目的是把有关基因的遗传
信息及其在每条染色体上的相对位置线性而系统地排列出
来。
遗传图谱与物理图谱
随着遗传图谱和物理图谱的完成,测序就成为重中之重的工作。
DNA序列分析技术是一个包括制备 DNA片段化及碱基分析、
DNA信息翻译的多阶段的过程。通过测序得到基因组的 序列
图谱 。
基因图谱 是在识别基因组所包含的蛋白质编码序列的基础
上绘制的结合有关基因序列、位置及表达模式等信息的图谱。
在人类基因组中鉴别出占具 2%~5%长度的全部基因的位置、
结构与功能,最主要的方法是通过基因的表达产物 mRNA反追
到染色体的位置。
序列图谱与基因图谱
什么是比较基因组学?
利用生物在进化上的亲缘关系,来比较它们与
人类之间的相似与相异,即比较基因组学。
* 蛋白组( Proteome)
蛋白质组 是指, 一种 基因 组所表达的全套蛋白
质, 。
* 蛋白组学( Proteomics)
一门在整体水平上研究细胞内蛋白质的组成及其
活动规律的新兴学科。
* 蛋白组学与功能基因组学息息相关。
蛋白组学与功能基因组学
1.蛋白质分离和鉴定:
2.翻译后修饰:翻译后修饰是蛋白质调节功能的重要方式,
因此对蛋白质翻译后修饰的研究对阐明蛋白质的功能具有重
要作用。
3.蛋白质功能确定:如分析酶活性和确定酶底物,细胞因子
的生物分析 /配基 -受体结合分析。可以利用基因敲除和反义
技术分析基因表达产物 -蛋白质的功能。另外对蛋白质表达出
来后在细胞内的定位研究也在一定程度上有助于蛋白质功能
的了解。
4.对人类而言,蛋白质组学的研究最终要服务于人类的健康,
主要指促进分子医学的发展。如寻找药物的靶分子。很多药
物本身就是蛋白质,而很多药物的靶分子也是蛋白质。药物
也可以干预蛋白质 -蛋白质相互作用。
蛋白质组学的研究内容
生物芯片 1
生物芯片 2
第三节
生物信息学
( Bioinformatics)
背景知识
包括人、鸡、水稻等动植物以及大肠杆菌等原核生
物的数十种模式生物的基因组序列的成功获得;以
及更多生物基因组序列的即将获得。
生物信息学是在此背景下发展起来的综合运用生物
学、数学、物理学、信息科学以及计算机科学等诸
多学科的理论方法的崭新交叉学科。生物信息学是
内涵非常丰富的学科,其核心是基因组信息学,包
括基因组信息的获取、处理、存储、分配和解释。
生物信息学 是以生物大分子为研究对象,以计算
机为工具,运用数学和信息科学的观点、理论和
方法去研究生命现象、组织和分析呈指数级增长
的生物信息数据的一门科学,
什么是生物信息学?
主要研究内容 1
1,生物信息的收集、存储、管理与提供
包括建立国际基本生物信息库和生物信息传输的国际联网系统;
建立生物信息数据质量的评估与检测系统;生物信息的在线服
务;生物信息可视化和专家系统。
2、基因组序列信息的提取和分析
包括基因的发现与鉴定;基因组中非编码区的信息结构分析,
提出理论模型,阐明该区域的重要生物学功能;进行模式生物
完整基因组的信息结构分析和比较研究;利用生物信息研究遗
传密码起源、基因组结构的演化、基因组空间结构与 DNA折
叠的关系以及基因组信息与生物进化关系等生物学的重大问题。
3,功能基因组相关信息分析
包括与大规模基因表达谱分析相关的算法、软件研究,基
因表达调控网络的研究;与基因组信息相关的核酸、蛋白
质空间结构的预测和模拟,以及蛋白质功能预测的研究。
4、生物大分子结构模拟和药物设计
包括 RNA(核糖核酸 )的结构模拟和反义 RNA的分子设计;
蛋白质空间结构模拟和分子设计;具有不同功能域的复合
蛋白质以及连接肽的设计;生物活性分子的电子结构计算
和设计;纳米生物材料的模拟与设计;基于酶和功能蛋白
质结构、细胞表面受体结构的药物设计;基于 DNA结构的
药物设计等。
主要研究内容 2
5、生物信息分析的技术与方法研究
包括发展软件、数据库工具;改进现有的理论分析方法;创建一
切适用于基因组信息分析的新方法、新技术。包括引入复杂系统
分析技术、信息系统分析技术等;建立严格的多序列比较方法;
发展与应用密码学方法以及其他算法和分析技术;发展研究基因
组完整信息结构和信息网络的研究方法等;发展生物大分子空间
结构模拟、电子结构模拟和药物设计的新方法与新技术。
6、应用与发展研究
汇集与疾病相关的人类基因信息,发展患者样品序列信息检测技
术和基于序列信息选择表达载体、引物的技术,建立与动植物良
种繁育相关的数据库以及与大分子设计和药物设计相关的数据库。
主要研究内容 3
EMBL,GenBank和 DDBJ是国际上三大主要
核酸序列数据库。
EMBL是由 European Molecular Biology
Laboratory于 1982年创建的,目前由欧洲生物
信息学研究所负责管理。 数据库网址是:
http://www.ebi.ac.uk/embl/。
基因和基因组数据库 1
美国国家健康研究院 NIH也于 80年代初委托洛
斯阿拉莫斯国家实验室建立 GenBank,后移交给
国家生物技术信息中心 NCBI,隶属于 NIH下设的
国家医学图书馆。 NCBI的网址是:
http://www.ncbi.nlm.nih.gov。
基因和基因组数据库 2
DDBJ是 DNA Data Base of Japan的简称,
创建于 1986年,由日本国家遗传学研究所负责
管理。 DDBJ的网址是:
http://www.ddbj.nig.ac.jp/。
1988年,EMBL,GenBank 与 DDBJ共同
成立了国际核酸序列联合数据库中心,建立了
合作关系。
基因和基因组数据库 3
蛋白质数据库 1
1,PIR和 PSD
PIR国际蛋白质序列数据库 (PSD)是由蛋白质信息资源 (PIR)、
慕尼黑蛋白质序列信息中心 (MIPS)和日本国际蛋白质序列数据
库 (JIPID)共同维护的国际上最大的公共蛋白质序列数据库。
PIR和 PSD的网址是,http://pir.georgetown.edu/。
2,SWISS-PROT
SWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息
学研究所 (EBI)维护。 SWISS-PROT的网址是:
http://www.ebi.ac.uk/swissprot/。
3,PROSITE
PROSITE数据库收集了生物学有显著意义的蛋白质位点和序
列模式,并能根据这些位点和模式快速和可靠地鉴别一个
未知功能的蛋白质序列应该属于哪一个蛋白质家族。
PROSITE的网址是,http://www.expasy.ch/prosite/。
4,PDB
蛋白质数据仓库 (PDB)是国际上唯一的生物大分子结构数据
档案库,由美国 Brookhaven国家实验室建立。
RCSB的 PDB数据库网址是,http://www.rcsb.org/pdb/。
蛋白质数据库 2
功能数据库
1,KEGG
京都基因和基因组百科全书 (KEGG)是系统分析基因功能,
联系基因组信息和功能信息的知识库。
http://www.genome.ad.jp/kegg/。
2,DIP
相互作用的蛋白质数据库 (DIP)收集了由实验验证的蛋白质
-蛋白质相互作用。 http://dip.doe-mbi.ucla.edu/。
3,ASDB
可变剪接数据库 (ASDB)包括蛋白质库和核酸库两部分。
ASDB的网址是,http://cbcg.nersc.gov/asdb。
4,TRRD
转录调控区数据库 (TRRD)是在不断积累的真核生物基因调
控区结构-功能特性信息基础上构建的。
http://wwwmgs.bionet.nsc.ru/mgs/dbases/trrd4/。
5,TRANSFAC
TRANSFAC数据库是关于转录因子、它们在基因组上的结合
位点和与 DNA结合的 profiles的数据库。
http://transfac.gbf.de/TRANSFAC/。
常用操作举例
基因组序列信息分析
序列比对和数据库搜索( BLAST)
核酸与蛋白质结构和功能的预测分析
蛋白质的三维结构预测
分子进化分析(序列进化树)
功能基因组相关信息分析
第四节
表观遗传学
( Epigenetics)
在基因组中除了 DNA和 RNA序列以外,还有许多调控
基因的信息,它们虽然本身不改变基因的序列,但
是可以通过基因修饰,蛋白质与蛋白质,DNA和其
它分子的相互作用,而影响和调节遗传的基因的功
能和特性,并且通过细胞分裂和增殖周期影响遗传
的一门新兴学科。因此 表观遗传学 又称为实验遗传
学、化学遗传学、特异性遗传学、后遗传学、表遗
传学和基因外调节系统,它是生命科学中一个普遍
而又十分重要的新的研究领域。
什么是表观遗传学
表观遗传学 (epigenetics)则是指基于非基
因序列改变所致基因表达水平变化,如
DNA甲基化和染色质构象变化等 。
表观基因组学 (epigenomics)则是在基因
组水平上对表观遗传学改变的研究 。
表观遗传学与表观基因组学
表观遗传学的分子机制
1,DNA甲基化 ;
2,RNA干扰;
3、组蛋白修饰;
4、染色质改型 ;
DNA 甲基化, DNA的甲基化是生物关闭基因
表达的一种有效手段,也是印迹遗传的主要机制
之一;基因的去甲基化可能使得印迹丢失,基因
过度表达,甚至引起肿瘤或癌症的发生,如促肿
瘤生长因子 IGF2基因过度表达引发大肠癌。
DNA甲基化
RNA干扰 (RNA interference,RNAi)是正常
生物体内抑制特定基因表达的一种现象,它
是指当细胞中导入与内源性 mRNA编码区同
源的双链 RNA(double stranded RNA,
dsRNA)时,该 mRNA发生降解而导致基因
表达沉默的现象,这种现象发生在转录后水
平,又称为转录后基因沉默。
RNA干扰
RNA干扰的作用机制
长片段 dsRNA在细胞内被 Ⅲ 型 RNA酶 Dicer切
成长度大约为 19-23nt的小片段干扰 RNA
(small interfering RNA,siRNA),由
siRNA参与构成复合物 RISC(RNA-induced
silence complex)。 siRNA通过与同源 mRNA
的特异配对,引导 RISC特异地降解同源 mRNA,
导致基因表达的抑制。因此小片段的 siRNA
也可以诱导高效的基因沉默。
RNA干扰的应用
1、研究基因功能的新工具;
2、病毒性疾病的治疗;
3、遗传性疾病的治疗;
4、肿瘤病的治疗
组蛋白的修饰可通过影响组蛋白与 DNA双
链的亲和性,从而改变染色质的疏松或凝
集状态,或通过影响其它转录因子与结构
基因启动子的亲和性来发挥基因调控作用。
组蛋白修饰对基因表达的调控有类似 DNA
遗传密码的调控作用。
组蛋白修饰
染色质改型
第二节
分子遗传标记
( Molecular Genetic Marker)
什么是遗传标记?
遗传标记 genetic marker:指可追踪染色体、染色
体某一节段、某个基因座在家系中传递的任何一
种遗传特性。
它具有两个基本特征,即 可遗传性 和 可识别性;
因此生物的任何有差异表型的基因突变型均可作
为遗传标记。
遗传标记的类型
形态学标记( morphological marker)
细胞学标记 (cytological marker)
生化标记 (biochemical marker)
分子标记 (molecular marker),DNA分子遗
传标记,或 DNA标记。
形态学标记
形态标记即个体的外部形态特征。
形态标记简单直观、经济方便;但其数量在多数
有限、多态性较差,表现易受环境影响,并且有
一些标记与不良性状连锁。此外形态标记的获得
需要通过诱变、分离纯合的过程,周期较长。
主要在早期使用。
细胞遗传标记
细胞学标记即植物细胞染色体的变异。
包括染色体核型(染色体数目、结构、随体有无、着
丝粒位置等)和带型( C带,N带,G带等)的变化。
与形态标记相比,细胞学标记的优点是能进行一些重
要基因的染色体或染色体区域定位。
但细胞学标记材料需要花费较大的人力和较长时间来
培育,难度很大;同时某些物种对染色体变异反应敏
感;还有些变异难以用细胞学方法进行检测。
生化标记
生化标记包括同工酶和等位酶标记。 同工酶是指一个以上
基因座位编码的酶的不同形式,而等位酶是指由一个基因座位的
不同等位基因编码的酶的不同分子形式。分析方法是电泳和组织
化学染色法将酶的多种形式转变成肉眼可辩的酶谱带型。
生化标记具两个方面的优点,一是表现近中性,对生物经
济性状一般没有大的不良影响;二是直接反映了基因产物差异,
受环境影响较小。
生化标记的应用有限,一是可用标记数量少,二是染色方法
和电泳技术有一定难度。
分子标记
分子标记指能反映生物个体或种群间基因组中某种
差异特征的 DNA片段,它直接反映基因组 DNA间的差
异。分子标记的优越性表现为:( 1)直接以 DNA的
形式表现,在生物体的各个组织、各个发育阶段均
可检测到,不受季节、环境限制,不存在表达与否
等问题;( 2)数量极多,遍布整个基因组,可检测
座位几乎无限;( 3)多态性高,自然界存在许多等
位变异,无须人为创造;( 4)表现为中性,不影响
目标性状的表达;( 5)许多标记表现为共显性的特
点,能区别纯合体和杂合体。
分子标记的三个阶段
随着分子生物学技术发展和研究水平的深入,分
子标记的发展经历了三个阶段,也称为三代 DNA
分子标记。
第一代分子标记,RFLP;
第二代分子标记:微卫星( ms);
第三代分子标记,SNP;
目前的分子标记类型
目前的分子标记有三类:
第一类是以分子杂交为核心的分子标记技术,包括
RFLP,DNA指纹技术( DNA Fingerprinting)、原位杂交
( in situ hybridization)等;
第二类是以 PCR为核心的分子标记技术,包括 RAPD、
简单序列重复标记 SSR或简单序列长度多态性( Simple
sequence length polymorphism,简称 SSLP标记)、扩展片段
长度多态性标记 AFLP、序标位 STS、序列特征化扩增区域
SCAR等;
第三类是一些新型的分子标记,如,SNP标记、表达序
列标签 EST标记等。
1,RFLP
基本原理,特定生物类型的基因组 DNA经限制性内切酶切
后,产生分子量不同的同源等位片段,再通过电泳的方法分
离和检测这些片段。
特点,( 1)遍布于整个基因组,数量几乎是无限的;( 2)
无表型效应,不受发育阶段及器官特异性限制;( 3)共显性,
可区分纯合子和杂合子;( 4)结果稳定、可靠;( 5) DNA
需要量大,检测技术繁杂,难以用于大规模的育种实践中。
2,RAPD
基本原理,用一个(有时用两个)随机引物(一般 8-10个
碱基)非定点地扩增基因组 DNA,然后用凝胶电泳分开扩增
片段。
RAPD标记的特点有,( 1)不需 DNA探针,设计引物也
无须知道序列信息;( 2)显性遗传(极少数共显性),不能
鉴别杂合子和纯合子;( 3)技术简便,不涉及分子杂交和放
射性自显影等技术;( 4) DNA样品需要量少,引物价格便
宜,成本较低;( 5)实验重复性较差,结果可靠性较低。
3,AFLP
基本原理,AFLP标记是选择性扩增基因组 DNA酶切片段所
产生的扩增产物的多态性,其实质也是显示限制性内切酶酶
切片段的长度多态性,只不过这种多态性是以扩增片段的长
度不同被检测出来。
AFLP标记的特点有,( 1)由于 AFLP分析可以采用的限
制性内切酶及选择性碱基种类、数目很多,所以该技术所产
生的标记数目是无限多的;( 2)典型的 AFLP分析,每次反
应产物的谱带在 50-100条之间,所以一次分析可以同时检测
到多个座位,且多态性极高;( 3)表现共显性,呈典型孟德
尔式遗传;( 4)分辩率高,结果可靠;( 5)目前该技术受
专利保护,用于分析的试剂盒昂贵,实验条件要求较高。
。
4、微卫星标记 ms
基本原理,ms是一类由几个(多为 1-5个)碱基组成的基序
串联重复而成的 DNA序列,其长度一般较短,广泛分布于基
因组的不同位置,如( CA) n、( AT) n、( GGC) n等重复。
不同遗传材料重复次数的可变性,导致了 SSR长度的高度变
异性,这一变异性正是 SSR标记产生的基础。
ms标记的特点有,( 1)数量丰富,广泛分布于整个基因
组;( 2)具有较多的等位性变异;( 3)共显性标记,可鉴
别出杂合子和纯合子;( 4)实验重复性好,结果可靠;( 5)
由于创建新的标记时需知道重复序列两端的序列信息,因此
其开发有一定困难,费用也较高。
5、序列标签位点 STS
基本原理,STS是指基因组中长度为 200-500bp,且核苷酸
顺序已知的单拷贝序列,通过 PCR可将其专一扩增出来。其
基本原理是,依据两端序列,设计合适的引物,进行 PCR扩
增,电泳显示扩增产物多态性。
STS标记的主要特点有,( 1)标记来源广,数量多;( 2)
共显性遗传,可区分纯合子和杂合子;( 3)技术简便,检测
方便;( 4)与 SSR标记一样,开发依赖于序列分析及引物合
成,成本较高;( 5)多态性常常低于相应的 RFLP标记。
6、染色体原位杂交
染色体原位杂交技术 是 DNA探针与染色体上的 DNA杂交,
并在染色体上直接进行检测的分子标记技术,现在常用的是
荧光原位杂交( FISH)技术。
分子标记技术的应用
1 分子遗传图谱的构建;
2 遗传多样性与种质鉴定
3 重要经济性状相关基因的定位
4 分子标记辅助选择
5 重要经济性状的图位克隆
标记辅助选择 ( marker assisted selected, MAS)是
指与特定的数量性状相关的遗传标记为工具,以标记信息
作为辅助信息,对该数量性状进行选择,以在育种中获得
较大的遗传进展。
图位克隆 (map-based cloning):目标基因在染色体遗
传图谱及物理图谱中的位置,采用染色体步移法
(chromosomal walking)进行基因克隆,称为图位克隆。
基本概念
动物的标记辅助选择应用
1 猪的应激基因检测;
2 猪的 ESR基因与多仔性状;
3 鸡的羽速自别雌雄;
4 矮小基因与矮小鸡
5 肌肉生长抑制素
Myostatin基因与肉牛生产