生物信息学现状和重要研究方向
生物信息学现状和重要研究方向
z 1.1 什么是生物信息学?
z Genome informatics is a scientific
discipline that encompasses all aspects
of genome information acquisition,
processing, storage, distribution, analysis,
and interpretation.
它是一个学科领域,包含着基因组信息的获取、处
理、存储、分配 、分析和解释的所有方面。
(The U.S. Human Genome Project: The First Five Years FY 1991-1995,
by NIH and DOE)
z 生命 “阿波罗计划 ”的人类基因组计划 完成
(2001年 )。
How many characters are in the “Heaven Book”?
3*10
9
10,000 books
1 book 100 pages
1 page 3,000 characters
CCGGTCTCCCCGCCCGCGCGCGAAGTAAAGGCCCAGCGCAGCCCGCGCTCCTGCCCT
GGGGCCTCGTCTTTCTCCAGGAAAACGTGGACCGCTCTCCGCCGACAGTCTCTTCCACA
GACCCCTGTCGCCTTCGCCCCCCGGTCTCTTCCGGTTCTGTCTTTTCGCTGGCTCGATA
CGAACAAGGAAGTCGCCCCCAGCGAGCCCCGGCTCCCCCAGGCAGAGGCGGCCCCGG
GGGCGGAGTCAACGGCGGAGGCACGCCCTCTGTGAAAGGGCGGGGCATGCAAATTCG
AAATGAAAGCCCGGGAACGCCGAAGAAGCACGGGTGTAAGATTTCCCTTTTCAAAGGCG
GGAGAATAAGAAATCAGCCCGAGAGTGTAAGGGCGTCAATAGCGCTGTGGACGAGACA
GAGGGAATGGGGCAAGGAGCGAGGCTGGGGCTCTCACCGCGACTTGAATGTGGATGAG
AGTGGGACGGTGACGGCGGGCGCGAAGGCGAGCGCATCGCTTCTCGGCCTTTTGGCTA
AGATCAAGTGTAGTATCTGTTCTTATCAGTTTAATATCTGATACGTCCTCTATCCGAGGAC
AATATATTAAATGGATTGATCAATCCGCTTCAGCCTCCCGAGTAGCTGGGACTACAGACG
GTGCCATCACGCCCAGCTCATTGTTGATTCCCGCCCCCTTGGTAGAGACGGGATTCCGC
TATATTGCCTGGGCTGGTGTCGAACTCATAGAACAAAGGATCCTCCCTCCTGGGCCTGG
GCGTGGGCTCGCAAAACGCTGGGATTCCCGGATTACAGGCGGGCGCACCACACCAGGA
GCAAACACTTCCGGTTTTAAAAATTCAGTTTGTGATTGGCTGTCATTCAGTATTATGCTAA
TTAAGCATGCCCGGTTTTAAACCTCTTAAAACAACTTTTAAAATTACCTTTCCACCTAAAAC
GTTAAAATTTGTCAAGTGATAATATTCGACAAGCTGTTATTGCCAAACTATTTTCCTATTTG
TTTCCTAATGGCATCGGAACTAGCGAAAGTTTCTCGCCATCAGTTAAAAGTTTGCGGCAG
ATGTAGACCTAGCAGAGGTGTGCGAGGAGGCCGTTAAGACTATACTTTCAGGGATCATT
TCTATAGTGTGTTACTAGAGAAGTTTCTCTGAACGTGTAGAGCACCGAAAACCACGAGGA
AGAGAGGTAGCGTTTTCATCGGGTTACCTAAGTGCAGTGTCCCCCCTGGCGCGCAATTG
GGAACCCCACACGCGGTGTAGAAATATATTTTAAGGGCGCG
(1250 characters)
关键是先要从一个个序列片段中得到这本天书
z破译人类遗传密码就要读懂由 32亿符号组
成的 100万页的 “天书 ”
1999年
年
12月
月
GenBank的
的
DNA碱基数其数目已达
碱基数其数目已达
30亿,
亿,
它们来自
它们来自
47000种生物。
种生物。
2000年
年
4月
月
DNA碱基数目是
碱基数目是
60
亿。现在,这一数目已达
亿。现在,这一数目已达
190亿
亿
(
Nucleic Acids Research
2006 Jan)
。
。
各种生物的
各种生物的
EST序列已达
序列已达
600多万条,其中
多万条,其中
人类的
人类的
EST序列已超过
序列已超过
300 万条,估计覆盖人类基因
万条,估计覆盖人类基因
90
%以上;
%以上;
自
自
全长
全长
1.8Mb的嗜血流感杆菌(
的嗜血流感杆菌(
Haemophilus
influenzae Rd)基因组序列于
)基因组序列于
1995年发表
年发表
(
(
Fleischmann et al.,
,
1995)以来,已有若干个微
)以来,已有若干个微
生物和真核生物完成基因组测序
生物和真核生物完成基因组测序
.
human Arabidopsis
拟南芥
Thermotoga
maritima
Escherichia
coli大肠杆菌
Buchnerasp.
APS
Rickettsia
prowazekii
Ureaplasma
urealyticum
Bacillus
subtilis
Drosophila
melanogaster
Thermoplasma
acidophilum
Plasmodium
falciparum
Helicobacter
pylori
mouse
Caenorhabitis
elegans
rat Borrelia
burgorferi
Borrelia
burgorferi
Aquifex
aeolicus
Neisseria
meningitidis
Z2491
Mycobacteriu
m tuberculosis
数据引自 http://wit.integratedgenomics.com/GOLD/
?已经完成测序的基因组(截止 2004年 11月)
? 古细菌( archaea)( 58)
? 细菌( bacteria)( 752)
? 真核生物( eukaryota)( 9)
? 病毒( viruses)( 1711)
? 类病毒( viroids)( 36)
? 真核生物器官( organelles)
线粒体( mitochondria)( 623)
质体( plastids)( 41)
? 质粒( plasmids)( 661)
这些成就意味着基因组的研究
将全面进入信息提取和数据分析的
崭新阶段。
计算机运算速度 : 18个月增长一倍 ;
DNA序列 数据 : 14个月增长一倍 ;
Computer Aided Vaccine Design System
Database
Articles
Lab Work
Algorithm(ANN),
Analysis Program,
Adjust Program…
Data Flow
Right/Wrong?
Right/Wrong?
Answer
Answer
生物信息学是把基因组
生物信息学是把基因组
DNA序列信息分析
序列信息分析
作为源头,破译隐藏在
作为源头,破译隐藏在
DNA序列中的遗传语
序列中的遗传语
言,特别是非编码区的实质;同时
言,特别是非编码区的实质;同时
归纳、整
归纳、整
理与基因组遗传信息释放及其调控相关的转
理与基因组遗传信息释放及其调控相关的转
录谱和蛋白质谱的数据,从而认识代谢、发
录谱和蛋白质谱的数据,从而认识代谢、发
育、分化、进化的规律。
育、分化、进化的规律。
———基因组水平
基因组水平
1.2 主要研究内容
主要研究内容
z 1.2.1 获取人和各种生物的完整基因组。
大规模测序是基因组研究的最基本任务,它的
每一个环节都与信息分析紧密相关。从测序仪
的光密度采样与分析、碱基读出、载体标识与
去除、拼接与组装、填补序列间隙、到重复序
列标识、读框预测和基因标注的每一步都是紧
密依赖基因组信息学的软件和数据库的。
1)高度自动化的实验数据的获得、加工
)高度自动化的实验数据的获得、加工
和整理
和整理
z 如何将实验室中得到的生物学信息转化为计算
如何将实验室中得到的生物学信息转化为计算
机能够处理的数字信息,是生物学的一个重要
机能够处理的数字信息,是生物学的一个重要
课题。
课题。
z 体现在各种自动化分子生物学仪器应用上,如
体现在各种自动化分子生物学仪器应用上,如
DNA测序仪
测序仪
,
,
PCR仪等。这类仪器将实验所得的
仪等。这类仪器将实验所得的
物理化学信号转化为数字信息,并对其作简单
物理化学信号转化为数字信息,并对其作简单
分析,再将分析结果用于实验条件的控制,完
分析,再将分析结果用于实验条件的控制,完
成高度自动化的实验过程
成高度自动化的实验过程
。
。
2)序列片段的拼接
)序列片段的拼接
z 目前DNA自动测序仪每个反应只能测序500bp左右。如
何将这些序列片段拼接成完整的DNA顺序就成为接下来
的一个重要工作。
z 传统的测序技术通常将克隆进行亚克隆并对亚克隆进
行排序。这些工作需要大量的人力物力。
z 现在生物信息学提供了自动而高速地拼接序列的算
法,不仅避免了亚克隆排序所需的大量繁琐的工作,
还能使序列具有一定的冗余性(redundancy,即一定
数量的重复)以保证序列中每个碱基的准确性。
大部分新基因是靠理论方法预测出来的。比如啤酒
酵母完整基因组 (约 1300万 bp) 所包含的 6千多个基
因,大约 60% 是 通过信息分析得到的。
a)、利用 EST 数据库 (dbEST) 发现
新基因和新 SNPs
EST序列是基因表达的短 cDNA序
列,它们携带着完整基因的某些片
段的信息。
1.2.2 新基因和新
新基因和新
SNPs的发现与鉴定
的发现与鉴定
0bp 1800bp
------------------------FLCDNA------------------>
------------Contig 11------------>
-----------------------------> AA149499 ( 0 , 645 )
------------------> H01825 ( 322 , 681)
------------------> W46878 ( seed EST 406 , 870 )
---------------> AA131842 (533 , 1091 )
---------------> D57689 (U 1052 , 1455 )
<---------- AA887384 (U 1354 , 1750 )
<--------- F08907 (U 1514 , 1800 )
国际上现已出现的基于
国际上现已出现的基于
EST的基因索
的基因索
引
引
UniGene
(ftp://ncbi.nlm.nih.gov/pub/schuler/unigene)
Merck-Geneindex
(http://genome.wustl.edu/est/esthmpg.html )
GenExpress-index
( http://www..cshl.org )。
这些基因索引数据库 (即二次数据库 )构建了基因框架,极
大地方便了相关研究者。
z 超大规模计算
SNP: Single Nucleotide Polymorphisms
HUMAN GENETIC DIVERSITY:
The Ultimate Human Genetic Database
Any two individuals differ in about 3 x 10
6
bases (0.1%).
The population is now about 6 x 10
9
.
A catalog of all sequence differences would require 18 x
10
15
entries.
This catalog may be needed to find the rarest or most
complex disease genes.
b)、从基因组
、从基因组
DNA序列中预测新
序列中预测新
ORF
z 所谓基因区域的预测,一般是指预测DNA顺序
中编码蛋白质的部分,即外显子部分。不过目
前基因区域的预测已从单纯外显子预测发展到
整个基因结构的预测。这些预测综合各种外显
子预测的算法和人们对基因结构信号(如转录
起始位点区、第一个 ATG、开读框架和终止密
码子)的认识,预测出可能的完整基因。
1.2.3非编码区
非编码区
功能研究
功能研究
What is the total number of
human genes?
28,000± 4,000
Only 1.1% of the genome is
spanned by exons, whereas 24%
is in introns, with 75% of the
genome being intergenic DNA.
One of the largest challenges is
identifying the unknown
functions that almost certainly
exist in much of the “junk”
DNA.
DNA RNA protein
Central dogma of molecular biology
genome transcriptome proteome
Central dogma of bioinformatics and genomics
2.功能基因组学(
功能基因组学(
Functional
Genomics)
)
z 用实验手段证实一个预测的新基因后,下一步要做的
就是寻找这个基因的功能。----即功能基因组学
z 蛋白质功能预测分析,主要是分析目的蛋白质是否与
具有功能信息的已知蛋白质相似。策略有二:
– 同源序列分析
– 功能区相关的保守序列特点分析。
z 对成千上万的基因表达进行分析和比较,力图从基因
组整体水平上对基因的活动规律进行阐述。
基因芯片技术发展
3.蛋
蛋
白
白
质
质
组
组
学(
学(
Proteomics)
)
“The identification, characterization and quantification of
all proteins involved in a particular pathway, organelle,
cell, tissue, organ or organism that can be studied in
concert to provide accurate and comprehensive data
about that system.”
“对特定的通路、细胞器、细胞、组织、器官和肌体中包
含的所有蛋白质进行鉴定、表征和定量,并提供关于
该系统准确和全面的数据。 ”
http://www.inproteomics.com/prodef.html
3.1 生物信息学在蛋白组研究中
生物信息学在蛋白组研究中
的应用
的应用
1. 编码的DNA序列的寻找与分析(分析研究对象);
2. 蛋白质序列信息的获取(搜索与测序);
3. 蛋白质鉴定和性质预测;
4. 蛋白质序列分析;
5. 蛋白质结构和功能预测;
6. 数据的分析与整合:大范围基因表达分析;蛋白-
蛋白相互作用;蛋白在细胞内的定位;构建通路和细
胞系统;预测和发现新的知识。
二维凝胶电泳和测序质谱技术发展
4.生物信息学
生物信息学
– 研究方向
研究方向
z 基因组序列装配
z 基因识别
z 基因功能预报
z 基因多态性分析
z 基因进化
z mRNA结构预测
z 基因芯片设计
z 基因芯片数据分析
z 疾病相关基因分析
z 蛋白质序列分析
z 蛋白质家族分类
z 蛋白质结构预测
z 蛋白质折叠研究
z 代谢途径分析
z 转录调控机制
z 蛋白质芯片设计
z 蛋白质芯片数据分析
z 药物设计
5. 生物信息学基本方法和技术
? 建立生物数据库
? 各种公共数据库
? 本地化数据库
? 数据库检索
? 各种数据检索工具的开发和使用
9 Entrez检索体系
9 BLAST检索体系
? 生物大分子序列分析
? Homologous sequence analysis(同源序列分析)
? Multiple sequence alignment(多序列对位(对
齐)排列)
? Evolution analysis(进化分析)
9 Phylogenetic prediction(系统发育预测)
9 进化方式分析
9 进化位点分析
? 基因组分析
9 序列拼接
9 序列注释
? 基因功能、结构分析
? 蛋白质功能、结构分析
? 蛋白质三维结构预测
? 蛋白质修饰
? Electronic PCR
? 统计模型
? Hidden Markov model( HMM,隐马尔可夫模
型)
基因识别和药物设计
? Maximum likelihood model(最大似然模型)
序列进化分析
? 数学算法
? 自动序列拼接
? 外显子预测
? 同源序列比较
?收集、整理、储存、加工、发
布和分析生物学数据
生物信息学的研究内容
?发展新的数理和信息科学的技
术和方法用于管理和分析生物
数据
(生物工作者)
(数理和信息
科学工作者)
6.生物信息学的应用
? 基础研究和教学
? 分子生物学研究的重要手段之一
? 生命科学的教学
? 药物开发
? 新药筛选
? 药靶设计
? 分子药理学研究
? 疾病诊断
? 利用疑难病症的病原 DNA序列诊断疾病
? 遗传病
? 其他
? 环境监测
? 食品安全检测
? 海关检测
7.本课程主要内容
利用国际上共享的数据库和分析软件
? 检索数据库
? 分析和解释实验数据(核苷酸和蛋白质序列)
谢谢各位
谢谢各位
!