生物信息学
Bioinformatics
一、生物信息学的概念
生物信息学( Bioinformatics) 是现代生物学、物
理学、数学、计算机科学、信息学等学科交叉而形成
的一门 新兴学科 。 生物信息学还有另一个经常被使用
的名字:“计算生物学” (computational biology),此
外“计算分子生物学” (computational molecular
biology)和“生物分子信息学” (biomolecular
informatics)等也被使用过。
第一章 绪论
生物信息学研究基因组相关生物信息的
获取、加工、储存、分配、分析和解释 的科
学。这一定义包括了两层含义,一是对数据
的收集、整理与服务,也就是管好这些数据;
另一个是从中发现新的规律,也就是用好这
些数据。
数 据
信 息
知 识
理 论
实验
生物学
计算
生物学
理论
生物学
生命现象的众多层次
? 生态系统
? 生物多样性、种群动力学
? 个体、器官、组织
? 细胞及其通信、信号传导
? 免疫网络、调控网络、代谢网络
? 复制、转录、剪接、翻译、运输
? 生物大分子, 蛋白质、核酸( DNA,RNA)、多糖
? 小分子 (寡糖、单糖、脂肪、核苷酸、氨基酸、激素、
维生素 )、金属离子、水分子和原子的相互作用
? 动物、植物、微生物
? 现存物种知多少?
从 2 百万到 10亿的种种估计
? 2003年 11月初 GenBank核酸数据库中有
154 089 种生物至少有 1条数据
其中只有约半数有某些分类学信息
生物多样性
引自 Neil Campbell著 Biology第 4版,1996
生物界
病毒
细菌
引自 J Postlethwait & J Hopson著 The Nature of Life,1989
从基本粒子到生物圈
植物细胞动物细胞
HIV 病毒
引自 Neil Campbell著 Biology第 4版,1996
细胞分裂
人类 23对染色体
Nature 171,737-734 (1953) (C) Macmillan Publishers
Ltd,
Molecular structure of Nucleic Acids
WATSON,J,D,& CRICK,F,H,C.
Medical Research Council Unit for the Study of
Molecular Structure of Biological Systems,
Cavendish Laboratory,Cambridge,
Figure 1
This figure is purely
diagrammatic,The
two ribbons
symbolize the two
phophate-sugar
chains,and the
horizonal rods the
pairs of bases
holding the chains
together,The
vertical line marks
the fibre axis.
A Structure for Deoxyribose
Nucleic Acid
DNA-遗传密码的携带者
引自 Neil Campbell著 Biology第 4版,1996
5 ’ - UT R 3 ’ - UT R
tr an scr i b e
Ge n om ic D N A
P re - mRNA
sp l i c e
mRNA
tr an sl ate
AA seq ( p rotein p rima ry seq )
fol d
P rotein f old
sta rt sto p
5 ’ 3 ’
RNA P ol II + …
sp lic e some
u 1 u 2 u 4 u 5 u 6 RNP
r ib some
in it,
+ e long, f ac t or s
t e r m,
c h ape r onin e
中心法则
模式生物
? 噬菌体 (Bacteriophage,lambda,T4,T7)
? 病毒 (Viruses,SV40,HIV)
? 大肠杆菌 (Escherichia coli)
? 酵母 (Saccharomyces cerevisiae,yeast budding)
? 线虫 (Caenorhabitidis elegans,nematode,worm)
? 果蝇 (Drosophila melanogaster,fruitfly)
? 拟南芥 (Arabidopsis thaliana)
? 水稻 (Oryza sativa,rice)
? 非洲爪蟾 (Xenopus laviae,African frog)
? 斑马鱼 (Danio rerio,Zebra fish)
? 小鼠 (Mus musculus,mouse)
? 智人 (Homo sapiens)
? 以蛋白质核酸等生物大分子为主要 研究对象
? 以信息、数理、计算机科学为主要 研究手段
? 以计算机网络为主要 研究环境
? 以计算机软件为主要 研究工具
? 对序列数据进行 存储、管理、注释、加工
? 对各种数据库进行 查询、搜索、比较、分析
? 构建各种类型的专用 数据库信息系统
? 研究开发面向生物学家的 新一代计算机软件
生物信息的开发和应用
生物信息学研究方法和目标
? 利用数理统计、模式识别、动态规划、密码解
读、语意解析、信号传递、神经网络、遗传算
法以及隐马氏模型等各种方法 对序列、结构数
据 进行 定性和定量分析,从中获取基因编码、
基因调控、序列 -结构 -功能关系等理性知识
? 阐明细胞、器官和个体的发生、发育、病变、
衰亡的基本规律和 时空联系
? 探索生命起源、生物进化、生命本质等重大理
论问题,最终建立,生物学周期表,
生物信息学 – 研究方向
? 基因组序列装配
? 基因识别
? 基因功能预报
? 基因多态性分析
? 基因进化
? mRNA结构预测
? 基因芯片设计
? 基因芯片数据分析
? 疾病相关基因分析
? 蛋白质序列分析
? 蛋白质家族分类
? 蛋白质结构预测
? 蛋白质折叠研究
? 代谢途径分析
? 转录调控机制
? 蛋白质芯片设计
? 蛋白质芯片数据分析
? 药物设计
二、生物信息学发展简史
(1) 萌芽期 (60-70年代 ):以 Dayhoff的替换矩阵和 Neelleman-
Wunsch算法为代表,它们实际组成了生物信息学的一个最基
本的内容和思路:序列比较。它们的出现,代表了生物信息学
的诞生 (虽然“生物信息学”一词很晚才出现 ),以后的发展基
本是在这 2项内容上不断改善;
(2) 形成期 (80年代 ):以分子数据库和 BLAST等相似性搜索程
序为代表。 1982年三大分子数据库 (GenBank,EMBL和 DDBJ)
的国际合作使数据共享成为可能,同时为了有效管理与日俱增
的数据,以 BLAST,FASTA等为代表的工具软件和相应的新
算法大量被提出和研制,极大地改善了人类管理和利用分子数
据的能力。在这一阶段,生物信息学作为一个新兴学科已经形
成,并确立了自身学科的特征和地位;
(3) 高速发展期 (90年代 -至今 ):以基因组测序与分析为代表。
基因组计划,特别是人类基因组计划的实施,分子数据以
亿计;基因组水平上的分析使生物信息学的优势得以充分
表现,基因组信息学成为生物信息学中发展最快的学科前
沿。
欧美各国及日本相继成立了生物信息中心,如美
国的国家生物技术信息中心( National Center
for Biotechnology Informatics,NCBI)、欧洲
生物信息学研究所 (European Bioinformatic
Institute,EBI)、日本信息生物学中心( Center
for Information Biology,CIB)等。 NCBI,EBI
和 CIB相互合作,共同维护着 GenBank,EMBL、
DDBJ三大基因序列数据库。它们每天通过计算机
网络互相交换数据,使得三个数据库能同时获得
最新数据。此外,他们每年召开两个年会讨论合
作事宜。
国外发展现状
清华大学在基因调控及基因功能分析、蛋白质二级结构
预测方面、天津大学物理系和中科院理论物理所在相关
算法方面、中科院生物物理所在基因组大规模测序数据
的组装和标识方面、北京大学化学学院物理化学研究所
在蛋白质分子设计方面、华大基因组研究中心(中科院
遗传所人类基因组研究中心)在大规模测序数据处理自
动化流程体系及数据库系统建立方面均已展开相关研究。
北京大学已建立了 EMBL中国镜像数据库,将该数据库移
植到中国本地,并提供部分的检索服务 http:
//www.Ipc.pku.edu.cn/mirror/mirror.html; http:
//www.Ebi.pku.edu.cn);复旦大学遗传学研究所为克
隆新基因而建立的一整套生物信息系统也已初具规模;
中科院上海生化所、生物物理所等单位在结构生物学和
基因预测研究方面也有相当的基础。
国内发展现状
1962 Pauling提出分子进化理论
1967 Dayhoff构建蛋白质序列替换矩阵
1970 Needleman-Wunsch算法被提出
1977 Staden利用计算机软件分析 DNA序列
1981 Smith-Waterman算法出现
1981 序列模序 (motif)的概念被提出 (Doolittle)
1982 GenBank数据库 (Release3)公开。三大核酸数据库
(GenBank,EMBL和 DDBJ)开始国际合作
1982 λ-噬菌体基因组被测序
1983 Wilbur和 Lipman提出序列数据库的搜索算法 (Wilber-
Lipman算法 )
1985 快速序列相似性搜索程序 FASTP/FASTN发布
1988 美国家生物技术信息中心 (NCBI)创立
1988 欧洲分子生物学网络 EMBnet创立
1990 快速序列相似性搜索程序 BLAST发布
1991 表达序列标签 (EST)概念被提出,从此开创 EST测序
1993 英国 Sanger中心迁址英国 Hinxton
1994 欧洲生物信息学研究所在英国 Hinxton成立
1995 第一个细菌基因组测序完成
1996 酶母基因组测序完成
1997 PSI-BLAST(BLAST系列程序之一 )发布
1998 PhilGreen等人研制的自动测序组装系统 Phred-Phrap-
Consed系统正式发布
1998 多细胞线虫基因组测序完成
1999 果蝇基因组测序完成
2000 人类基因组测序基本完成
2001 人类基因组初步分析结果公布
2004年 人类基因组测序计划完成
基因 ( gene) 是脱氧核糖核酸 ( DNA) 分子上具有遗传效应的特定
核苷酸序列的总称, 遗传信息通过基因得到表达, 也就是使遗传信息以
一定的方式反映到蛋白质的分子结构上从而使后代表现出与亲代相似的
性状 。
基因组 ( genome) 是基因 ( gene) 和染色体 ( chromosome) 的缩合 。
对于细菌等低等的简单生物 ( 所谓的原核生物 ) 而言, 它们的基因组就
是指其单个染色体上所含的全部基因, 而复杂生物 ( 真核生物 ) 的基因
组是指维持正常的遗传功能的最基本的一套染色体及其所携带的全部基
因 。 人类基因组约含 6万至 10万个基因, 由约 30亿对碱基组成 。
人类基因组计划 (Human Genome Project,HGP):美国科学家在 1985
年提出,旨在阐明人类基因组 DNA 中大约 30亿 个核苷酸的序列,发现所有
人类基因并阐明其在染色体上的位置,破译人类全部遗传信息,使得人类第
一次在分子水平上全面地认识自我 。
基因组和人类基因组计划
人类基因组计划的主要内容
构建生物高分辩率的遗传图谱、物理图谱、转录图 (或
基因图 ) 和序列图谱:
遗传图( Genetic map)的绘制,是指以具有遗传
多太性的遗传标记为“路标”,以遗传学(重组)距
离为“图距”的基因组图,是基于遗传功能而建立的
图谱。单位为分摩尔根( cM)。
物理图( Physical map)的绘制,是指以一段已知核苷
酸序列的 DNA片段为标记(序列标记位置,sequence
tegged sits,STS)、以碱基对的大小为图距( Mb,Kb)
作出的基因组 DNA图谱。
表达序列标签 (expressed equencetag,EST)和转录图 (或
基因图 )的制作,通过从不同组织提取 mRNA,合成
cDNA,然后进行大规模测序。 cDNA片段被称为表达
序列标签。转录图将庞大的人类基因组分隔成较小的
结构单位,从而为大规模测序奠定基础。
序列图:约 30亿个核苷酸组成的人基因组 DNA全序列。
1985
Sinsheimer 在美国加州大学主
持召开了会议,讨论人类基因组
测序的可能性
1988
美国卫生研究院( NIH)成立人
类基因组研究办公室,沃森任负
责人( 9月)
1991
文特尔( Venter)提出利用表达
序列标签( EST)发现基因的策
略( 6月)
1992
美国和法国科学家完成染色体的
第一张物理图谱(图中为美国
Page领导的研究小组)( 10月)
1993
Sanger中心在英国 Hinxton建立,
由 Sulston 领导。该中心后来成
为国际协作组的主要测序实验室
之一( 10月)
1994
Murray和 Cohen等发表完整的人
类基因组遗传连锁图谱,标记平
均间距 0.7cM( 9月)
2000
国际人类基因组计划( HGP)和
塞莱拉 公司在美国 白宫联合 宣 告
人类基因工作 草 图完成。图中分
别为( 从左 到 右 )文特尔、克 林
顿 和科 林斯 ( 6月)
2001
国际人类基因组计划( HGP)协
作组 织 在 Nature( 2月 15日)上
发表人类基因组工作 草 图,塞莱
拉 公司在 Science( 2月 16日)上
公开 他们 的 草 图
三、生物信息学的主要研究内容
1,生物信息的收集、存储、管理与提供。
包括:
? 获取人和各种生物的完整基因组信息
? 建立国际基本生物信息库和生物信息传输的国
际联网系统;
? 建立生物信息数据质量的评估与检测系统;
? 生物信息的在线服务;
? 生物信息可视化和专家系统。
种属 已经完成 正在进行
古细菌 9 13
真细菌 31 177
真核生物 5 ( 14 ) 127
? 编号,U00096
? 名称,Escherichia coli
? 菌株,K-12 MG1655
? 基因数,4293个
? 碱基数,4639221 bp
水稻叶绿体基因组
可能曾经是一种光合细菌
?全部由 A,C,G,T四种核苷酸组成
的序列
?粳稻(日本 1989),134525个字母
籼稻(中国 2001),134559个字母
cccaatatcttgcttcagcaagatattgggtatttctagctttcctttcttcaaaaattgctatatgttagcagaaaagccttatccattaagagat ggaacttcaagagcagctaggtctagagggaagttgtgagcattacgttcgtgcattacttccataccaagattagcacggttgat gatatcagccc
aagtattaataacgcgaccttggctatcaactacagattggttgaaattgaatccgtttagattgaaagccatagtactaatacctaaagcagt gaaccaaatccctactacaggccaagcagcc aagaagaagt gtaaagaacgagagttgttaaaactagcatattggaagattaatcggccaaa
ataaccatgagcggccacaatattataagtttcttcctcttgaccaaatctgtaaccctcattagcagattcgttttcagtggtttccctgatcaaactagaggttaccaaggaaccatgcatagcactgaatagggaaccgccgaatacaccagctacacctaacat gtgaaatggatgcataaggat
gttatgctctgcctggaatacaatcataaagttgaaagtaccagatattcctaaaggcataccatcagagaaacttccttgaccaatagggtaaatcaagaaaacagcagtagcagctgcaacaggagct gaatatgcaacagcaatccaaggacgcatacccagacggaaactcagttcccact
cacgacccatataacaagctacaccaagtaagaagtgtagaacaattagctcataaggaccaccattgtataaccactcatcaacagat gcagcttcccaaattgggtaaaagtgcaatccgatc gccgcagaagtaggaataat ggcaccagagataatattgtttccgtaaagtaaagaacca
gaaacaggctcacgaataccatcaatatctactggaggggcagcgat gaaggcgataataaatacagaagttgcggtcaataaggtagggatcatcaaaacaccgaaccatccgatgtaaagacggttttcggtgctagttatccagttgcagaagcgaccccacaggcttgtactttcgcgtct
ctctaaaattgcagtcatggtaagatcttggtttattcaaattgcaaggactcccaagcacacgtattaactagaaagataatagaaggcttgttatttaacagtataatatagactatataccaat gtcaaccaagccagccccgacagttgtatatccatacaacaaaatttaccaaaccaaaaaatttt
gtaaatgaagtgagtgaaaaatcaaaactcagattgctcctttctagtttccatatgggttgcccgggactcgaacccggaactagtcggatggagtagataattattccttgttacaatagagaaaaaacctctccccaaatcgt gcttgcatttttcattgcacacgactttccctatgtagaaataggc
tatttctattccgaagaggaagtctactaatttttttagtagtaagttgattcacttactatttattatagtacagagaacatttcagaatggaaact gtgaaagttttaccttgatcatttatcaatcatttctagtttattagttttgtttaatgattaattaagaggattcaccagatcattgatacggagaatatcca
aataccaaatacgctcactgtgcgatccacggaaagaaaagtaagttgttttggcgaacatcaaagaaaaaacttgctcttcttccgtaaaaaattcttctaaaaataccgaacccaaccattgcataaaagctcgtaccgtgcttttatgtttacgagctaaagttctagcgcatgaaagtcgaagtata
tactttagtcgatacaaagtcttcttttttgaagatccactgtgataatgaaaaagatttctacatatccgaccaaaccgatcaagaatatcccaatccgataaatcggtccaaattggtttact aataggatgccccgatccagtacaaaattgggcttttgctaaagatccaat gagaggagtaacagg
gactttggtatcgaattttttcatttgagtatctattagaaatgaattctccagcatttgattccttactaacaaagaatttattggtacacttgaaaagtaccccagaaaatcgaagcaagagt tttctaattggtttagatggatcctttgcggttgagtccaaaaagagaaagaatattgccacaaacggac
aaggtaacatttccatttcttcttcaaaagaagagttccttttgatgcaagaattgcctttccttgatatcgaacataatgcataaggggatccataacgaaccatatggttttccgaaaaaaagcagggtacattaacccaaaat gttccatcttcctagaaaagatgattcgttccagaaaggttccgga
agaagttaatcgcaagcaagaagattgtttacgaagaaacaacaagaaaaattcatattctgatacataagagttatataggaaccgaaatagtcttttattttcttttttcaaaataaaaatggatttcattgaagtaataaaactattccaattcgagtagtagttgagaaagaatcgcaataaatgcaag
gatggaacatcttggatccggtattgaaggagttgaagcaagatatccaaat ggataggatagggtatttctatatgtgctagataatgtaagt gcaaaaatttgtcttctaaaaaaggaaatat tgaatgaatagatcgtaaattctgaaactttggtatttctttttcttccggacaagactgttctcgtagc
gagaatgggatttctacaacgatcgcaaacccctcagatagaatctgagaataaaactcagaataaaaaaaattgttgtaatccaataatcgatcttggttaggatgattaaccaaattaatccaaaaattctgctgatacattcgaatcattaaccgtttcacaagtagtgaactaaatttcttgttattaga
accaataatttcgacaagttcggaaccatttaatccataatcatgggcaaacacataaat gtactcctgaaagagtagtgggtagacgaaatattgtctaggaaatttaagtttttctgaataaccctcgaatttttccatttgtatttctacttgaatcagagagagagaaatatttctcggtttatcaaatggt
gatacatagtacaatatggtcagaacagggt gttgcattttttaatacaaacccctggggaagaaaaggagtctaatccacggatctttttccgctccttttctatccaatttgtttatgtttgt tctaattacaaaagagaacaaatcctttatttttgcaggccaattgctcttttgactttgggatacagtctctt
tatcaatatactgcttcttttacacattcaatccataacatccttttcaatccaaaatcaagaataattaggatttctaaaaaaaaaagaaaaaatcaaaggtctactcataggaaaaccagctt ttccctacatcaggcactaatctatttttaacgtctaattagatcagggagttcttccaattaagaagtta
agctcgttgctttttgttttaccagaattggagccaggctctatccatttattcattagacccagaaaatcagaatttttttattccattccaaaaatccaaaataagaaattgattttattacgacatgctattttttccattcattacccttgaggatcagtcgcggtcttatagactctaccaagagtctggacg
aattttttgcttcatccaaatgtgtaaaagatcatagtcgcacttaaaagccgagtactctaccattgagttagcaacccagataaactaggatcttagatacgatcgaaatccaaaaatcaatggaattacaccgcacacccctgtcaaaatcttaaaatagcaagacattaaaagaaagattttatcac
cattgaaaacactcagataccaaaaggaacgggtctggttaaatttcactaaggttaaaagt ggcaccaatcacgatcgtaaaattgtcatttttttagcatttttatttaaataaataaataaatcttgtatgagagtacaaacaagagggacaaccctaccatttgagcaaagtgtaggcaaaaaacct
aatagggagtgaggataaagagacttatccatctacaaattctagatgttcaatggacctttgtcaatggaaatacaatggtaagaaaaaaattagatagaaaaactcaaaaaaataaaggcttatgttggattggcacgacataaatccagtcaaaaataggattaagaaagaggcaaattatttcta
aatagttagacaacaagggatactagtgagcctctcctagttttttattcatttagttcttcaattaactcaaagttctttctttttctttaaagaattccgccttccttaaaatatcagaaacggttcttgtaggttgagcacctttttcaaggaaatagagaatagctggaacatttaaacaagtttgattctttatc
ggatcataaaaacctacttttcgaagatctcttccttctcttcgagatcgaacatcaattgcaacgattcgatagacagcttattgggatagatgtagataaataaagccccccctagaaacgtataggaggttttctcctcatacggctcgagaatatgacttgcattaatttccgtacagaaaaaacaaa
tttcatttatactcatgactcaagttgactaattttgattgacagacttgaaagaaaaaaatcctttgaaattttttgagtcgtctctaaactcttttctttgcctcatctcgaacaaattcact tttattccttattccggtccaattctattgttgagacagttgaaaatcgtgtttacttgttcgggaatcctttatcttt
gatttgtgaaatccttgggtttaaacattacttcgggaattcttattcttttttctttcaaaagagtagcaacatacccttttttcttatttccttcgataaagcatttccctcttctatagaaatcgaatatgagcgattgattctgatagactttaatcaaaagagttttcccatatcttccaaaattggactttcttctta
ttttaaccttttgatttctatattatttcgatttctatattaagggtagaatgacaaagttggcctaatttattagttttcactaaccctagattctttcccttgataaaaaataaattctgtcctctcgagctccatcgtgtactatttacttagcttacttacaaacaacccagcgaaaattcggttcgggacgaatag
aacagactatgtcgagccaagagcattttcattactatggaaaatggt ggatagcaaaatccacaatcgatcgt gtccttcaagtcgcacgttgctttctaccacatcgttttaaacgaagtttt aacataacattcctctaatttcattgcaaagtgttatagggaattgatccaatatggat ggaatcat ga
atagtcattagtttcgttttttgtatactaattcaaacttgctttgctatctatggagaaatatgaataaaagaaattaagtatttatcgggaaagactccgcaaagagccaatttatttaaacccatattctatcatatgaatgaaatatagttcgaaaaaagggaataaacaagtttgcttaagacttatttattat
ggaatttccatcctcaacagaggactcgagatgatcaatccaatcctgaaatgataagagaagaattgactcttctccaacaaataaactatcaacctcccgtttaattaatttaattaatatat tagattagcaatctatttttccataccatttttccgtaacaaaactaattaactattaactagttaaactatt
gcaatgaaaagaaagttttttggtagttatagaattctcgtatttcttcgactcgaataccaaaagaaagaaaaaaat gaagtaaaaaaaacgcatttcctgtaaagtaaaattaaggtctttgcttttacttattttttcttttacctaaaagaagcaactccaaatcaaaattgaatccattctatctaacgag
cagttcttatcttatctttaccgggatggatcattctggatatttaaaaaatcgcggatcgagatcgtttttgcttaaccaaagaaagaaaaagaagaaggaaccttttttactaataaaatact ataaaaaaaatttatctctatcataaatctatctctaccataaaggaataggtctcgttttttatacaatgtt
ctacgtcaagtttaaaattttttcatgaaaaaaagattttcaatttgactggacttgacactggattatgttttctgagacagaaaat gaacgcattaggactgcatcgaatctaagagtttataagagaaaaaaattctctttaataaactttatgtctcgtgcagaatacaatacgatttcatctttcgtttcatc
agaaaaaatctgggacggaaggattcgaacctccgagtaacgggaccaaaacccgctgccttaccacttggccacgccccatttcgggttttatgcgacactaataaacagtattatgtttattt cttattcgtcaatcctacttcaattacataaaaatggggggtattctcttggtaggattctagacat
gcgaataatatagaatccaaaaaatgcattgatcattacatggaattctattaagatattatatgaaagtcgaatttcttccactctcatttgagagtgcgaatacaaggaggtattttgtgttt gggaaagtccgaagaaaaaaggattttgaatcctccttttcctttttcccttagaaaaataactcaatcaa
aatccaattatctactctacaagaacgaaacgcttgttatgcctaatatacttagtttaacctgtatttgttttaattctgttatttatccgactagttttttcttcgccaaattgcccgaagct tatgccattttcaatccaatcgtggattttatgcctgtcatacctgtactcttttttctattagcctttgtttggcaag
ctgctgtaagttttcgatgaaatctttactactctgtctgccaaattgaatcatgtattcattctaaaaaaattcgaaaaatggataagagccgagaagtcttatattatgaaccttcgattctaaaattcaaattcttctacattgaatgtatagctgcagcaataaatttggatcagcctttctactccctgcatc
tacgttgagcaggtatctttaggtaaccgcacaatacctaacctaatttattgataagagt gcttattataaatcaattcttgcaatttttttcaaaaattgatttttgcatttttaggtgtcaaaataaacaaaacccatcctagtggatttgtgtggtaaggaaaaacgggtaatctattccttaaaaaaaaatct
tggagattatgtaatgcttactctcaaactttttgtttatacagtagtgatattctttgtttccctctttatctttggattcttatctaatgatccaggacgtaatcctgggcgt gacgagtaaaaatccaaaattttttcttacaaattggatttgtttcatacatttatctacgagaaaatccgggggtcagaattcctt
ccaattcgaaagtcccaaacgatccgagggggcggaaagagagggattcgaaccctcggtacaaaaaaattgtacaacggattagcaatccgccgctttagtccactcagccatctctccccgtt ccaaatcgaaaggtttccgtgatatgacagaggcaagaaataacgattgcaaaaaatcc
ttcctttttctttcaaaagttcaaaaaaattatattgccaattccattttagttatattcttttttcttaatgttaataaaaaaaagaagaaaattcttcttttttctttctaattctaaaattggatattggctaaaagacaatcagatagattttctcttcagcaggcatttccatataggacttgttataataaaacaagca
ggttatagaaaaaaactcttttttttattatttatcaacaaagcaaaaaggggtcttatcaaaccaacccaccccataaaattggaaagaaagataaagtaagtggacctgactccttgaat gaggcctctatccgctattctgatatataaattcgatgtagatgaaattgtataagtggatttttttgtatttc
cttagacttagaccacgcaaggcaagaatttctcgctatttactatttcatattcttgttactagatgttctataggaataagaagaaatcgcaacccctttccgctacacataaaaatggattt cgaaagtcaatttttcttttcaatatctttactttttttcagaatcctatttttgttcttatacccatgcaataga
gagcgagtgggaaaagggaggttactttttttcattttttccttaaaaaataggctttcttggaaataggaatcatggaataatctgaattccaatgtttatttctatagtataagaaaaactaattgaatcaaattcatggatttaccacgacctcggct gtgaccccatagataaaaatgcaaaatttctatct
tcgagaccattgaaaaaaggcattgaacgagaaaaaatcgtccacagataatctatcgtatgccttggaagtgatataaggtgctcggaaat ggttgaagtaattgaataggaggatcactatga ctatagcccttggtagagttactaaagaagaaaat gatttatttgatattatggacgactggtta
cgaagggaccgttttgtttttgtaggatggtctggcctattgctttttccttgtgcttatttcgctttaggaggttggtttacagggacaacttttgtaacttcttggtatacccatggattggc gagttcctatttggaaggttgcaatttcttaaccgcagcagtttccacccct gccaatagtttagcacactct
ttgttgctactatggggcccggaagcacaaggggattttactcgttggtgtcaattaggt ggtctgtggacttttgttgctctccatggggcttttgcactaataggtttcatgttacgtcaatt tgaacttgctcggtctgttcaattgcggccttataatgcaatttcattctctggcccaatcgctgtttttgttt
ccgtattcctgatttatccactggggcaatccggttggttctttgcgccgagttttggcgtagcagcgatatttcgattcatcctcttcttccaaggatttcataattggacgttgaacccattt catatgatgggagttgccggagtattaggcgcggctctgctatgcgctattcatggggcaaccgtgga
2001年,人类基因组草图完成 2002年,水稻基因组测序完成
国际著名生物信息中心
Bioinformatics Centres
NCBI National Center for Biotechnology Information (US)
EBI European Bioinformatics Institute (EU)
HGMP Human Genome Mapping Project Resource Centre (UK )
ExPASy Expert of Protein Analysis System (Switzerland )
CMBI Centre of Molecular and Biomolecule (The Netherlands)
ANGIS National Genome Information Service (Australia)
NIG National Institute of Genetics (Japan)
BIC National Bioinformatics Centre (Singapore)
欧洲分子生物学网络组织 (EMBnet)
European Molecular Biology Network
EMBnet为国际著名生物信息学组织,为世界各国提供生物
信息资源,并合作进行生物信息的研究、开发、应用和人
才培训。
EMBnet国家节点
欧洲,
奥地利、比利时、丹麦、法国、芬兰,德国、
希腊 匈牙利、爱尔兰、以色列、意大利、挪威、
波兰、葡萄牙, 斯洛伐克,西班牙、瑞典、瑞士、
荷兰、土耳其、英国
亚洲, 中国,印度 澳洲, 澳大利亚
北美洲, 加拿大 非洲,南非
南美洲, 阿根廷、古巴、智利、墨西哥
核酸序列数据库
? Genbank,美国国家生物技术信息中心的数据
库( available at
http://ncbi.nhm.nlm.gov)。
? EMBL,建立在欧洲分子生物实验室的数据库
(available at http://www.embl-
heidelberg.de)。
? DDBJ,日本的 DNA数据库银行( available at
http://www.nig.ac.jp )。
其他重要数据库
? 酵母基因组数据库( SGD)
? 酵母蛋白质数据库( YPD)
? 拟南芥数据库( AtDB)
? 医学数据库( OMIM)
? 线虫数据库( ACEDB)
三维结构数据库
? PDB( available at
http://www.ipc.pku.edu.cn/npdb )等。
? 与蛋白质结构有关的数据库还有:
? SCOP( available at
http://www.ipc.pku.edu.cn/scop/ )等。
? 与基因组有关的数据库:
? OMIM( available at
http://www3.ncbi.nlm.nih.gov/omim/)。
生物信息数据库的主要服务
借助特定的算法模型提供同源性分析是目
前各种生物信息数据库的最重要内容之
一。
生物技术和信息技术是 21世
纪的两大经济发展支柱,生
物信息学是生命科学和信息
科学的结合点,是当今自然
科学新的前沿领域。生物信
息资源建设是生物信息研究
开发的基础。
1996年,北京大学加入欧洲分子生物
学网络组织,成为该组织的中国国家
节点,并成立生物信息中心,为生物、
医学、制药、农业、环境等领域的研
究开发提供生物信息资源服务,并开
展二次数据库构建、软件集成、基因
组分析等研究。
欧洲分子生物学网络组织
中国国家节点
National Node
European Molecular Biology Network
北京大学生物信息中心
Centre of Bioinformatics
Peking University
UK
亚太生物信息学网络组织中国节点
数据库查询
数据库搜索
文件下载
网络教程
网络新闻
序列分析
序列装配
分子模型
结构分析
药物设计
2000年 CBI主服务器页面访问量
? 安装了 70多个数据库,提供 200多种软件下载
? 建立了 14个国外著名生物信息中心镜象
? 提供了数据库和文献查询、搜索
? 构建了中华民族基因多样性等专用数据库
? 集成和开发了基于 Web的生物信息软件工具
? 开展了分子模拟、序列分析等应用研究
? 举办了国际国内培训班、讲习班、讨论会
? 开设了生物信息学概论研究生课程
?中华民族基因多样性数据库
?转录因子细胞特异性数据库 Cytomer
?蛋白质结构域数据库 Domain
?蛋白质回环数据库 Loop
?水稻矮缩病毒数据库 RDV
?二硫键信息数据库 Bridge
构建二次数据库
中华民族基因多态性数据库
水稻矮缩病毒基因组数据库
转录因子细胞特异表达数据库
蛋白质回环数据库
蛋白质二硫键数据库
廖黔宁,罗静初,周培爱,顾孝诚,梁宋平,虎纹捕鸟蛛毒素 -I突变体的设计、
合成和活性鉴定,中国生物化学和分子生物学学报,5(5):756-761,1999年。
SY Lu,PC Deng,XC Liu,JC Luo,RS Han,XC Gu,SP Liang,XC Wang,F Li,V
Lozanov,A Patthy and S Pongor,Solution structure of the Major a-amylase
inhibitor of the crop plant amaranth,J,Biol,Chem,274 (29):20473-20478,1999,
拟南芥突变体库数据库 —北大耶鲁合作项目
1.生物大分子结构模拟和药物设计
包括
RNA(核糖核酸 )的结构模拟和反义 RNA的分子设计;
蛋白质空间结构模拟和分子设计;
具有不同功能域的复合蛋白质以及连接肽的设计;
生物活性分子的电子结构计算和设计;
纳米生物材料的模拟与设计;
基于酶和功能蛋白质结构、细胞表面受体结构的药物
设计;
基于 DNA结构的药物设计等。
Computer Aided Vaccine Design
System
Database
Articles
Lab Work
Algorithm(ANN),
Analysis Program,
Adjust Program…
Data Flow
Right/Wrong?
Right/Wrong?
Answer
Answer
2.生物信息分析的技术与方法研究
包括
发展有效的能支持大尺度作图与测序需要的软件、数
据库以及若干数据库工具,诸如电子网络等远程通讯
工具;
改进现有的理论分析方法,如统计方法、模式识别方
法、隐马尔科夫过程方法、分维方法、神经网络方法、
复杂性分析方法、密码学方法、多序列比较方法等;
创建一切适用于基因组信息分析的新方法、新技术。
包括引入复杂系统分析技术、信息系统分析技术等;
建立严格的多序列比较方法;
发展与应用密码学方法以及其他算法和分析技术,
用于解释基因组的信息,探索 DNA序列及其空间结构信
息的新表征;
发展研究基因组完整信息结构和信息网络的研究方
法等;
发展生物大分子空间结构模拟、电子结构模拟和药
物设计的新方法与新技术。
3.应用与发展研究 。
汇集与疾病相关的人类基因信息,发展患者样品序列
信息检测技术和基于序列信息选择表达载体、引物的
技术 ;
建立与动植物良种繁育相关的数据库以及与大分子设
计和药物设计相关的数据库。
Bioinformatics
一、生物信息学的概念
生物信息学( Bioinformatics) 是现代生物学、物
理学、数学、计算机科学、信息学等学科交叉而形成
的一门 新兴学科 。 生物信息学还有另一个经常被使用
的名字:“计算生物学” (computational biology),此
外“计算分子生物学” (computational molecular
biology)和“生物分子信息学” (biomolecular
informatics)等也被使用过。
第一章 绪论
生物信息学研究基因组相关生物信息的
获取、加工、储存、分配、分析和解释 的科
学。这一定义包括了两层含义,一是对数据
的收集、整理与服务,也就是管好这些数据;
另一个是从中发现新的规律,也就是用好这
些数据。
数 据
信 息
知 识
理 论
实验
生物学
计算
生物学
理论
生物学
生命现象的众多层次
? 生态系统
? 生物多样性、种群动力学
? 个体、器官、组织
? 细胞及其通信、信号传导
? 免疫网络、调控网络、代谢网络
? 复制、转录、剪接、翻译、运输
? 生物大分子, 蛋白质、核酸( DNA,RNA)、多糖
? 小分子 (寡糖、单糖、脂肪、核苷酸、氨基酸、激素、
维生素 )、金属离子、水分子和原子的相互作用
? 动物、植物、微生物
? 现存物种知多少?
从 2 百万到 10亿的种种估计
? 2003年 11月初 GenBank核酸数据库中有
154 089 种生物至少有 1条数据
其中只有约半数有某些分类学信息
生物多样性
引自 Neil Campbell著 Biology第 4版,1996
生物界
病毒
细菌
引自 J Postlethwait & J Hopson著 The Nature of Life,1989
从基本粒子到生物圈
植物细胞动物细胞
HIV 病毒
引自 Neil Campbell著 Biology第 4版,1996
细胞分裂
人类 23对染色体
Nature 171,737-734 (1953) (C) Macmillan Publishers
Ltd,
Molecular structure of Nucleic Acids
WATSON,J,D,& CRICK,F,H,C.
Medical Research Council Unit for the Study of
Molecular Structure of Biological Systems,
Cavendish Laboratory,Cambridge,
Figure 1
This figure is purely
diagrammatic,The
two ribbons
symbolize the two
phophate-sugar
chains,and the
horizonal rods the
pairs of bases
holding the chains
together,The
vertical line marks
the fibre axis.
A Structure for Deoxyribose
Nucleic Acid
DNA-遗传密码的携带者
引自 Neil Campbell著 Biology第 4版,1996
5 ’ - UT R 3 ’ - UT R
tr an scr i b e
Ge n om ic D N A
P re - mRNA
sp l i c e
mRNA
tr an sl ate
AA seq ( p rotein p rima ry seq )
fol d
P rotein f old
sta rt sto p
5 ’ 3 ’
RNA P ol II + …
sp lic e some
u 1 u 2 u 4 u 5 u 6 RNP
r ib some
in it,
+ e long, f ac t or s
t e r m,
c h ape r onin e
中心法则
模式生物
? 噬菌体 (Bacteriophage,lambda,T4,T7)
? 病毒 (Viruses,SV40,HIV)
? 大肠杆菌 (Escherichia coli)
? 酵母 (Saccharomyces cerevisiae,yeast budding)
? 线虫 (Caenorhabitidis elegans,nematode,worm)
? 果蝇 (Drosophila melanogaster,fruitfly)
? 拟南芥 (Arabidopsis thaliana)
? 水稻 (Oryza sativa,rice)
? 非洲爪蟾 (Xenopus laviae,African frog)
? 斑马鱼 (Danio rerio,Zebra fish)
? 小鼠 (Mus musculus,mouse)
? 智人 (Homo sapiens)
? 以蛋白质核酸等生物大分子为主要 研究对象
? 以信息、数理、计算机科学为主要 研究手段
? 以计算机网络为主要 研究环境
? 以计算机软件为主要 研究工具
? 对序列数据进行 存储、管理、注释、加工
? 对各种数据库进行 查询、搜索、比较、分析
? 构建各种类型的专用 数据库信息系统
? 研究开发面向生物学家的 新一代计算机软件
生物信息的开发和应用
生物信息学研究方法和目标
? 利用数理统计、模式识别、动态规划、密码解
读、语意解析、信号传递、神经网络、遗传算
法以及隐马氏模型等各种方法 对序列、结构数
据 进行 定性和定量分析,从中获取基因编码、
基因调控、序列 -结构 -功能关系等理性知识
? 阐明细胞、器官和个体的发生、发育、病变、
衰亡的基本规律和 时空联系
? 探索生命起源、生物进化、生命本质等重大理
论问题,最终建立,生物学周期表,
生物信息学 – 研究方向
? 基因组序列装配
? 基因识别
? 基因功能预报
? 基因多态性分析
? 基因进化
? mRNA结构预测
? 基因芯片设计
? 基因芯片数据分析
? 疾病相关基因分析
? 蛋白质序列分析
? 蛋白质家族分类
? 蛋白质结构预测
? 蛋白质折叠研究
? 代谢途径分析
? 转录调控机制
? 蛋白质芯片设计
? 蛋白质芯片数据分析
? 药物设计
二、生物信息学发展简史
(1) 萌芽期 (60-70年代 ):以 Dayhoff的替换矩阵和 Neelleman-
Wunsch算法为代表,它们实际组成了生物信息学的一个最基
本的内容和思路:序列比较。它们的出现,代表了生物信息学
的诞生 (虽然“生物信息学”一词很晚才出现 ),以后的发展基
本是在这 2项内容上不断改善;
(2) 形成期 (80年代 ):以分子数据库和 BLAST等相似性搜索程
序为代表。 1982年三大分子数据库 (GenBank,EMBL和 DDBJ)
的国际合作使数据共享成为可能,同时为了有效管理与日俱增
的数据,以 BLAST,FASTA等为代表的工具软件和相应的新
算法大量被提出和研制,极大地改善了人类管理和利用分子数
据的能力。在这一阶段,生物信息学作为一个新兴学科已经形
成,并确立了自身学科的特征和地位;
(3) 高速发展期 (90年代 -至今 ):以基因组测序与分析为代表。
基因组计划,特别是人类基因组计划的实施,分子数据以
亿计;基因组水平上的分析使生物信息学的优势得以充分
表现,基因组信息学成为生物信息学中发展最快的学科前
沿。
欧美各国及日本相继成立了生物信息中心,如美
国的国家生物技术信息中心( National Center
for Biotechnology Informatics,NCBI)、欧洲
生物信息学研究所 (European Bioinformatic
Institute,EBI)、日本信息生物学中心( Center
for Information Biology,CIB)等。 NCBI,EBI
和 CIB相互合作,共同维护着 GenBank,EMBL、
DDBJ三大基因序列数据库。它们每天通过计算机
网络互相交换数据,使得三个数据库能同时获得
最新数据。此外,他们每年召开两个年会讨论合
作事宜。
国外发展现状
清华大学在基因调控及基因功能分析、蛋白质二级结构
预测方面、天津大学物理系和中科院理论物理所在相关
算法方面、中科院生物物理所在基因组大规模测序数据
的组装和标识方面、北京大学化学学院物理化学研究所
在蛋白质分子设计方面、华大基因组研究中心(中科院
遗传所人类基因组研究中心)在大规模测序数据处理自
动化流程体系及数据库系统建立方面均已展开相关研究。
北京大学已建立了 EMBL中国镜像数据库,将该数据库移
植到中国本地,并提供部分的检索服务 http:
//www.Ipc.pku.edu.cn/mirror/mirror.html; http:
//www.Ebi.pku.edu.cn);复旦大学遗传学研究所为克
隆新基因而建立的一整套生物信息系统也已初具规模;
中科院上海生化所、生物物理所等单位在结构生物学和
基因预测研究方面也有相当的基础。
国内发展现状
1962 Pauling提出分子进化理论
1967 Dayhoff构建蛋白质序列替换矩阵
1970 Needleman-Wunsch算法被提出
1977 Staden利用计算机软件分析 DNA序列
1981 Smith-Waterman算法出现
1981 序列模序 (motif)的概念被提出 (Doolittle)
1982 GenBank数据库 (Release3)公开。三大核酸数据库
(GenBank,EMBL和 DDBJ)开始国际合作
1982 λ-噬菌体基因组被测序
1983 Wilbur和 Lipman提出序列数据库的搜索算法 (Wilber-
Lipman算法 )
1985 快速序列相似性搜索程序 FASTP/FASTN发布
1988 美国家生物技术信息中心 (NCBI)创立
1988 欧洲分子生物学网络 EMBnet创立
1990 快速序列相似性搜索程序 BLAST发布
1991 表达序列标签 (EST)概念被提出,从此开创 EST测序
1993 英国 Sanger中心迁址英国 Hinxton
1994 欧洲生物信息学研究所在英国 Hinxton成立
1995 第一个细菌基因组测序完成
1996 酶母基因组测序完成
1997 PSI-BLAST(BLAST系列程序之一 )发布
1998 PhilGreen等人研制的自动测序组装系统 Phred-Phrap-
Consed系统正式发布
1998 多细胞线虫基因组测序完成
1999 果蝇基因组测序完成
2000 人类基因组测序基本完成
2001 人类基因组初步分析结果公布
2004年 人类基因组测序计划完成
基因 ( gene) 是脱氧核糖核酸 ( DNA) 分子上具有遗传效应的特定
核苷酸序列的总称, 遗传信息通过基因得到表达, 也就是使遗传信息以
一定的方式反映到蛋白质的分子结构上从而使后代表现出与亲代相似的
性状 。
基因组 ( genome) 是基因 ( gene) 和染色体 ( chromosome) 的缩合 。
对于细菌等低等的简单生物 ( 所谓的原核生物 ) 而言, 它们的基因组就
是指其单个染色体上所含的全部基因, 而复杂生物 ( 真核生物 ) 的基因
组是指维持正常的遗传功能的最基本的一套染色体及其所携带的全部基
因 。 人类基因组约含 6万至 10万个基因, 由约 30亿对碱基组成 。
人类基因组计划 (Human Genome Project,HGP):美国科学家在 1985
年提出,旨在阐明人类基因组 DNA 中大约 30亿 个核苷酸的序列,发现所有
人类基因并阐明其在染色体上的位置,破译人类全部遗传信息,使得人类第
一次在分子水平上全面地认识自我 。
基因组和人类基因组计划
人类基因组计划的主要内容
构建生物高分辩率的遗传图谱、物理图谱、转录图 (或
基因图 ) 和序列图谱:
遗传图( Genetic map)的绘制,是指以具有遗传
多太性的遗传标记为“路标”,以遗传学(重组)距
离为“图距”的基因组图,是基于遗传功能而建立的
图谱。单位为分摩尔根( cM)。
物理图( Physical map)的绘制,是指以一段已知核苷
酸序列的 DNA片段为标记(序列标记位置,sequence
tegged sits,STS)、以碱基对的大小为图距( Mb,Kb)
作出的基因组 DNA图谱。
表达序列标签 (expressed equencetag,EST)和转录图 (或
基因图 )的制作,通过从不同组织提取 mRNA,合成
cDNA,然后进行大规模测序。 cDNA片段被称为表达
序列标签。转录图将庞大的人类基因组分隔成较小的
结构单位,从而为大规模测序奠定基础。
序列图:约 30亿个核苷酸组成的人基因组 DNA全序列。
1985
Sinsheimer 在美国加州大学主
持召开了会议,讨论人类基因组
测序的可能性
1988
美国卫生研究院( NIH)成立人
类基因组研究办公室,沃森任负
责人( 9月)
1991
文特尔( Venter)提出利用表达
序列标签( EST)发现基因的策
略( 6月)
1992
美国和法国科学家完成染色体的
第一张物理图谱(图中为美国
Page领导的研究小组)( 10月)
1993
Sanger中心在英国 Hinxton建立,
由 Sulston 领导。该中心后来成
为国际协作组的主要测序实验室
之一( 10月)
1994
Murray和 Cohen等发表完整的人
类基因组遗传连锁图谱,标记平
均间距 0.7cM( 9月)
2000
国际人类基因组计划( HGP)和
塞莱拉 公司在美国 白宫联合 宣 告
人类基因工作 草 图完成。图中分
别为( 从左 到 右 )文特尔、克 林
顿 和科 林斯 ( 6月)
2001
国际人类基因组计划( HGP)协
作组 织 在 Nature( 2月 15日)上
发表人类基因组工作 草 图,塞莱
拉 公司在 Science( 2月 16日)上
公开 他们 的 草 图
三、生物信息学的主要研究内容
1,生物信息的收集、存储、管理与提供。
包括:
? 获取人和各种生物的完整基因组信息
? 建立国际基本生物信息库和生物信息传输的国
际联网系统;
? 建立生物信息数据质量的评估与检测系统;
? 生物信息的在线服务;
? 生物信息可视化和专家系统。
种属 已经完成 正在进行
古细菌 9 13
真细菌 31 177
真核生物 5 ( 14 ) 127
? 编号,U00096
? 名称,Escherichia coli
? 菌株,K-12 MG1655
? 基因数,4293个
? 碱基数,4639221 bp
水稻叶绿体基因组
可能曾经是一种光合细菌
?全部由 A,C,G,T四种核苷酸组成
的序列
?粳稻(日本 1989),134525个字母
籼稻(中国 2001),134559个字母
cccaatatcttgcttcagcaagatattgggtatttctagctttcctttcttcaaaaattgctatatgttagcagaaaagccttatccattaagagat ggaacttcaagagcagctaggtctagagggaagttgtgagcattacgttcgtgcattacttccataccaagattagcacggttgat gatatcagccc
aagtattaataacgcgaccttggctatcaactacagattggttgaaattgaatccgtttagattgaaagccatagtactaatacctaaagcagt gaaccaaatccctactacaggccaagcagcc aagaagaagt gtaaagaacgagagttgttaaaactagcatattggaagattaatcggccaaa
ataaccatgagcggccacaatattataagtttcttcctcttgaccaaatctgtaaccctcattagcagattcgttttcagtggtttccctgatcaaactagaggttaccaaggaaccatgcatagcactgaatagggaaccgccgaatacaccagctacacctaacat gtgaaatggatgcataaggat
gttatgctctgcctggaatacaatcataaagttgaaagtaccagatattcctaaaggcataccatcagagaaacttccttgaccaatagggtaaatcaagaaaacagcagtagcagctgcaacaggagct gaatatgcaacagcaatccaaggacgcatacccagacggaaactcagttcccact
cacgacccatataacaagctacaccaagtaagaagtgtagaacaattagctcataaggaccaccattgtataaccactcatcaacagat gcagcttcccaaattgggtaaaagtgcaatccgatc gccgcagaagtaggaataat ggcaccagagataatattgtttccgtaaagtaaagaacca
gaaacaggctcacgaataccatcaatatctactggaggggcagcgat gaaggcgataataaatacagaagttgcggtcaataaggtagggatcatcaaaacaccgaaccatccgatgtaaagacggttttcggtgctagttatccagttgcagaagcgaccccacaggcttgtactttcgcgtct
ctctaaaattgcagtcatggtaagatcttggtttattcaaattgcaaggactcccaagcacacgtattaactagaaagataatagaaggcttgttatttaacagtataatatagactatataccaat gtcaaccaagccagccccgacagttgtatatccatacaacaaaatttaccaaaccaaaaaatttt
gtaaatgaagtgagtgaaaaatcaaaactcagattgctcctttctagtttccatatgggttgcccgggactcgaacccggaactagtcggatggagtagataattattccttgttacaatagagaaaaaacctctccccaaatcgt gcttgcatttttcattgcacacgactttccctatgtagaaataggc
tatttctattccgaagaggaagtctactaatttttttagtagtaagttgattcacttactatttattatagtacagagaacatttcagaatggaaact gtgaaagttttaccttgatcatttatcaatcatttctagtttattagttttgtttaatgattaattaagaggattcaccagatcattgatacggagaatatcca
aataccaaatacgctcactgtgcgatccacggaaagaaaagtaagttgttttggcgaacatcaaagaaaaaacttgctcttcttccgtaaaaaattcttctaaaaataccgaacccaaccattgcataaaagctcgtaccgtgcttttatgtttacgagctaaagttctagcgcatgaaagtcgaagtata
tactttagtcgatacaaagtcttcttttttgaagatccactgtgataatgaaaaagatttctacatatccgaccaaaccgatcaagaatatcccaatccgataaatcggtccaaattggtttact aataggatgccccgatccagtacaaaattgggcttttgctaaagatccaat gagaggagtaacagg
gactttggtatcgaattttttcatttgagtatctattagaaatgaattctccagcatttgattccttactaacaaagaatttattggtacacttgaaaagtaccccagaaaatcgaagcaagagt tttctaattggtttagatggatcctttgcggttgagtccaaaaagagaaagaatattgccacaaacggac
aaggtaacatttccatttcttcttcaaaagaagagttccttttgatgcaagaattgcctttccttgatatcgaacataatgcataaggggatccataacgaaccatatggttttccgaaaaaaagcagggtacattaacccaaaat gttccatcttcctagaaaagatgattcgttccagaaaggttccgga
agaagttaatcgcaagcaagaagattgtttacgaagaaacaacaagaaaaattcatattctgatacataagagttatataggaaccgaaatagtcttttattttcttttttcaaaataaaaatggatttcattgaagtaataaaactattccaattcgagtagtagttgagaaagaatcgcaataaatgcaag
gatggaacatcttggatccggtattgaaggagttgaagcaagatatccaaat ggataggatagggtatttctatatgtgctagataatgtaagt gcaaaaatttgtcttctaaaaaaggaaatat tgaatgaatagatcgtaaattctgaaactttggtatttctttttcttccggacaagactgttctcgtagc
gagaatgggatttctacaacgatcgcaaacccctcagatagaatctgagaataaaactcagaataaaaaaaattgttgtaatccaataatcgatcttggttaggatgattaaccaaattaatccaaaaattctgctgatacattcgaatcattaaccgtttcacaagtagtgaactaaatttcttgttattaga
accaataatttcgacaagttcggaaccatttaatccataatcatgggcaaacacataaat gtactcctgaaagagtagtgggtagacgaaatattgtctaggaaatttaagtttttctgaataaccctcgaatttttccatttgtatttctacttgaatcagagagagagaaatatttctcggtttatcaaatggt
gatacatagtacaatatggtcagaacagggt gttgcattttttaatacaaacccctggggaagaaaaggagtctaatccacggatctttttccgctccttttctatccaatttgtttatgtttgt tctaattacaaaagagaacaaatcctttatttttgcaggccaattgctcttttgactttgggatacagtctctt
tatcaatatactgcttcttttacacattcaatccataacatccttttcaatccaaaatcaagaataattaggatttctaaaaaaaaaagaaaaaatcaaaggtctactcataggaaaaccagctt ttccctacatcaggcactaatctatttttaacgtctaattagatcagggagttcttccaattaagaagtta
agctcgttgctttttgttttaccagaattggagccaggctctatccatttattcattagacccagaaaatcagaatttttttattccattccaaaaatccaaaataagaaattgattttattacgacatgctattttttccattcattacccttgaggatcagtcgcggtcttatagactctaccaagagtctggacg
aattttttgcttcatccaaatgtgtaaaagatcatagtcgcacttaaaagccgagtactctaccattgagttagcaacccagataaactaggatcttagatacgatcgaaatccaaaaatcaatggaattacaccgcacacccctgtcaaaatcttaaaatagcaagacattaaaagaaagattttatcac
cattgaaaacactcagataccaaaaggaacgggtctggttaaatttcactaaggttaaaagt ggcaccaatcacgatcgtaaaattgtcatttttttagcatttttatttaaataaataaataaatcttgtatgagagtacaaacaagagggacaaccctaccatttgagcaaagtgtaggcaaaaaacct
aatagggagtgaggataaagagacttatccatctacaaattctagatgttcaatggacctttgtcaatggaaatacaatggtaagaaaaaaattagatagaaaaactcaaaaaaataaaggcttatgttggattggcacgacataaatccagtcaaaaataggattaagaaagaggcaaattatttcta
aatagttagacaacaagggatactagtgagcctctcctagttttttattcatttagttcttcaattaactcaaagttctttctttttctttaaagaattccgccttccttaaaatatcagaaacggttcttgtaggttgagcacctttttcaaggaaatagagaatagctggaacatttaaacaagtttgattctttatc
ggatcataaaaacctacttttcgaagatctcttccttctcttcgagatcgaacatcaattgcaacgattcgatagacagcttattgggatagatgtagataaataaagccccccctagaaacgtataggaggttttctcctcatacggctcgagaatatgacttgcattaatttccgtacagaaaaaacaaa
tttcatttatactcatgactcaagttgactaattttgattgacagacttgaaagaaaaaaatcctttgaaattttttgagtcgtctctaaactcttttctttgcctcatctcgaacaaattcact tttattccttattccggtccaattctattgttgagacagttgaaaatcgtgtttacttgttcgggaatcctttatcttt
gatttgtgaaatccttgggtttaaacattacttcgggaattcttattcttttttctttcaaaagagtagcaacatacccttttttcttatttccttcgataaagcatttccctcttctatagaaatcgaatatgagcgattgattctgatagactttaatcaaaagagttttcccatatcttccaaaattggactttcttctta
ttttaaccttttgatttctatattatttcgatttctatattaagggtagaatgacaaagttggcctaatttattagttttcactaaccctagattctttcccttgataaaaaataaattctgtcctctcgagctccatcgtgtactatttacttagcttacttacaaacaacccagcgaaaattcggttcgggacgaatag
aacagactatgtcgagccaagagcattttcattactatggaaaatggt ggatagcaaaatccacaatcgatcgt gtccttcaagtcgcacgttgctttctaccacatcgttttaaacgaagtttt aacataacattcctctaatttcattgcaaagtgttatagggaattgatccaatatggat ggaatcat ga
atagtcattagtttcgttttttgtatactaattcaaacttgctttgctatctatggagaaatatgaataaaagaaattaagtatttatcgggaaagactccgcaaagagccaatttatttaaacccatattctatcatatgaatgaaatatagttcgaaaaaagggaataaacaagtttgcttaagacttatttattat
ggaatttccatcctcaacagaggactcgagatgatcaatccaatcctgaaatgataagagaagaattgactcttctccaacaaataaactatcaacctcccgtttaattaatttaattaatatat tagattagcaatctatttttccataccatttttccgtaacaaaactaattaactattaactagttaaactatt
gcaatgaaaagaaagttttttggtagttatagaattctcgtatttcttcgactcgaataccaaaagaaagaaaaaaat gaagtaaaaaaaacgcatttcctgtaaagtaaaattaaggtctttgcttttacttattttttcttttacctaaaagaagcaactccaaatcaaaattgaatccattctatctaacgag
cagttcttatcttatctttaccgggatggatcattctggatatttaaaaaatcgcggatcgagatcgtttttgcttaaccaaagaaagaaaaagaagaaggaaccttttttactaataaaatact ataaaaaaaatttatctctatcataaatctatctctaccataaaggaataggtctcgttttttatacaatgtt
ctacgtcaagtttaaaattttttcatgaaaaaaagattttcaatttgactggacttgacactggattatgttttctgagacagaaaat gaacgcattaggactgcatcgaatctaagagtttataagagaaaaaaattctctttaataaactttatgtctcgtgcagaatacaatacgatttcatctttcgtttcatc
agaaaaaatctgggacggaaggattcgaacctccgagtaacgggaccaaaacccgctgccttaccacttggccacgccccatttcgggttttatgcgacactaataaacagtattatgtttattt cttattcgtcaatcctacttcaattacataaaaatggggggtattctcttggtaggattctagacat
gcgaataatatagaatccaaaaaatgcattgatcattacatggaattctattaagatattatatgaaagtcgaatttcttccactctcatttgagagtgcgaatacaaggaggtattttgtgttt gggaaagtccgaagaaaaaaggattttgaatcctccttttcctttttcccttagaaaaataactcaatcaa
aatccaattatctactctacaagaacgaaacgcttgttatgcctaatatacttagtttaacctgtatttgttttaattctgttatttatccgactagttttttcttcgccaaattgcccgaagct tatgccattttcaatccaatcgtggattttatgcctgtcatacctgtactcttttttctattagcctttgtttggcaag
ctgctgtaagttttcgatgaaatctttactactctgtctgccaaattgaatcatgtattcattctaaaaaaattcgaaaaatggataagagccgagaagtcttatattatgaaccttcgattctaaaattcaaattcttctacattgaatgtatagctgcagcaataaatttggatcagcctttctactccctgcatc
tacgttgagcaggtatctttaggtaaccgcacaatacctaacctaatttattgataagagt gcttattataaatcaattcttgcaatttttttcaaaaattgatttttgcatttttaggtgtcaaaataaacaaaacccatcctagtggatttgtgtggtaaggaaaaacgggtaatctattccttaaaaaaaaatct
tggagattatgtaatgcttactctcaaactttttgtttatacagtagtgatattctttgtttccctctttatctttggattcttatctaatgatccaggacgtaatcctgggcgt gacgagtaaaaatccaaaattttttcttacaaattggatttgtttcatacatttatctacgagaaaatccgggggtcagaattcctt
ccaattcgaaagtcccaaacgatccgagggggcggaaagagagggattcgaaccctcggtacaaaaaaattgtacaacggattagcaatccgccgctttagtccactcagccatctctccccgtt ccaaatcgaaaggtttccgtgatatgacagaggcaagaaataacgattgcaaaaaatcc
ttcctttttctttcaaaagttcaaaaaaattatattgccaattccattttagttatattcttttttcttaatgttaataaaaaaaagaagaaaattcttcttttttctttctaattctaaaattggatattggctaaaagacaatcagatagattttctcttcagcaggcatttccatataggacttgttataataaaacaagca
ggttatagaaaaaaactcttttttttattatttatcaacaaagcaaaaaggggtcttatcaaaccaacccaccccataaaattggaaagaaagataaagtaagtggacctgactccttgaat gaggcctctatccgctattctgatatataaattcgatgtagatgaaattgtataagtggatttttttgtatttc
cttagacttagaccacgcaaggcaagaatttctcgctatttactatttcatattcttgttactagatgttctataggaataagaagaaatcgcaacccctttccgctacacataaaaatggattt cgaaagtcaatttttcttttcaatatctttactttttttcagaatcctatttttgttcttatacccatgcaataga
gagcgagtgggaaaagggaggttactttttttcattttttccttaaaaaataggctttcttggaaataggaatcatggaataatctgaattccaatgtttatttctatagtataagaaaaactaattgaatcaaattcatggatttaccacgacctcggct gtgaccccatagataaaaatgcaaaatttctatct
tcgagaccattgaaaaaaggcattgaacgagaaaaaatcgtccacagataatctatcgtatgccttggaagtgatataaggtgctcggaaat ggttgaagtaattgaataggaggatcactatga ctatagcccttggtagagttactaaagaagaaaat gatttatttgatattatggacgactggtta
cgaagggaccgttttgtttttgtaggatggtctggcctattgctttttccttgtgcttatttcgctttaggaggttggtttacagggacaacttttgtaacttcttggtatacccatggattggc gagttcctatttggaaggttgcaatttcttaaccgcagcagtttccacccct gccaatagtttagcacactct
ttgttgctactatggggcccggaagcacaaggggattttactcgttggtgtcaattaggt ggtctgtggacttttgttgctctccatggggcttttgcactaataggtttcatgttacgtcaatt tgaacttgctcggtctgttcaattgcggccttataatgcaatttcattctctggcccaatcgctgtttttgttt
ccgtattcctgatttatccactggggcaatccggttggttctttgcgccgagttttggcgtagcagcgatatttcgattcatcctcttcttccaaggatttcataattggacgttgaacccattt catatgatgggagttgccggagtattaggcgcggctctgctatgcgctattcatggggcaaccgtgga
2001年,人类基因组草图完成 2002年,水稻基因组测序完成
国际著名生物信息中心
Bioinformatics Centres
NCBI National Center for Biotechnology Information (US)
EBI European Bioinformatics Institute (EU)
HGMP Human Genome Mapping Project Resource Centre (UK )
ExPASy Expert of Protein Analysis System (Switzerland )
CMBI Centre of Molecular and Biomolecule (The Netherlands)
ANGIS National Genome Information Service (Australia)
NIG National Institute of Genetics (Japan)
BIC National Bioinformatics Centre (Singapore)
欧洲分子生物学网络组织 (EMBnet)
European Molecular Biology Network
EMBnet为国际著名生物信息学组织,为世界各国提供生物
信息资源,并合作进行生物信息的研究、开发、应用和人
才培训。
EMBnet国家节点
欧洲,
奥地利、比利时、丹麦、法国、芬兰,德国、
希腊 匈牙利、爱尔兰、以色列、意大利、挪威、
波兰、葡萄牙, 斯洛伐克,西班牙、瑞典、瑞士、
荷兰、土耳其、英国
亚洲, 中国,印度 澳洲, 澳大利亚
北美洲, 加拿大 非洲,南非
南美洲, 阿根廷、古巴、智利、墨西哥
核酸序列数据库
? Genbank,美国国家生物技术信息中心的数据
库( available at
http://ncbi.nhm.nlm.gov)。
? EMBL,建立在欧洲分子生物实验室的数据库
(available at http://www.embl-
heidelberg.de)。
? DDBJ,日本的 DNA数据库银行( available at
http://www.nig.ac.jp )。
其他重要数据库
? 酵母基因组数据库( SGD)
? 酵母蛋白质数据库( YPD)
? 拟南芥数据库( AtDB)
? 医学数据库( OMIM)
? 线虫数据库( ACEDB)
三维结构数据库
? PDB( available at
http://www.ipc.pku.edu.cn/npdb )等。
? 与蛋白质结构有关的数据库还有:
? SCOP( available at
http://www.ipc.pku.edu.cn/scop/ )等。
? 与基因组有关的数据库:
? OMIM( available at
http://www3.ncbi.nlm.nih.gov/omim/)。
生物信息数据库的主要服务
借助特定的算法模型提供同源性分析是目
前各种生物信息数据库的最重要内容之
一。
生物技术和信息技术是 21世
纪的两大经济发展支柱,生
物信息学是生命科学和信息
科学的结合点,是当今自然
科学新的前沿领域。生物信
息资源建设是生物信息研究
开发的基础。
1996年,北京大学加入欧洲分子生物
学网络组织,成为该组织的中国国家
节点,并成立生物信息中心,为生物、
医学、制药、农业、环境等领域的研
究开发提供生物信息资源服务,并开
展二次数据库构建、软件集成、基因
组分析等研究。
欧洲分子生物学网络组织
中国国家节点
National Node
European Molecular Biology Network
北京大学生物信息中心
Centre of Bioinformatics
Peking University
UK
亚太生物信息学网络组织中国节点
数据库查询
数据库搜索
文件下载
网络教程
网络新闻
序列分析
序列装配
分子模型
结构分析
药物设计
2000年 CBI主服务器页面访问量
? 安装了 70多个数据库,提供 200多种软件下载
? 建立了 14个国外著名生物信息中心镜象
? 提供了数据库和文献查询、搜索
? 构建了中华民族基因多样性等专用数据库
? 集成和开发了基于 Web的生物信息软件工具
? 开展了分子模拟、序列分析等应用研究
? 举办了国际国内培训班、讲习班、讨论会
? 开设了生物信息学概论研究生课程
?中华民族基因多样性数据库
?转录因子细胞特异性数据库 Cytomer
?蛋白质结构域数据库 Domain
?蛋白质回环数据库 Loop
?水稻矮缩病毒数据库 RDV
?二硫键信息数据库 Bridge
构建二次数据库
中华民族基因多态性数据库
水稻矮缩病毒基因组数据库
转录因子细胞特异表达数据库
蛋白质回环数据库
蛋白质二硫键数据库
廖黔宁,罗静初,周培爱,顾孝诚,梁宋平,虎纹捕鸟蛛毒素 -I突变体的设计、
合成和活性鉴定,中国生物化学和分子生物学学报,5(5):756-761,1999年。
SY Lu,PC Deng,XC Liu,JC Luo,RS Han,XC Gu,SP Liang,XC Wang,F Li,V
Lozanov,A Patthy and S Pongor,Solution structure of the Major a-amylase
inhibitor of the crop plant amaranth,J,Biol,Chem,274 (29):20473-20478,1999,
拟南芥突变体库数据库 —北大耶鲁合作项目
1.生物大分子结构模拟和药物设计
包括
RNA(核糖核酸 )的结构模拟和反义 RNA的分子设计;
蛋白质空间结构模拟和分子设计;
具有不同功能域的复合蛋白质以及连接肽的设计;
生物活性分子的电子结构计算和设计;
纳米生物材料的模拟与设计;
基于酶和功能蛋白质结构、细胞表面受体结构的药物
设计;
基于 DNA结构的药物设计等。
Computer Aided Vaccine Design
System
Database
Articles
Lab Work
Algorithm(ANN),
Analysis Program,
Adjust Program…
Data Flow
Right/Wrong?
Right/Wrong?
Answer
Answer
2.生物信息分析的技术与方法研究
包括
发展有效的能支持大尺度作图与测序需要的软件、数
据库以及若干数据库工具,诸如电子网络等远程通讯
工具;
改进现有的理论分析方法,如统计方法、模式识别方
法、隐马尔科夫过程方法、分维方法、神经网络方法、
复杂性分析方法、密码学方法、多序列比较方法等;
创建一切适用于基因组信息分析的新方法、新技术。
包括引入复杂系统分析技术、信息系统分析技术等;
建立严格的多序列比较方法;
发展与应用密码学方法以及其他算法和分析技术,
用于解释基因组的信息,探索 DNA序列及其空间结构信
息的新表征;
发展研究基因组完整信息结构和信息网络的研究方
法等;
发展生物大分子空间结构模拟、电子结构模拟和药
物设计的新方法与新技术。
3.应用与发展研究 。
汇集与疾病相关的人类基因信息,发展患者样品序列
信息检测技术和基于序列信息选择表达载体、引物的
技术 ;
建立与动植物良种繁育相关的数据库以及与大分子设
计和药物设计相关的数据库。