广西医科大学：生物信息学：第一章生物信息学概论

分类：生物格式：pdf 日期：2007年01月08日

生物信息学现状和重要研究方向生物信息学现状和重要研究方向 z 1.1 什么是生物信息学？ z Genome informatics is a scientific discipline that encompasses all aspects of genome information acquisition, processing, storage, distribution, analysis, and interpretation. 它是一个学科领域，包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面。 (The U.S. Human Genome Project: The First Five Years FY 1991-1995, by NIH and DOE) z 生命 “阿波罗计划 ”的人类基因组计划完成 (2001年 )。 How many characters are in the “Heaven Book”? 3*10 9 10,000 books 1 book 100 pages 1 page 3,000 characters CCGGTCTCCCCGCCCGCGCGCGAAGTAAAGGCCCAGCGCAGCCCGCGCTCCTGCCCT GGGGCCTCGTCTTTCTCCAGGAAAACGTGGACCGCTCTCCGCCGACAGTCTCTTCCACA GACCCCTGTCGCCTTCGCCCCCCGGTCTCTTCCGGTTCTGTCTTTTCGCTGGCTCGATA CGAACAAGGAAGTCGCCCCCAGCGAGCCCCGGCTCCCCCAGGCAGAGGCGGCCCCGG GGGCGGAGTCAACGGCGGAGGCACGCCCTCTGTGAAAGGGCGGGGCATGCAAATTCG AAATGAAAGCCCGGGAACGCCGAAGAAGCACGGGTGTAAGATTTCCCTTTTCAAAGGCG GGAGAATAAGAAATCAGCCCGAGAGTGTAAGGGCGTCAATAGCGCTGTGGACGAGACA GAGGGAATGGGGCAAGGAGCGAGGCTGGGGCTCTCACCGCGACTTGAATGTGGATGAG AGTGGGACGGTGACGGCGGGCGCGAAGGCGAGCGCATCGCTTCTCGGCCTTTTGGCTA AGATCAAGTGTAGTATCTGTTCTTATCAGTTTAATATCTGATACGTCCTCTATCCGAGGAC AATATATTAAATGGATTGATCAATCCGCTTCAGCCTCCCGAGTAGCTGGGACTACAGACG GTGCCATCACGCCCAGCTCATTGTTGATTCCCGCCCCCTTGGTAGAGACGGGATTCCGC TATATTGCCTGGGCTGGTGTCGAACTCATAGAACAAAGGATCCTCCCTCCTGGGCCTGG GCGTGGGCTCGCAAAACGCTGGGATTCCCGGATTACAGGCGGGCGCACCACACCAGGA GCAAACACTTCCGGTTTTAAAAATTCAGTTTGTGATTGGCTGTCATTCAGTATTATGCTAA TTAAGCATGCCCGGTTTTAAACCTCTTAAAACAACTTTTAAAATTACCTTTCCACCTAAAAC GTTAAAATTTGTCAAGTGATAATATTCGACAAGCTGTTATTGCCAAACTATTTTCCTATTTG TTTCCTAATGGCATCGGAACTAGCGAAAGTTTCTCGCCATCAGTTAAAAGTTTGCGGCAG ATGTAGACCTAGCAGAGGTGTGCGAGGAGGCCGTTAAGACTATACTTTCAGGGATCATT TCTATAGTGTGTTACTAGAGAAGTTTCTCTGAACGTGTAGAGCACCGAAAACCACGAGGA AGAGAGGTAGCGTTTTCATCGGGTTACCTAAGTGCAGTGTCCCCCCTGGCGCGCAATTG GGAACCCCACACGCGGTGTAGAAATATATTTTAAGGGCGCG (1250 characters) 关键是先要从一个个序列片段中得到这本天书 z破译人类遗传密码就要读懂由 32亿符号组成的 100万页的 “天书 ” 1999年年 12月月 GenBank的的 DNA碱基数其数目已达碱基数其数目已达 30亿，亿，它们来自它们来自 47000种生物。种生物。 2000年年 4月月 DNA碱基数目是碱基数目是 60 亿。现在，这一数目已达亿。现在，这一数目已达 190亿亿 ( Nucleic Acids Research 2006 Jan) 。。各种生物的各种生物的 EST序列已达序列已达 600多万条，其中多万条，其中人类的人类的 EST序列已超过序列已超过 300 万条，估计覆盖人类基因万条，估计覆盖人类基因 90 ％以上；％以上；自自全长全长 1.8Mb的嗜血流感杆菌（的嗜血流感杆菌（ Haemophilus influenzae Rd）基因组序列于）基因组序列于 1995年发表年发表（（ Fleischmann et al.，， 1995）以来，已有若干个微）以来，已有若干个微生物和真核生物完成基因组测序生物和真核生物完成基因组测序 . human Arabidopsis 拟南芥 Thermotoga maritima Escherichia coli大肠杆菌 Buchnerasp. APS Rickettsia prowazekii Ureaplasma urealyticum Bacillus subtilis Drosophila melanogaster Thermoplasma acidophilum Plasmodium falciparum Helicobacter pylori mouse Caenorhabitis elegans rat Borrelia burgorferi Borrelia burgorferi Aquifex aeolicus Neisseria meningitidis Z2491 Mycobacteriu m tuberculosis 数据引自 http://wit.integratedgenomics.com/GOLD/ ?已经完成测序的基因组（截止 2004年 11月） ? 古细菌（ archaea）（ 58） ? 细菌（ bacteria）（ 752） ? 真核生物（ eukaryota）（ 9） ? 病毒（ viruses）（ 1711) ? 类病毒（ viroids）（ 36） ? 真核生物器官（ organelles）线粒体（ mitochondria）（ 623）质体（ plastids）（ 41） ? 质粒（ plasmids）（ 661）这些成就意味着基因组的研究将全面进入信息提取和数据分析的崭新阶段。计算机运算速度 : 18个月增长一倍 ; DNA序列数据 : 14个月增长一倍 ; Computer Aided Vaccine Design System Database Articles Lab Work Algorithm(ANN), Analysis Program, Adjust Program… Data Flow Right/Wrong? Right/Wrong? Answer Answer 生物信息学是把基因组生物信息学是把基因组 DNA序列信息分析序列信息分析作为源头，破译隐藏在作为源头，破译隐藏在 DNA序列中的遗传语序列中的遗传语言，特别是非编码区的实质；同时言，特别是非编码区的实质；同时归纳、整归纳、整理与基因组遗传信息释放及其调控相关的转理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据，从而认识代谢、发录谱和蛋白质谱的数据，从而认识代谢、发育、分化、进化的规律。育、分化、进化的规律。 ———基因组水平基因组水平 1.2 主要研究内容主要研究内容 z 1.2.1 获取人和各种生物的完整基因组。大规模测序是基因组研究的最基本任务，它的每一个环节都与信息分析紧密相关。从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接与组装、填补序列间隙、到重复序列标识、读框预测和基因标注的每一步都是紧密依赖基因组信息学的软件和数据库的。 1）高度自动化的实验数据的获得、加工）高度自动化的实验数据的获得、加工和整理和整理 z 如何将实验室中得到的生物学信息转化为计算如何将实验室中得到的生物学信息转化为计算机能够处理的数字信息，是生物学的一个重要机能够处理的数字信息，是生物学的一个重要课题。课题。 z 体现在各种自动化分子生物学仪器应用上，如体现在各种自动化分子生物学仪器应用上，如 DNA测序仪测序仪，， PCR仪等。这类仪器将实验所得的仪等。这类仪器将实验所得的物理化学信号转化为数字信息，并对其作简单物理化学信号转化为数字信息，并对其作简单分析，再将分析结果用于实验条件的控制，完分析，再将分析结果用于实验条件的控制，完成高度自动化的实验过程成高度自动化的实验过程。。 2）序列片段的拼接）序列片段的拼接 z 目前DNA自动测序仪每个反应只能测序500bp左右。如何将这些序列片段拼接成完整的DNA顺序就成为接下来的一个重要工作。 z 传统的测序技术通常将克隆进行亚克隆并对亚克隆进行排序。这些工作需要大量的人力物力。 z 现在生物信息学提供了自动而高速地拼接序列的算法，不仅避免了亚克隆排序所需的大量繁琐的工作，还能使序列具有一定的冗余性（redundancy，即一定数量的重复）以保证序列中每个碱基的准确性。大部分新基因是靠理论方法预测出来的。比如啤酒酵母完整基因组 (约 1300万 bp) 所包含的 6千多个基因，大约 60％是通过信息分析得到的。 a)、利用 EST 数据库 (dbEST) 发现新基因和新 SNPs EST序列是基因表达的短 cDNA序列，它们携带着完整基因的某些片段的信息。 1.2.2 新基因和新新基因和新 SNPs的发现与鉴定的发现与鉴定 0bp 1800bp ------------------------FLCDNA------------------> ------------Contig 11------------> -----------------------------> AA149499 ( 0 , 645 ) ------------------> H01825 ( 322 , 681) ------------------> W46878 ( seed EST 406 , 870 ) ---------------> AA131842 (533 , 1091 ) ---------------> D57689 (U 1052 , 1455 ) <---------- AA887384 (U 1354 , 1750 ) <--------- F08907 (U 1514 , 1800 ) 国际上现已出现的基于国际上现已出现的基于 EST的基因索的基因索引引 UniGene (ftp://ncbi.nlm.nih.gov/pub/schuler/unigene) Merck-Geneindex (http://genome.wustl.edu/est/esthmpg.html ) GenExpress-index ( http://www..cshl.org )。这些基因索引数据库 (即二次数据库 )构建了基因框架，极大地方便了相关研究者。 z 超大规模计算 SNP: Single Nucleotide Polymorphisms HUMAN GENETIC DIVERSITY: The Ultimate Human Genetic Database Any two individuals differ in about 3 x 10 6 bases (0.1%). The population is now about 6 x 10 9 . A catalog of all sequence differences would require 18 x 10 15 entries. This catalog may be needed to find the rarest or most complex disease genes. b)、从基因组、从基因组 DNA序列中预测新序列中预测新 ORF z 所谓基因区域的预测，一般是指预测DNA顺序中编码蛋白质的部分，即外显子部分。不过目前基因区域的预测已从单纯外显子预测发展到整个基因结构的预测。这些预测综合各种外显子预测的算法和人们对基因结构信号(如转录起始位点区、第一个 ATG、开读框架和终止密码子)的认识，预测出可能的完整基因。 1.2.3非编码区非编码区功能研究功能研究 What is the total number of human genes? 28,000± 4,000 Only 1.1% of the genome is spanned by exons, whereas 24% is in introns, with 75% of the genome being intergenic DNA. One of the largest challenges is identifying the unknown functions that almost certainly exist in much of the “junk” DNA. DNA RNA protein Central dogma of molecular biology genome transcriptome proteome Central dogma of bioinformatics and genomics 2.功能基因组学（功能基因组学（ Functional Genomics）） z 用实验手段证实一个预测的新基因后，下一步要做的就是寻找这个基因的功能。----即功能基因组学 z 蛋白质功能预测分析，主要是分析目的蛋白质是否与具有功能信息的已知蛋白质相似。策略有二： – 同源序列分析 – 功能区相关的保守序列特点分析。 z 对成千上万的基因表达进行分析和比较，力图从基因组整体水平上对基因的活动规律进行阐述。基因芯片技术发展 3.蛋蛋白白质质组组学（学（ Proteomics）） “The identification, characterization and quantification of all proteins involved in a particular pathway, organelle, cell, tissue, organ or organism that can be studied in concert to provide accurate and comprehensive data about that system.” “对特定的通路、细胞器、细胞、组织、器官和肌体中包含的所有蛋白质进行鉴定、表征和定量，并提供关于该系统准确和全面的数据。 ” http://www.inproteomics.com/prodef.html 3.1 生物信息学在蛋白组研究中生物信息学在蛋白组研究中的应用的应用 1. 编码的DNA序列的寻找与分析（分析研究对象）； 2. 蛋白质序列信息的获取（搜索与测序）； 3. 蛋白质鉴定和性质预测; 4. 蛋白质序列分析； 5. 蛋白质结构和功能预测； 6. 数据的分析与整合：大范围基因表达分析；蛋白- 蛋白相互作用；蛋白在细胞内的定位；构建通路和细胞系统；预测和发现新的知识。二维凝胶电泳和测序质谱技术发展 4.生物信息学生物信息学 – 研究方向研究方向 z 基因组序列装配 z 基因识别 z 基因功能预报 z 基因多态性分析 z 基因进化 z mRNA结构预测 z 基因芯片设计 z 基因芯片数据分析 z 疾病相关基因分析 z 蛋白质序列分析 z 蛋白质家族分类 z 蛋白质结构预测 z 蛋白质折叠研究 z 代谢途径分析 z 转录调控机制 z 蛋白质芯片设计 z 蛋白质芯片数据分析 z 药物设计 5. 生物信息学基本方法和技术 ? 建立生物数据库 ? 各种公共数据库 ? 本地化数据库 ? 数据库检索 ? 各种数据检索工具的开发和使用 9 Entrez检索体系 9 BLAST检索体系 ? 生物大分子序列分析 ? Homologous sequence analysis（同源序列分析） ? Multiple sequence alignment（多序列对位（对齐）排列） ? Evolution analysis（进化分析） 9 Phylogenetic prediction（系统发育预测） 9 进化方式分析 9 进化位点分析 ? 基因组分析 9 序列拼接 9 序列注释 ? 基因功能、结构分析 ? 蛋白质功能、结构分析 ? 蛋白质三维结构预测 ? 蛋白质修饰 ? Electronic PCR ? 统计模型 ? Hidden Markov model（ HMM，隐马尔可夫模型）基因识别和药物设计 ? Maximum likelihood model（最大似然模型）序列进化分析 ? 数学算法 ? 自动序列拼接 ? 外显子预测 ? 同源序列比较 ?收集、整理、储存、加工、发布和分析生物学数据生物信息学的研究内容 ?发展新的数理和信息科学的技术和方法用于管理和分析生物数据（生物工作者）（数理和信息科学工作者） 6.生物信息学的应用 ? 基础研究和教学 ? 分子生物学研究的重要手段之一 ? 生命科学的教学 ? 药物开发 ? 新药筛选 ? 药靶设计 ? 分子药理学研究 ? 疾病诊断 ? 利用疑难病症的病原 DNA序列诊断疾病 ? 遗传病 ? 其他 ? 环境监测 ? 食品安全检测 ? 海关检测 7.本课程主要内容利用国际上共享的数据库和分析软件 ? 检索数据库 ? 分析和解释实验数据（核苷酸和蛋白质序列）谢谢各位谢谢各位 !

课件简介

课件名称：	广西医科大学：生物信息学
课件分类：	生物
课件类型：	电子教案
文件大小：	21.83MB
下载次数：	2
评论次数：	2
用户评分：	8

显示更多>>

用户列表

更多用户>>

关于我们|帮助中心|意见反馈|联系我们

广西医科大学：生物信息学：第一章 生物信息学概论

广西医科大学：生物信息学：第一章生物信息学概论