第二章生物信息学数据库简介 数据库(Database) 用于收集、整理、储存、加工、发布 和检索数据的系统。 ?生物类的数据库种类很多 ?投稿文章首先要将核苷酸序列或蛋白 质序列提交到相应的数据库中 ? 数据库记录通常包括两部分 ? 原始数据 ? 对这些数据进行的生物学意义的注释 ? 一个数据库通常链接了多个相关数据库 ? 核苷酸数据库-水稻抗病基因 Xa26 AY364476 Taxonomy 数据库 Pubmed 数据库 NCBI-Protein 数据库 (一)数据库工具 ? 建立纯文本数据库 ? GenBank 数据库、 EMBL 核苷酸数据库 ? MySQL 数据库工具 ? SQL(结构化查询语言)是世界上流行的和 标准化的数据库语言 ? 能够快速灵活存储记录文件和图像 ? 下载网址 http://download.sourceforge.net/pub/mirrors/mys ql/Downloads/MySQL-3.23/mysql-3.23.38- win.zp ? AceDB 数据库工具 ? AceDB: A C. elegans DataBase(线虫数据库) ? 被广泛应用的管理和提供基因组数据的工具 ? 数据形式丰富 9 遗传图谱 9 物理图谱 9 新陈代谢途径 9 序列等 (二)各种生物数据库 1、核苷酸数据库 ? DNA、mRNA 、 tRNA、rRNA 序列 ? RNA序列以cDNA 序列的形式存在 ? 核苷酸序列直接来源于实验数据 ? 大量氨基酸序列 ? 主要是非实验来源数据 ? coding sequence (CDS) ? 数据库种类很多 ? GenBank、 EMBL核苷酸、 DDBJ ? 信息资源共享:以天为基础进行数据库之间的 序列数据交换 ? 收集了专利的核苷酸序列 9 United States Patent and Trademark Office (USPTO) 9 European Patent Office (EPO) 9 Japan Patent Office (JPO) ? 三大核苷酸数据库 GenBankEMBL DDBJ Housed at EBI European Bioinformatics Institute There are three major public DNA databases Housed at NCBI National Center for Biotechnology Information Housed in Japan >100,000 species are represented in GenBank all species 128,941 viruses 6,137 bacteria 31,262 archaea 2,100 eukaryota 87,147 The most sequenced organisms in GenBank Homo sapiens 10.7 billion bases Mus musculus 6.5b Rattus norvegicus 5.6b Danio rerio 1.7b Zea mays 1.4b Oryza sativa 0.8b Drosophila melanogaster 0.7b Gallus gallus 0.5b Arabidopsis thaliana 0.5b Updated 8-12-04 GenBank release 142.0 The most sequenced organisms in GenBank Homo sapiens 11.2 billion bases Mus musculus 7.5b Rattus norvegicus 5.7b Danio rerio 2.1b Bos taurus 1.9b Zea mays 1.4b Oryza sativa (japonica) 1.2b Xenopus tropicalis 0.9b Canis familiaris 0.8b Drosophila melanogaster 0.7b Updated 8-29-05 GenBank release 149.0 (1)GenBank http://www.ncbi.nlm.nih.gov/Genbank ? 美国 NCBI的数据库,有部分蛋白质序列 ? 数据每天更新,每年发行( release)六版 ? Release ( 2006.1.1) ? 61,132,599 sequences ? 65,369,091,950 base ? 来源于 205,000多个物种 ?Locus name(位点名) ?Accession number (注册号或登陆号) ?GI( GenInfo identifier) NID( Nucleotide ID) ? 每个序列有一个flatfile ? 每条序列有三个专有的编号或标识(identifier ) ? LOCUS line 分支缩写 分支全称 PRI 灵长类序列 (primate sequences) ROD 啮齿类序列 (rodent sequences) MAM 其它哺乳类序列 (other mammalian sequences) VRT 其它脊椎动物序列 (other vertebrate sequences) INV 无脊椎动物序列 (invertebrate sequences) PLN 植物、真菌和海藻类序列 (plant, fungal, and algal sequences) BCT 细菌序列 (bacterial sequences) VRL 病毒序列 (viral sequences) PHG 噬菌体序列 (bacteriophage sequences) The divisions(分支) of GenBank The divisions(分支) of GenBank(续) 分支缩写分支全称 SYN 合成序列 (synthetic sequences) UNA 未注释的序列 (unannotated sequences) EST 表达序列标签 (expressed sequence tags) PAT 已专利的序列 (patent sequences) STS 序列标签位点 (sequence tagged sites) GSS 基因组序列 (genome survey sequences) HTG 高产出基因组序列 (high throughput genomic sequences) HTC 高产出cDNA序列 (high throughput cDNA sequences) (2)dbEST (Database of Expressed Sequence Tags) http://www.ncbi.nlm.nih.gov/dbEST/index.html ? GenBank的二级数据库 ? 5’ 端或 3’ 端的cDNA 序列(EST) ? 300-400 bp Single-pass sequence ? GenBank 中 71%以上的序列是 EST ( 3) UniGene 数据库 http://www.ncbi.nlm.nih.gov/UniGene/ ? NCBI 的另一个核苷酸数据库 ? 来源于同一基因的非重复 EST 组成基因序列群 ? 人、大鼠、小鼠、斑马鱼、牛、蛙等 ? 拟南芥、水稻、小麦、大麦、玉米等 ? 共计 45个物种 ? UniGene主页输入关键词 检索 (4)dbSTS (Database of Sequence Tagged Sites) http://www.ncbi.nlm.nih.gov/dbSTS/index.html ? GenBank的二级数据库 ? 短序列( 200-500 bp) ? 已定位于染色体上 ? 检索: GenBank主页 选择 UniSTS后输入关键词 检索到的条目 每一条目详细内容 点击 “mv”查看染色体定位 (5)dbGSS (Database of Genome Survey Sequences) http://www.ncbi.nlm.nih.gov/dbGSS/index.html ? GenBank的二级数据库 ?基因组调查序列 ? cosmid / BAC / YAC 外源插入片段的末 端序列 ? Alu PCR 序列 cosmid / BAC / YAC (6)HTG (High-Throughput Genomic Sequences) http://www.ncbi.nlm.nih.gov/HTGS/ ? GenBank 的二级数据库 ? 尚未完成测序的重叠群(> 2 kb )的序列 ? 新序列的增加速度很快 cosmid / BAC / YAC abc a b c d Phase 0 Phase 1 Phase 2 Phase 3 未知序列 e cosmid / BAC / YAC ( 7)基因组数据库 http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Genome ? NCBI 的另一个数据库 ? 物种的全基因组序列和正在测序物种基因组序列 ? 序列收集在 GenBank ? 已经完成测序的基因组(截止 2004年 11月) ? 古细菌( archaea)( 58) ? 细菌( bacteria)( 752) ? 真核生物( eukaryota)( 9) ? 病毒( viruses)( 1711) ? 类病毒( viroids)( 36) ? 真核生物器官( organelles) 线粒体( mitochondria)( 623) 质体( plastids)( 41) ? 质粒( plasmids)( 661) (8)EMBL (European Molecular Biology Laboratory) Nucleotide Sequence Database ? EBI (European Bioinformatics Institute) 管理 ? 主要是欧洲国家产生的 DNA 和 RNA 序列 ? 序列数据 文档 格式与 GenBank 不同 数据库主页 http://www.ebi.ac.uk/embl输入关键词 检索到的 条目 每一条目 详细内容 (9)DDBJ (DNA Data Bank of Japan) ?主要是日本产生的 DNA 和 RNA 序列 数据库主页 http://www.ddbj.nig.ac.jp/输入关键词 检索到的 条目 每一条目 详细内容 ? 发表文章要提供 Accession number ( 10)EPD (Eukaryotic Promoter Database) http://www.genome.ad.jp/dbget/dbget2.html ?由Weizmann Institute of Science in Rehovot (Israel) 开创 ?4810条真核生物启动子序列( 2004.10) 2、蛋白质数据库 (1)SWISS-PROT ? 由 EBI 和瑞士创办 ? 有详细注释的序列 ? 与 44个数据库相互参照( cross-reference) 数据库主页 http://www.ebi.ac.uk/swissprot/点击 Access 在 Database Access网页选择数据库 、输入关键词 检索到的 条目 (2)TrEMBL (Translation of EMBL) http://www.ebi.ac.uk/swissprot/ ? EBI 的数据库 ? 提交到 EMBL 核苷酸数据库中所有 CDS 的氨 基酸序列 ? UniProt (Universal Protein Resource) ? 合并了SWISS-PROT 和 TrEMBL数据库 ? 检索方法与检索SWISS-PROT 相同 ? 数据格式 (3)PIR (Protein Information Resource) http://www-nbrf.georgetown.edu/pir/ ?由 National Biomedical Research Foundation 创办 ?可将蛋白质序列分类 ?结构域 (4)PRF (Protein Research Foundation) http://www.prf.or.jp/ ? 由日本的 Protein Research Foundation 创办 ? 已发表在杂志上的蛋白质序列 ? 修饰位点、 S- S键等 ? 两月更新一次 (5)PDBSTR (Re-Organized Protein Data Bank) http://www.genome.ad.jp/dbget-bin/ ? 蛋白质序列和二级结构 ? α 碳结构 (6)Prosite http://www.expasy.ch/sprot/prosite.html ? 蛋白质家族 ? 结构域 3、结构数据库 (1)PDB (Protein Data Bank) http://www.rcsb.org ? 由 Brookhaven National Laboratories 创办 ? 蛋白质 ? 核酸 ? 碳水化合物 ? 29,636 个结构图( 2005.2.15) ? 可通过 BLAST 系统检索 ? X 射线衍射图和 核磁共振( NMR)光谱图 Experim. Molecule Type Technol. Proteins, Peptides and Viruses Protein/Nucl eic Acid Complexes Nucleic Acids Carbohydrates Total X-ray Diffraction and other 23352 1127 770 11 25260 NMR 3626 105 643 2 4376 Total 26978 1232 1413 13 20636 PDB Content Growth (2 ) NDB( Nucleic Acid Database) http://ndbserver.rutgers.edu/NDB/ndb.html 核酸的结构 (3 ) DNA-Binding Protein Database http://ndbserver.rutgers.edu/NDB/structure-finder/dnabind/index.html DNA 结合蛋白质的 X 射线衍射结构图 (4 ) SWISS-3D IMAGE http://expasy.hcuge.ch/sw3d/ 蛋白质的平面和立体图 ? 来源于实验结果 ? 理论模型 4、酶和代谢数据库 ( 1) KEGG (Kyoto Encyclopedia of Genes and Genomes) ? 各种代谢路径图 ? 可分物种检索各种参于代谢的基因 ? 检索代谢数据库 KEGG主页 http://www.genome.ad.jp/kegg/ 点击 “KEGG Table of Contents” “Table of Contents”网页点击 “KEGG Pathway Database” “Pathway Database”网页选择代谢途径 糖酵解 代谢途径 ? 分物种检索参于代谢的基因 “Table of Contents”网页选择物种、点击 “Gene Catalog”栏目 物种 “pathways”网页选择代谢途径 进一步 选择代谢途径 代谢途径上的 基因目录 (2 ) PKR (Protein Kinase Resource) http://www.sdsc.edu/kinases/ 多种检索内容 ? 已知蛋白激酶的序列比较 ? 蛋白激酶分类 ? 蛋白激酶的三维结构 ? 与疾病相关的蛋白激酶 ? 其它内容 5、文献数据库 ? 各种杂志、书刊上发表的文章 ? 大多数有摘要 ( 1) PubMed http://www.ncbi.nih.gov/PubMed/ ? 美国国家医学图书馆的数据库 ? 医学 ? 分子生物学 ? 基础生物学 ? 4800 多种刊物,来源于 70多个国家 ? 刊物年限: 60年度中期至今 (2 ) OMIM (Online Mendelian Inheritance in Man) ? NCBI 的数据库 ? 人类基因 ? 遗传疾病 ? 每天更新数据 http://www.ncbi.nlm.nih.gov/Omim/ 检索网页 ( 3) Agricola http://www.nal.usda.gov/ag98/ ? 美国农部农业图书馆的数据库 ? 农业类刊物 国际著名生物信息中心 Bioinformatics Centres NCBI National Center for Biotechnology Information (US) EBI European Bioinformatics Institute (EU) HGMP Human Genome Mapping Project Resource Centre (UK ) ExPASy Expert of Protein Analysis System (Switzerland ) CMBI Centre of Molecular and Biomolecule (The Netherlands) ANGIS National Genome Information Service (Australia) NIG National Institute of Genetics (Japan) BIC National Bioinformatics Centre (Singapore) National Center for Biotechnology Information (NCBI) www.ncbi.nlm.nih.gov NCBI(National Center for Biotechnology Information)在 1998年11月4日设立,,其隶属于美国国家卫生院(NIH)的 国家医学图书馆(NLM)。 www.ncbi.nlm.nih.gov 欧洲分子生物学网络组织 (EMBnet) European Molecular Biology Network EMBnet为国际著名生物信息学组织,为世界各国提供生物 信息资源,并合作进行生物信息的研究、开发、应用和人 才培训。 EMBnet国家节点 欧洲: 奥地利、比利时、丹麦、法国、芬兰 、德国、希 腊 匈牙利、爱尔兰、以色列、意大利、挪威、 波兰、葡萄牙、斯洛伐克、西班牙、瑞典、瑞 士、荷兰、土耳其、英国 亚洲: 中国 、印度 澳洲: 澳大利亚 北美洲: 加拿大 非洲: 南非 南美洲: 阿根廷、古巴、智利、墨西哥 UK 亚太生物信息学网络组织中国节点 1996年,北京大学加入欧洲分子生物学网络组织,成为该组织的中 国国家节点,并成立生物信息中心,为生物、医学、制药、农业、环境 等领域的研究开发提供生物信息资源服务,并开展二次数据库构建、软 件集成、基因组分析等研究。 欧洲分子生物学网络组织 中国国家节点 National Node European Molecular Biology Network 北京大学生物信息中心 Centre of Bioinformatics Peking University 谢谢 谢谢 !