数理科学与生命科学
郝柏林
复旦大学理论生命科学研究中心
中国科学院理论物理研究所
http://www.itp.ac.cn/~hao/
科学、宗教与艺术
? 同源而殊途:同源于描述和解释自然、人类以
及人和自然的关系。
? 数学是自然科学的“画笔”:定量而不仅是定
性地掌握自然规律。
? 科学结论具有可以定量检验的预测能力。
?,数学”和“定量”包括解析、数值、图形和
其它主要由现代计算机提供的模拟手段。
? 物理学已经成为鼎立于实验、理论和计算三大
支柱上的成熟的学科。生物是物,生物学也会
受到物理学的启发。
生物是 物
生物有 理
天地有大美而不言,万物有
成理而不说。夫圣人者原天
地之美,而达万 物 之 理 。
庄子,,知北游,
物 含妙 理 总堪寻
(北京颐和园铜亭出口处对联下联 )
海潜空飞齐 物理 以归一
天造地设合人力而成三
(厦门集美鳌园陈嘉庚墓碑背面对联 )
细推 物理 须行乐
何用浮名绊此身
杜甫
耳目之察,不足以分 物理 。
,淮南子。览冥训,
需要仪器观测和理论思维
物理学与生物学的相互促进
由来已久
电学和电生理学同时诞生
C,A,de Coulomb,1785
L,Galvani,1791
生物学为物理学启示过能量守恒
? 医生 R,J,Mayer (1842):受动、静脉血
色差别启发,第一个给出热功当量。
? 物理学家 J,P,Joule (1843):热功当量。
? 现役军医 H,von Helmholtz (1847):把能
量守恒从机械运动推广到热、电、磁乃至
生命现象。( 24年后任物理教授)
(感谢刘寄星博士核实姓名年代)
物理学为生物学提供过大量工具
? 光学显微镜 (~1590):
细胞 (1665)
细菌 (Antonie van Leeuwenhoek,1683)
(Muller确认细菌为一类生物,1773)
? X射线衍射晶体结构分析
DNA双螺旋结构( JD Watson,FHC Crick,1953)
肌红蛋白、血红蛋白晶体结构( 1957,1959)
? 电子显微镜、扫描电镜、隧道扫描电镜
物理学为生物学提供过大量工具
? 各种光谱方法、荧光标记
? 中子衍射
? 示踪原子、放射性标记
? 核磁共振波谱
? 质谱仪
?,化学”仪器:超速离心机、液相色谱
分析、圆偏振二向色性分析、凝胶电泳
物理学为生物学提供了新思想
?负熵
?非周期晶体
?对热涨落的担心
?三联码( George Gamow,1954)
?生物中的, 标度, 和, 分形,
Erwin Schrodinger,What is Life?
The Physical Aspect of the Living
Cell,1944,…
Michael P,Murphy and Luke A,J,
O’Neill,eds,What is Life? The
Next Fifty Years,Cambridge
University Press,1995,1997.
数学是关于 形 和 数 的科学
分析
代数
几何
统计、概率和随机过程
离散数学:组合学、图论、语言学
生物有 形
生物有 数
生物有形,人所共识。地球上自
然之美,多数来自生物本身和它
们的营造。生物有数,则经历了
漫长的认识过程。
生物有 形
1,HIV 病毒
2,粘菌 (Slime mold):自组织
现象的实例
“数学的应用,…
生物学中的数学 =0.”
(恩格斯,1885)
于光远等译,,自然辩证法,,
人民出版社,1984,172页
生物有 数
生物多样性(宏观数据)
? 现存物种知多少?
从 2 百万到 10亿的种种估计
? 2004年 6月初旬 GenBank核酸数据库中有
171 535 种生物至少有 1条数据
? 其中只有约半数有某些分类学信息
? 目前地球上存活着约 5000 种哺乳动物,约 9000种
鸟类
? 细菌是地球上最成功的物种,然而我们不知道它们
的数目有多少
生物数据的产量
? 中国科学院基因组学研究所(, 华大基因, )
每天的测序能力,5000万碱基对( 5*107)
? 一个人的基因组,3.2*109 碱基对
? 籼稻基因组,4.3*108碱基对
? 全世界每年生物数据产出量,1015字节
? 英国 Sanger中心今后 5年每年新增硬盘,80-
100TB,即 (0.8~1)*1014字节
GenBank 143版 (2004年 8月 15日 )
? 序列数,
37 343 937 (3734万 )
? 核苷酸 (字母 )数,
41 808 045 653 (418亿 )
? 序列平均长度, 1119
SWISS-PROT Rel.43
(2004)
?160 000 以上
?最短,3 AA=3肽
?最长,6669 AA
AA,Amino Acids(氨基酸 )
计算机:用火以来的最伟大发明
? ENIAC( 1944):每秒 330次乘法运算
? EDVAC (1952),第一台 von Neumann计算机
? 神威计算机:每秒 3840亿次浮点运算
? 曙光 3000计算机:每秒 4000亿次浮点运算
? 每秒 1万亿次 =1012次 /秒 =1 Tflops
?,Earth Simulator”,40 Tflops
? 60年间 1011倍速度增长
数学、物理和计算机科学
大有可为
生物学引论
地球上的自然史
? ~13 Bys,大爆炸
? ~4.9 Bys,太阳系和地球诞生
? ~3.8 Bys,地球上出现原始生命
? ~2.7 Bys,细菌、光和作用
? ~1.7 Bys,多细胞生物
? ~550 Mys,寒武纪 (Cambrian)物种大爆发
? ~425 Mys,志留纪 (Silurian)物种爆发
? ~65 Mys,恐龙灭绝
? ~3.5 Mys,化石古猿科与人科分离
? ~0.7 Mys,人类与黑猩猩分离
? ~0.5 Mys,北京人 (Homo erectus)
? ~0.4 Mys,智人 (Homo sapiens)
? ~100-20 Kys,山顶洞人
? 221 BC,2224年前:秦始皇统一中国
模式生物
? 噬菌体 (Bacteriophage,lambda,T4,T7)
? 病毒 (Viruses,SV40,HIV)
? 大肠杆菌 (Escherichia coli)
? 酵母 (Saccharomyces cerevisiae,yeast budding)
? 线虫 (Caenorhabitidis elegans,nematode,worm)
? 果蝇 (Drosophila melanogaster,fruitfly)
? 拟南芥 (Arabidopsis thaliana)
? 水稻 (Oryza sativa,rice)
? 非洲爪蟾 (Xenopus laviae,African frog)
? 斑马鱼 (Danio rerio,Zebra fish)
? 小鼠 (Mus musculus,mouse)
? 智人 (Homo sapiens)
遗传物质
? 核酸 (DNA):线性和环状
? 质粒 (Plasmids):线性和环状
? 染色体,DNA + 组蛋白
? 线粒体:有自己的 DNA
? 叶绿体:也有自己的 DNA
生命现象的众多层次
? 系统生物学、生物复杂性、生态系统
? 生物多样性、种群动力学
? 动物行为科学
? 个体、器官、组织
? 细胞及其通信、信号传导
? 免疫网络、调控网络、代谢网络
? 复制、转录、剪接、翻译、运输
? 生物大分子, 蛋白质与核酸( DNA,RNA)
? 小分子 (糖、脂肪、核苷酸、氨基酸 )、金属离子、水
? 分子和原子的相互作用
转向研究“活物”的过程
? 1985:中国科学院生物学部关于, 生物
学发展战略, 常委扩大会议
? 1991-1994:组内学习和所内邀请报告
? 1993:物理学会委托清华大学召开, 物
理学与生物学, 讨论会
? 1994:理论物理研究所 Internet开通、
开始关心生物数据库情况
? 1995:香山会议, 理论物理和生命科学,
1997:从何开始?
? 1977:发明两种 DNA快速测序方法
? 1977—1995:病毒和噬菌体完全基因组
? 1995:两种, 独立生活, 细菌的完全基
因组,生殖道支原体和流感嗜血菌
? 1996,7种细菌和酵母的完全基因组
? 1997:大肠杆菌和其它细菌
从细菌完全基因组开始!
感谢合作者
? 张淑誉、郑伟谋、谢惠民、李弘
谦
? 陈国义、喩祖国,王彬
? 戚继、高雷、史晓黎、王希胤、
卫海滨
感谢生物学界的老师和朋友们
来自我们工作的几个具体例子
? 完全基因组中的缺失和稀少字串:二维和一维直方图
中的, 精细结构,,相关的统计、组合和语言问题,
缺失和稀少短串的物种特异性,环境菌落中物种识别
? 细菌亲缘关系和原核生物的分类问题:组分矢量方法,
蛋白质序列的分解和重构与图论中尤拉闭合圈的数目
问题,带限制条件的随机化
? 籼稻基因组框架图:水稻基因组中的 tRNA基因、
BGF—从基因组序列中寻找基因的程序,禾本科、稻
属和各种水稻基因组的比较
细菌完全基因组中的缺失和
稀少短核苷酸串
以大肠杆菌为例:
一个 DNA环,4 639 221 个 a,c,g,t字母
长度为 8的短串共有种 65536种
同长随机序列中平均每种串出现 71次
实际情形如何?
SeeDNA程序演示
?C语言 + Xlib + Xtoolkit
?C语言 + GTK ( UNIX或 LINUX平台)
?由 GenBank取得基因组数据
?与基因组序列随机化结果对比
?背后的组合学和语言学问题
细菌分类
? 难处:形态性状少
形状:杆、球(单、双、链、葡萄)、
分枝、弯曲
着色:革兰氏阳性和阴性
生化:厌氧、固氮、脱硫
? 进展,16S rRNA序列、三界论 (Carl Woese)
? 困惑:完全基因组带来问题
基因横向传递?
基因树不等于物种树
?
基于组分矢量的构树方法
? 基于 K-肽计数的代表矢量
? 20K维空间中的距离
? 用 K-2阶马可夫链扣除随机背景
水稻叶绿体基因组
可能曾经是一种光合细菌
? 全部由 a,c,g,t四种核苷酸组成
的序列
? 粳稻(日本 1989),134525个字母
籼稻(中国 2001),134559个字母
cccaatatcttgcttcagcaagatattgggtatttctagctttcctttcttcaaaaattgctatatgttagcagaaaagccttatccattaagagat ggaacttcaagagcagctaggtctagagggaagttgtgagcattacgttcgtgcattacttccataccaagattagcacggttgat gatatcagccc
aagtattaataacgcgaccttggctatcaactacagattggttgaaattgaatccgtttagattgaaagccatagtactaatacctaaagcagt gaaccaaatccctactacaggccaagcagccaagaagaagt gtaaagaacgagagttgttaaaactagcatattggaagattaatcggccaaa
ataaccatgagcggccacaatattataagtttcttcctcttgaccaaatctgtaaccctcattagcagattcgttttcagtggtttccctgatcaaactagaggttaccaaggaaccatgcatagcactgaatagggaaccgccgaatacaccagctacacctaacat gtgaaatggatgcataaggat
gttatgctctgcctggaatacaatcataaagttgaaagtaccagatattcctaaaggcataccatcagagaaacttccttgaccaatagggtaaatcaagaaaacagcagtagcagctgcaacaggagct gaatatgcaacagcaatccaaggacgcatacccagacggaaactcagttcccact
cacgacccatataacaagctacaccaagtaagaagtgtagaacaattagctcataaggaccaccattgtataaccactcatcaacagat gcagcttcccaaattgggtaaaagtgcaatccgatcgccgcagaagtaggaataat ggcaccagagataatattgtttccgtaaagtaaagaacca
gaaacaggctcacgaataccatcaatatctactggaggggcagcgat gaaggcgataataaatacagaagttgcggtcaataaggtagggatcatcaaaacaccgaaccatccgatgtaaagacggttttcggtgctagttatccagttgcagaagcgaccccacaggcttgtactttcgcgtct
ctctaaaattgcagtcatggtaagatcttggtttattcaaattgcaaggactcccaagcacacgtattaactagaaagataatagaaggcttgttatttaacagtataatatagactatataccaat gtcaaccaagccagccccgacagttgtatatccatacaacaaaatttaccaaaccaaaaaatttt
gtaaatgaagtgagtgaaaaatcaaaactcagattgctcctttctagtttccatatgggttgcccgggactcgaacccggaactagtcggatggagtagataattattccttgttacaatagagaaaaaacctctccccaaatcgt gcttgcatttttcattgcacacgactttccctatgtagaaataggc
tatttctattccgaagaggaagtctactaatttttttagtagtaagttgattcacttactatttattatagtacagagaacatttcagaatggaaact gtgaaagttttaccttgatcatttatcaatcatttctagtttattagttttgtttaatgattaattaagaggattcaccagatcattgatacggagaatatcca
aataccaaatacgctcactgtgcgatccacggaaagaaaagtaagttgttttggcgaacatcaaagaaaaaacttgctcttcttccgtaaaaaattcttctaaaaataccgaacccaaccattgcataaaagctcgtaccgtgcttttatgtttacgagctaaagttctagcgcatgaaagtcgaagtata
tactttagtcgatacaaagtcttcttttttgaagatccactgtgataatgaaaaagatttctacatatccgaccaaaccgatcaagaatatcccaatccgataaatcggtccaaattggtttactaataggatgccccgatccagtacaaaattgggcttttgctaaagatccaat gagaggagtaacagg
gactttggtatcgaattttttcatttgagtatctattagaaatgaattctccagcatttgattccttactaacaaagaatttattggtacacttgaaaagtaccccagaaaatcgaagcaagagttttctaattggtttagatggatcctttgcggttgagtccaaaaagagaaagaatattgccacaaacggac
aaggtaacatttccatttcttcttcaaaagaagagttccttttgatgcaagaattgcctttccttgatatcgaacataatgcataaggggatccataacgaaccatatggttttccgaaaaaaagcagggtacattaacccaaaat gttccatcttcctagaaaagatgattcgttccagaaaggttccgga
agaagttaatcgcaagcaagaagattgtttacgaagaaacaacaagaaaaattcatattctgatacataagagttatataggaaccgaaatagtcttttattttcttttttcaaaataaaaatggatttcattgaagtaataaaactattccaattcgagtagtagttgagaaagaatcgcaataaatgcaag
gatggaacatcttggatccggtattgaaggagttgaagcaagatatccaaat ggataggatagggtatttctatatgtgctagataatgtaagt gcaaaaatttgtcttctaaaaaaggaaatattgaatgaatagatcgtaaattctgaaactttggtatttctttttcttccggacaagactgttctcgtagc
gagaatgggatttctacaacgatcgcaaacccctcagatagaatctgagaataaaactcagaataaaaaaaattgttgtaatccaataatcgatcttggttaggatgattaaccaaattaatccaaaaattctgctgatacattcgaatcattaaccgtttcacaagtagtgaactaaatttcttgttattaga
accaataatttcgacaagttcggaaccatttaatccataatcatgggcaaacacataaat gtactcctgaaagagtagtgggtagacgaaatattgtctaggaaatttaagtttttctgaataaccctcgaatttttccatttgtatttctacttgaatcagagagagagaaatatttctcggtttatcaaatggt
gatacatagtacaatatggtcagaacagggt gttgcattttttaatacaaacccctggggaagaaaaggagtctaatccacggatctttttccgctccttttctatccaatttgtttatgtttgttctaattacaaaagagaacaaatcctttatttttgcaggccaattgctcttttgactttgggatacagtctctt
tatcaatatactgcttcttttacacattcaatccataacatccttttcaatccaaaatcaagaataattaggatttctaaaaaaaaaagaaaaaatcaaaggtctactcataggaaaaccagcttttccctacatcaggcactaatctatttttaacgtctaattagatcagggagttcttccaattaagaagtta
agctcgttgctttttgttttaccagaattggagccaggctctatccatttattcattagacccagaaaatcagaatttttttattccattccaaaaatccaaaataagaaattgattttattacgacatgctattttttccattcattacccttgaggatcagtcgcggtcttatagactctaccaagagtctggacg
aattttttgcttcatccaaatgtgtaaaagatcatagtcgcacttaaaagccgagtactctaccattgagttagcaacccagataaactaggatcttagatacgatcgaaatccaaaaatcaatggaattacaccgcacacccctgtcaaaatcttaaaatagcaagacattaaaagaaagattttatcac
cattgaaaacactcagataccaaaaggaacgggtctggttaaatttcactaaggttaaaagt ggcaccaatcacgatcgtaaaattgtcatttttttagcatttttatttaaataaataaataaatcttgtatgagagtacaaacaagagggacaaccctaccatttgagcaaagtgtaggcaaaaaacct
aatagggagtgaggataaagagacttatccatctacaaattctagatgttcaatggacctttgtcaatggaaatacaatggtaagaaaaaaattagatagaaaaactcaaaaaaataaaggcttatgttggattggcacgacataaatccagtcaaaaataggattaagaaagaggcaaattatttcta
aatagttagacaacaagggatactagtgagcctctcctagttttttattcatttagttcttcaattaactcaaagttctttctttttctttaaagaattccgccttccttaaaatatcagaaacggttcttgtaggttgagcacctttttcaaggaaatagagaatagctggaacatttaaacaagtttgattctttatc
ggatcataaaaacctacttttcgaagatctcttccttctcttcgagatcgaacatcaattgcaacgattcgatagacagcttattgggatagatgtagataaataaagccccccctagaaacgtataggaggttttctcctcatacggctcgagaatatgacttgcattaatttccgtacagaaaaaacaaa
tttcatttatactcatgactcaagttgactaattttgattgacagacttgaaagaaaaaaatcctttgaaattttttgagtcgtctctaaactcttttctttgcctcatctcgaacaaattcact tttattccttattccggtccaattctattgttgagacagttgaaaatcgtgtttacttgttcgggaatcctttatcttt
gatttgtgaaatccttgggtttaaacattacttcgggaattcttattcttttttctttcaaaagagtagcaacatacccttttttcttatttccttcgataaagcatttccctcttctatagaaatcgaatatgagcgattgattctgatagactttaatcaaaagagttttcccatatcttccaaaattggactttcttctta
ttttaaccttttgatttctatattatttcgatttctatattaagggtagaatgacaaagttggcctaatttattagttttcactaaccctagattctttcccttgataaaaaataaattctgtcctctcgagctccatcgtgtactatttacttagcttacttacaaacaacccagcgaaaattcggttcgggacgaatag
aacagactatgtcgagccaagagcattttcattactatggaaaatggt ggatagcaaaatccacaatcgatcgt gtccttcaagtcgcacgttgctttctaccacatcgttttaaacgaagttttaacataacattcctctaatttcattgcaaagtgttatagggaattgatccaatatggat ggaatcat ga
atagtcattagtttcgttttttgtatactaattcaaacttgctttgctatctatggagaaatatgaataaaagaaattaagtatttatcgggaaagactccgcaaagagccaatttatttaaacccatattctatcatatgaatgaaatatagttcgaaaaaagggaataaacaagtttgcttaagacttatttattat
ggaatttccatcctcaacagaggactcgagatgatcaatccaatcctgaaatgataagagaagaattgactcttctccaacaaataaactatcaacctcccgtttaattaatttaattaatatattagattagcaatctatttttccataccatttttccgtaacaaaactaattaactattaactagttaaactatt
gcaatgaaaagaaagttttttggtagttatagaattctcgtatttcttcgactcgaataccaaaagaaagaaaaaaat gaagtaaaaaaaacgcatttcctgtaaagtaaaattaaggtctttgcttttacttattttttcttttacctaaaagaagcaactccaaatcaaaattgaatccattctatctaacgag
cagttcttatcttatctttaccgggatggatcattctggatatttaaaaaatcgcggatcgagatcgtttttgcttaaccaaagaaagaaaaagaagaaggaaccttttttactaataaaatactataaaaaaaatttatctctatcataaatctatctctaccataaaggaataggtctcgttttttatacaatgtt
ctacgtcaagtttaaaattttttcatgaaaaaaagattttcaatttgactggacttgacactggattatgttttctgagacagaaaat gaacgcattaggactgcatcgaatctaagagtttataagagaaaaaaattctctttaataaactttatgtctcgtgcagaatacaatacgatttcatctttcgtttcatc
agaaaaaatctgggacggaaggattcgaacctccgagtaacgggaccaaaacccgctgccttaccacttggccacgccccatttcgggttttatgcgacactaataaacagtattatgtttatttcttattcgtcaatcctacttcaattacataaaaatggggggtattctcttggtaggattctagacat
gcgaataatatagaatccaaaaaatgcattgatcattacatggaattctattaagatattatatgaaagtcgaatttcttccactctcatttgagagtgcgaatacaaggaggtattttgtgtttgggaaagtccgaagaaaaaaggattttgaatcctccttttcctttttcccttagaaaaataactcaatcaa
aatccaattatctactctacaagaacgaaacgcttgttatgcctaatatacttagtttaacctgtatttgttttaattctgttatttatccgactagttttttcttcgccaaattgcccgaagct tatgccattttcaatccaatcgtggattttatgcctgtcatacctgtactcttttttctattagcctttgtttggcaag
ctgctgtaagttttcgatgaaatctttactactctgtctgccaaattgaatcatgtattcattctaaaaaaattcgaaaaatggataagagccgagaagtcttatattatgaaccttcgattctaaaattcaaattcttctacattgaatgtatagctgcagcaataaatttggatcagcctttctactccctgcatc
tacgttgagcaggtatctttaggtaaccgcacaatacctaacctaatttattgataagagt gcttattataaatcaattcttgcaatttttttcaaaaattgatttttgcatttttaggtgtcaaaataaacaaaacccatcctagtggatttgtgtggtaaggaaaaacgggtaatctattccttaaaaaaaaatct
tggagattatgtaatgcttactctcaaactttttgtttatacagtagtgatattctttgtttccctctttatctttggattcttatctaatgatccaggacgtaatcctgggcgt gacgagtaaaaatccaaaattttttcttacaaattggatttgtttcatacatttatctacgagaaaatccgggggtcagaattcctt
ccaattcgaaagtcccaaacgatccgagggggcggaaagagagggattcgaaccctcggtacaaaaaaattgtacaacggattagcaatccgccgctttagtccactcagccatctctccccgttccaaatcgaaaggtttccgtgatatgacagaggcaagaaataacgattgcaaaaaatcc
ttcctttttctttcaaaagttcaaaaaaattatattgccaattccattttagttatattcttttttcttaatgttaataaaaaaaagaagaaaattcttcttttttctttctaattctaaaattggatattggctaaaagacaatcagatagattttctcttcagcaggcatttccatataggacttgttataataaaacaagca
ggttatagaaaaaaactcttttttttattatttatcaacaaagcaaaaaggggtcttatcaaaccaacccaccccataaaattggaaagaaagataaagtaagtggacctgactccttgaat gaggcctctatccgctattctgatatataaattcgatgtagatgaaattgtataagtggatttttttgtatttc
cttagacttagaccacgcaaggcaagaatttctcgctatttactatttcatattcttgttactagatgttctataggaataagaagaaatcgcaacccctttccgctacacataaaaatggatttcgaaagtcaatttttcttttcaatatctttactttttttcagaatcctatttttgttcttatacccatgcaataga
gagcgagtgggaaaagggaggttactttttttcattttttccttaaaaaataggctttcttggaaataggaatcatggaataatctgaattccaatgtttatttctatagtataagaaaaactaattgaatcaaattcatggatttaccacgacctcggct gtgaccccatagataaaaatgcaaaatttctatct
tcgagaccattgaaaaaaggcattgaacgagaaaaaatcgtccacagataatctatcgtatgccttggaagtgatataaggtgctcggaaat ggttgaagtaattgaataggaggatcactatgactatagcccttggtagagttactaaagaagaaaat gatttatttgatattatggacgactggtta
cgaagggaccgttttgtttttgtaggatggtctggcctattgctttttccttgtgcttatttcgctttaggaggttggtttacagggacaacttttgtaacttcttggtatacccatggattggc gagttcctatttggaaggttgcaatttcttaaccgcagcagtttccacccct gccaatagtttagcacactct
ttgttgctactatggggcccggaagcacaaggggattttactcgttggtgtcaattaggt ggtctgtggacttttgttgctctccatggggcttttgcactaataggtttcatgttacgtcaatttgaacttgctcggtctgttcaattgcggccttataatgcaatttcattctctggcccaatcgctgtttttgttt
ccgtattcctgatttatccactggggcaatccggttggttctttgcgccgagttttggcgtagcagcgatatttcgattcatcctcttcttccaaggatttcataattggacgttgaacccatttcatatgatgggagttgccggagtattaggcgcggctctgctatgcgctattcatggggcaaccgtgga
寻找基因
? 生物知识体现为基因模型
? 基因模型的数学实现
? 马可夫、半马可夫和隐马可夫链
? 动态规划算法
? 语言学模型:生成语法
5 ’ - UT R 3 ’ - UT R
t r an sc r ib e
Ge n om i c D N A
P re - mRN A
sp li c e
mRN A
t r an sl ate
AA seq ( prote in primar y seq )
f ol d
P rote in f old
start stop
5 ’
3 ’
RNA P ol II + …
sp l i c e som e
u 1 u 2 u 4 u 5 u 6 RNP
r i b som e
i n i t,
+ e l on g, f ac t or s
t e r m,
c h ap e r on i n e
各种数学模型和算法
? 独立随机模型
? 马可夫、隐马可夫、半隐马可夫模型
? 聚类分析
? 判别分析( discriminance analysis)
? 动态规划算法
? 形式语言学方法
基于 132个完全基因组的亲缘树
(K=6)
16 个古细菌
110 个真细菌
6 个真核生物
Towards a Paradigm Shift in Biology
Walter Gilbert,Nature 349 (1991)
The new paradigm,now emerging,is that all
“genes” will be known (in the sense of being
resident in databases available electronically),
and that the starting point of a biological
investigation will be theoretical,An individual
scientist will begin with a theoretical conjecture,
only then turning to experiments to follow or to
test that hypothesis.
为新世纪培养“广谱”科学人才
? 数、理、化基础
? 生物知识
? 计算机和网络技能
? 从那门学科开始并不重要,要兼容并蓄而
不排它,不为自己设限
? 大科学需要团队精神
? 做好自己的工作、尊重别人的工作;适应
不同的思维方式和研究风格
? 学术界互相支持而不彼此拆台
适应不同的思维方法:
因果论和“目的论”
? 任何科学都来自对客观世界的反映
? 数理科学:“放之宇宙而皆准”的普遍
原理、逻辑和演绎的方法
? 生命科学:小小地球上一定历史时期、
一定空间和温度范围内的极其特殊的现
象、归纳为主的方法
? 唯其特殊、所以复杂
? 不同的语言:因果和“目的”
汤佩松、王竹溪 60多年前的贡献
? J,Phys,Chem,45 (1941) 443 (1940年
8月 9日收到寄自昆明西南联大的文稿 )
? 孤立细胞中水关系的热力学描述,使用化
学势,不同于当时的渗透压理论
? 1950年代国内的争论:汤王, 败阵,
? 1960年代国外回到热力学理论
? 1980年代以后国际上注意到汤王早期工作
(感谢刘寄星博士提供素材 )
参考书
1。郝柏林、刘寄星主编,,理论物理与生
命科学,,上海科学技术出版社,1997,
1999。
2。邹承鲁,,生物学在召唤,,上海科技
教育出版社,1999。
3。郝柏林、张淑誉,,生物信息学手册,,
上海科学技术出版社,2000,2002。
4。郝柏林,,生物信息学浅说,,上海科
技教育出版社,2003。
5。, GOOGLE大学,, http://google.com
结束
谢谢!
郝柏林
复旦大学理论生命科学研究中心
中国科学院理论物理研究所
http://www.itp.ac.cn/~hao/
科学、宗教与艺术
? 同源而殊途:同源于描述和解释自然、人类以
及人和自然的关系。
? 数学是自然科学的“画笔”:定量而不仅是定
性地掌握自然规律。
? 科学结论具有可以定量检验的预测能力。
?,数学”和“定量”包括解析、数值、图形和
其它主要由现代计算机提供的模拟手段。
? 物理学已经成为鼎立于实验、理论和计算三大
支柱上的成熟的学科。生物是物,生物学也会
受到物理学的启发。
生物是 物
生物有 理
天地有大美而不言,万物有
成理而不说。夫圣人者原天
地之美,而达万 物 之 理 。
庄子,,知北游,
物 含妙 理 总堪寻
(北京颐和园铜亭出口处对联下联 )
海潜空飞齐 物理 以归一
天造地设合人力而成三
(厦门集美鳌园陈嘉庚墓碑背面对联 )
细推 物理 须行乐
何用浮名绊此身
杜甫
耳目之察,不足以分 物理 。
,淮南子。览冥训,
需要仪器观测和理论思维
物理学与生物学的相互促进
由来已久
电学和电生理学同时诞生
C,A,de Coulomb,1785
L,Galvani,1791
生物学为物理学启示过能量守恒
? 医生 R,J,Mayer (1842):受动、静脉血
色差别启发,第一个给出热功当量。
? 物理学家 J,P,Joule (1843):热功当量。
? 现役军医 H,von Helmholtz (1847):把能
量守恒从机械运动推广到热、电、磁乃至
生命现象。( 24年后任物理教授)
(感谢刘寄星博士核实姓名年代)
物理学为生物学提供过大量工具
? 光学显微镜 (~1590):
细胞 (1665)
细菌 (Antonie van Leeuwenhoek,1683)
(Muller确认细菌为一类生物,1773)
? X射线衍射晶体结构分析
DNA双螺旋结构( JD Watson,FHC Crick,1953)
肌红蛋白、血红蛋白晶体结构( 1957,1959)
? 电子显微镜、扫描电镜、隧道扫描电镜
物理学为生物学提供过大量工具
? 各种光谱方法、荧光标记
? 中子衍射
? 示踪原子、放射性标记
? 核磁共振波谱
? 质谱仪
?,化学”仪器:超速离心机、液相色谱
分析、圆偏振二向色性分析、凝胶电泳
物理学为生物学提供了新思想
?负熵
?非周期晶体
?对热涨落的担心
?三联码( George Gamow,1954)
?生物中的, 标度, 和, 分形,
Erwin Schrodinger,What is Life?
The Physical Aspect of the Living
Cell,1944,…
Michael P,Murphy and Luke A,J,
O’Neill,eds,What is Life? The
Next Fifty Years,Cambridge
University Press,1995,1997.
数学是关于 形 和 数 的科学
分析
代数
几何
统计、概率和随机过程
离散数学:组合学、图论、语言学
生物有 形
生物有 数
生物有形,人所共识。地球上自
然之美,多数来自生物本身和它
们的营造。生物有数,则经历了
漫长的认识过程。
生物有 形
1,HIV 病毒
2,粘菌 (Slime mold):自组织
现象的实例
“数学的应用,…
生物学中的数学 =0.”
(恩格斯,1885)
于光远等译,,自然辩证法,,
人民出版社,1984,172页
生物有 数
生物多样性(宏观数据)
? 现存物种知多少?
从 2 百万到 10亿的种种估计
? 2004年 6月初旬 GenBank核酸数据库中有
171 535 种生物至少有 1条数据
? 其中只有约半数有某些分类学信息
? 目前地球上存活着约 5000 种哺乳动物,约 9000种
鸟类
? 细菌是地球上最成功的物种,然而我们不知道它们
的数目有多少
生物数据的产量
? 中国科学院基因组学研究所(, 华大基因, )
每天的测序能力,5000万碱基对( 5*107)
? 一个人的基因组,3.2*109 碱基对
? 籼稻基因组,4.3*108碱基对
? 全世界每年生物数据产出量,1015字节
? 英国 Sanger中心今后 5年每年新增硬盘,80-
100TB,即 (0.8~1)*1014字节
GenBank 143版 (2004年 8月 15日 )
? 序列数,
37 343 937 (3734万 )
? 核苷酸 (字母 )数,
41 808 045 653 (418亿 )
? 序列平均长度, 1119
SWISS-PROT Rel.43
(2004)
?160 000 以上
?最短,3 AA=3肽
?最长,6669 AA
AA,Amino Acids(氨基酸 )
计算机:用火以来的最伟大发明
? ENIAC( 1944):每秒 330次乘法运算
? EDVAC (1952),第一台 von Neumann计算机
? 神威计算机:每秒 3840亿次浮点运算
? 曙光 3000计算机:每秒 4000亿次浮点运算
? 每秒 1万亿次 =1012次 /秒 =1 Tflops
?,Earth Simulator”,40 Tflops
? 60年间 1011倍速度增长
数学、物理和计算机科学
大有可为
生物学引论
地球上的自然史
? ~13 Bys,大爆炸
? ~4.9 Bys,太阳系和地球诞生
? ~3.8 Bys,地球上出现原始生命
? ~2.7 Bys,细菌、光和作用
? ~1.7 Bys,多细胞生物
? ~550 Mys,寒武纪 (Cambrian)物种大爆发
? ~425 Mys,志留纪 (Silurian)物种爆发
? ~65 Mys,恐龙灭绝
? ~3.5 Mys,化石古猿科与人科分离
? ~0.7 Mys,人类与黑猩猩分离
? ~0.5 Mys,北京人 (Homo erectus)
? ~0.4 Mys,智人 (Homo sapiens)
? ~100-20 Kys,山顶洞人
? 221 BC,2224年前:秦始皇统一中国
模式生物
? 噬菌体 (Bacteriophage,lambda,T4,T7)
? 病毒 (Viruses,SV40,HIV)
? 大肠杆菌 (Escherichia coli)
? 酵母 (Saccharomyces cerevisiae,yeast budding)
? 线虫 (Caenorhabitidis elegans,nematode,worm)
? 果蝇 (Drosophila melanogaster,fruitfly)
? 拟南芥 (Arabidopsis thaliana)
? 水稻 (Oryza sativa,rice)
? 非洲爪蟾 (Xenopus laviae,African frog)
? 斑马鱼 (Danio rerio,Zebra fish)
? 小鼠 (Mus musculus,mouse)
? 智人 (Homo sapiens)
遗传物质
? 核酸 (DNA):线性和环状
? 质粒 (Plasmids):线性和环状
? 染色体,DNA + 组蛋白
? 线粒体:有自己的 DNA
? 叶绿体:也有自己的 DNA
生命现象的众多层次
? 系统生物学、生物复杂性、生态系统
? 生物多样性、种群动力学
? 动物行为科学
? 个体、器官、组织
? 细胞及其通信、信号传导
? 免疫网络、调控网络、代谢网络
? 复制、转录、剪接、翻译、运输
? 生物大分子, 蛋白质与核酸( DNA,RNA)
? 小分子 (糖、脂肪、核苷酸、氨基酸 )、金属离子、水
? 分子和原子的相互作用
转向研究“活物”的过程
? 1985:中国科学院生物学部关于, 生物
学发展战略, 常委扩大会议
? 1991-1994:组内学习和所内邀请报告
? 1993:物理学会委托清华大学召开, 物
理学与生物学, 讨论会
? 1994:理论物理研究所 Internet开通、
开始关心生物数据库情况
? 1995:香山会议, 理论物理和生命科学,
1997:从何开始?
? 1977:发明两种 DNA快速测序方法
? 1977—1995:病毒和噬菌体完全基因组
? 1995:两种, 独立生活, 细菌的完全基
因组,生殖道支原体和流感嗜血菌
? 1996,7种细菌和酵母的完全基因组
? 1997:大肠杆菌和其它细菌
从细菌完全基因组开始!
感谢合作者
? 张淑誉、郑伟谋、谢惠民、李弘
谦
? 陈国义、喩祖国,王彬
? 戚继、高雷、史晓黎、王希胤、
卫海滨
感谢生物学界的老师和朋友们
来自我们工作的几个具体例子
? 完全基因组中的缺失和稀少字串:二维和一维直方图
中的, 精细结构,,相关的统计、组合和语言问题,
缺失和稀少短串的物种特异性,环境菌落中物种识别
? 细菌亲缘关系和原核生物的分类问题:组分矢量方法,
蛋白质序列的分解和重构与图论中尤拉闭合圈的数目
问题,带限制条件的随机化
? 籼稻基因组框架图:水稻基因组中的 tRNA基因、
BGF—从基因组序列中寻找基因的程序,禾本科、稻
属和各种水稻基因组的比较
细菌完全基因组中的缺失和
稀少短核苷酸串
以大肠杆菌为例:
一个 DNA环,4 639 221 个 a,c,g,t字母
长度为 8的短串共有种 65536种
同长随机序列中平均每种串出现 71次
实际情形如何?
SeeDNA程序演示
?C语言 + Xlib + Xtoolkit
?C语言 + GTK ( UNIX或 LINUX平台)
?由 GenBank取得基因组数据
?与基因组序列随机化结果对比
?背后的组合学和语言学问题
细菌分类
? 难处:形态性状少
形状:杆、球(单、双、链、葡萄)、
分枝、弯曲
着色:革兰氏阳性和阴性
生化:厌氧、固氮、脱硫
? 进展,16S rRNA序列、三界论 (Carl Woese)
? 困惑:完全基因组带来问题
基因横向传递?
基因树不等于物种树
?
基于组分矢量的构树方法
? 基于 K-肽计数的代表矢量
? 20K维空间中的距离
? 用 K-2阶马可夫链扣除随机背景
水稻叶绿体基因组
可能曾经是一种光合细菌
? 全部由 a,c,g,t四种核苷酸组成
的序列
? 粳稻(日本 1989),134525个字母
籼稻(中国 2001),134559个字母
cccaatatcttgcttcagcaagatattgggtatttctagctttcctttcttcaaaaattgctatatgttagcagaaaagccttatccattaagagat ggaacttcaagagcagctaggtctagagggaagttgtgagcattacgttcgtgcattacttccataccaagattagcacggttgat gatatcagccc
aagtattaataacgcgaccttggctatcaactacagattggttgaaattgaatccgtttagattgaaagccatagtactaatacctaaagcagt gaaccaaatccctactacaggccaagcagccaagaagaagt gtaaagaacgagagttgttaaaactagcatattggaagattaatcggccaaa
ataaccatgagcggccacaatattataagtttcttcctcttgaccaaatctgtaaccctcattagcagattcgttttcagtggtttccctgatcaaactagaggttaccaaggaaccatgcatagcactgaatagggaaccgccgaatacaccagctacacctaacat gtgaaatggatgcataaggat
gttatgctctgcctggaatacaatcataaagttgaaagtaccagatattcctaaaggcataccatcagagaaacttccttgaccaatagggtaaatcaagaaaacagcagtagcagctgcaacaggagct gaatatgcaacagcaatccaaggacgcatacccagacggaaactcagttcccact
cacgacccatataacaagctacaccaagtaagaagtgtagaacaattagctcataaggaccaccattgtataaccactcatcaacagat gcagcttcccaaattgggtaaaagtgcaatccgatcgccgcagaagtaggaataat ggcaccagagataatattgtttccgtaaagtaaagaacca
gaaacaggctcacgaataccatcaatatctactggaggggcagcgat gaaggcgataataaatacagaagttgcggtcaataaggtagggatcatcaaaacaccgaaccatccgatgtaaagacggttttcggtgctagttatccagttgcagaagcgaccccacaggcttgtactttcgcgtct
ctctaaaattgcagtcatggtaagatcttggtttattcaaattgcaaggactcccaagcacacgtattaactagaaagataatagaaggcttgttatttaacagtataatatagactatataccaat gtcaaccaagccagccccgacagttgtatatccatacaacaaaatttaccaaaccaaaaaatttt
gtaaatgaagtgagtgaaaaatcaaaactcagattgctcctttctagtttccatatgggttgcccgggactcgaacccggaactagtcggatggagtagataattattccttgttacaatagagaaaaaacctctccccaaatcgt gcttgcatttttcattgcacacgactttccctatgtagaaataggc
tatttctattccgaagaggaagtctactaatttttttagtagtaagttgattcacttactatttattatagtacagagaacatttcagaatggaaact gtgaaagttttaccttgatcatttatcaatcatttctagtttattagttttgtttaatgattaattaagaggattcaccagatcattgatacggagaatatcca
aataccaaatacgctcactgtgcgatccacggaaagaaaagtaagttgttttggcgaacatcaaagaaaaaacttgctcttcttccgtaaaaaattcttctaaaaataccgaacccaaccattgcataaaagctcgtaccgtgcttttatgtttacgagctaaagttctagcgcatgaaagtcgaagtata
tactttagtcgatacaaagtcttcttttttgaagatccactgtgataatgaaaaagatttctacatatccgaccaaaccgatcaagaatatcccaatccgataaatcggtccaaattggtttactaataggatgccccgatccagtacaaaattgggcttttgctaaagatccaat gagaggagtaacagg
gactttggtatcgaattttttcatttgagtatctattagaaatgaattctccagcatttgattccttactaacaaagaatttattggtacacttgaaaagtaccccagaaaatcgaagcaagagttttctaattggtttagatggatcctttgcggttgagtccaaaaagagaaagaatattgccacaaacggac
aaggtaacatttccatttcttcttcaaaagaagagttccttttgatgcaagaattgcctttccttgatatcgaacataatgcataaggggatccataacgaaccatatggttttccgaaaaaaagcagggtacattaacccaaaat gttccatcttcctagaaaagatgattcgttccagaaaggttccgga
agaagttaatcgcaagcaagaagattgtttacgaagaaacaacaagaaaaattcatattctgatacataagagttatataggaaccgaaatagtcttttattttcttttttcaaaataaaaatggatttcattgaagtaataaaactattccaattcgagtagtagttgagaaagaatcgcaataaatgcaag
gatggaacatcttggatccggtattgaaggagttgaagcaagatatccaaat ggataggatagggtatttctatatgtgctagataatgtaagt gcaaaaatttgtcttctaaaaaaggaaatattgaatgaatagatcgtaaattctgaaactttggtatttctttttcttccggacaagactgttctcgtagc
gagaatgggatttctacaacgatcgcaaacccctcagatagaatctgagaataaaactcagaataaaaaaaattgttgtaatccaataatcgatcttggttaggatgattaaccaaattaatccaaaaattctgctgatacattcgaatcattaaccgtttcacaagtagtgaactaaatttcttgttattaga
accaataatttcgacaagttcggaaccatttaatccataatcatgggcaaacacataaat gtactcctgaaagagtagtgggtagacgaaatattgtctaggaaatttaagtttttctgaataaccctcgaatttttccatttgtatttctacttgaatcagagagagagaaatatttctcggtttatcaaatggt
gatacatagtacaatatggtcagaacagggt gttgcattttttaatacaaacccctggggaagaaaaggagtctaatccacggatctttttccgctccttttctatccaatttgtttatgtttgttctaattacaaaagagaacaaatcctttatttttgcaggccaattgctcttttgactttgggatacagtctctt
tatcaatatactgcttcttttacacattcaatccataacatccttttcaatccaaaatcaagaataattaggatttctaaaaaaaaaagaaaaaatcaaaggtctactcataggaaaaccagcttttccctacatcaggcactaatctatttttaacgtctaattagatcagggagttcttccaattaagaagtta
agctcgttgctttttgttttaccagaattggagccaggctctatccatttattcattagacccagaaaatcagaatttttttattccattccaaaaatccaaaataagaaattgattttattacgacatgctattttttccattcattacccttgaggatcagtcgcggtcttatagactctaccaagagtctggacg
aattttttgcttcatccaaatgtgtaaaagatcatagtcgcacttaaaagccgagtactctaccattgagttagcaacccagataaactaggatcttagatacgatcgaaatccaaaaatcaatggaattacaccgcacacccctgtcaaaatcttaaaatagcaagacattaaaagaaagattttatcac
cattgaaaacactcagataccaaaaggaacgggtctggttaaatttcactaaggttaaaagt ggcaccaatcacgatcgtaaaattgtcatttttttagcatttttatttaaataaataaataaatcttgtatgagagtacaaacaagagggacaaccctaccatttgagcaaagtgtaggcaaaaaacct
aatagggagtgaggataaagagacttatccatctacaaattctagatgttcaatggacctttgtcaatggaaatacaatggtaagaaaaaaattagatagaaaaactcaaaaaaataaaggcttatgttggattggcacgacataaatccagtcaaaaataggattaagaaagaggcaaattatttcta
aatagttagacaacaagggatactagtgagcctctcctagttttttattcatttagttcttcaattaactcaaagttctttctttttctttaaagaattccgccttccttaaaatatcagaaacggttcttgtaggttgagcacctttttcaaggaaatagagaatagctggaacatttaaacaagtttgattctttatc
ggatcataaaaacctacttttcgaagatctcttccttctcttcgagatcgaacatcaattgcaacgattcgatagacagcttattgggatagatgtagataaataaagccccccctagaaacgtataggaggttttctcctcatacggctcgagaatatgacttgcattaatttccgtacagaaaaaacaaa
tttcatttatactcatgactcaagttgactaattttgattgacagacttgaaagaaaaaaatcctttgaaattttttgagtcgtctctaaactcttttctttgcctcatctcgaacaaattcact tttattccttattccggtccaattctattgttgagacagttgaaaatcgtgtttacttgttcgggaatcctttatcttt
gatttgtgaaatccttgggtttaaacattacttcgggaattcttattcttttttctttcaaaagagtagcaacatacccttttttcttatttccttcgataaagcatttccctcttctatagaaatcgaatatgagcgattgattctgatagactttaatcaaaagagttttcccatatcttccaaaattggactttcttctta
ttttaaccttttgatttctatattatttcgatttctatattaagggtagaatgacaaagttggcctaatttattagttttcactaaccctagattctttcccttgataaaaaataaattctgtcctctcgagctccatcgtgtactatttacttagcttacttacaaacaacccagcgaaaattcggttcgggacgaatag
aacagactatgtcgagccaagagcattttcattactatggaaaatggt ggatagcaaaatccacaatcgatcgt gtccttcaagtcgcacgttgctttctaccacatcgttttaaacgaagttttaacataacattcctctaatttcattgcaaagtgttatagggaattgatccaatatggat ggaatcat ga
atagtcattagtttcgttttttgtatactaattcaaacttgctttgctatctatggagaaatatgaataaaagaaattaagtatttatcgggaaagactccgcaaagagccaatttatttaaacccatattctatcatatgaatgaaatatagttcgaaaaaagggaataaacaagtttgcttaagacttatttattat
ggaatttccatcctcaacagaggactcgagatgatcaatccaatcctgaaatgataagagaagaattgactcttctccaacaaataaactatcaacctcccgtttaattaatttaattaatatattagattagcaatctatttttccataccatttttccgtaacaaaactaattaactattaactagttaaactatt
gcaatgaaaagaaagttttttggtagttatagaattctcgtatttcttcgactcgaataccaaaagaaagaaaaaaat gaagtaaaaaaaacgcatttcctgtaaagtaaaattaaggtctttgcttttacttattttttcttttacctaaaagaagcaactccaaatcaaaattgaatccattctatctaacgag
cagttcttatcttatctttaccgggatggatcattctggatatttaaaaaatcgcggatcgagatcgtttttgcttaaccaaagaaagaaaaagaagaaggaaccttttttactaataaaatactataaaaaaaatttatctctatcataaatctatctctaccataaaggaataggtctcgttttttatacaatgtt
ctacgtcaagtttaaaattttttcatgaaaaaaagattttcaatttgactggacttgacactggattatgttttctgagacagaaaat gaacgcattaggactgcatcgaatctaagagtttataagagaaaaaaattctctttaataaactttatgtctcgtgcagaatacaatacgatttcatctttcgtttcatc
agaaaaaatctgggacggaaggattcgaacctccgagtaacgggaccaaaacccgctgccttaccacttggccacgccccatttcgggttttatgcgacactaataaacagtattatgtttatttcttattcgtcaatcctacttcaattacataaaaatggggggtattctcttggtaggattctagacat
gcgaataatatagaatccaaaaaatgcattgatcattacatggaattctattaagatattatatgaaagtcgaatttcttccactctcatttgagagtgcgaatacaaggaggtattttgtgtttgggaaagtccgaagaaaaaaggattttgaatcctccttttcctttttcccttagaaaaataactcaatcaa
aatccaattatctactctacaagaacgaaacgcttgttatgcctaatatacttagtttaacctgtatttgttttaattctgttatttatccgactagttttttcttcgccaaattgcccgaagct tatgccattttcaatccaatcgtggattttatgcctgtcatacctgtactcttttttctattagcctttgtttggcaag
ctgctgtaagttttcgatgaaatctttactactctgtctgccaaattgaatcatgtattcattctaaaaaaattcgaaaaatggataagagccgagaagtcttatattatgaaccttcgattctaaaattcaaattcttctacattgaatgtatagctgcagcaataaatttggatcagcctttctactccctgcatc
tacgttgagcaggtatctttaggtaaccgcacaatacctaacctaatttattgataagagt gcttattataaatcaattcttgcaatttttttcaaaaattgatttttgcatttttaggtgtcaaaataaacaaaacccatcctagtggatttgtgtggtaaggaaaaacgggtaatctattccttaaaaaaaaatct
tggagattatgtaatgcttactctcaaactttttgtttatacagtagtgatattctttgtttccctctttatctttggattcttatctaatgatccaggacgtaatcctgggcgt gacgagtaaaaatccaaaattttttcttacaaattggatttgtttcatacatttatctacgagaaaatccgggggtcagaattcctt
ccaattcgaaagtcccaaacgatccgagggggcggaaagagagggattcgaaccctcggtacaaaaaaattgtacaacggattagcaatccgccgctttagtccactcagccatctctccccgttccaaatcgaaaggtttccgtgatatgacagaggcaagaaataacgattgcaaaaaatcc
ttcctttttctttcaaaagttcaaaaaaattatattgccaattccattttagttatattcttttttcttaatgttaataaaaaaaagaagaaaattcttcttttttctttctaattctaaaattggatattggctaaaagacaatcagatagattttctcttcagcaggcatttccatataggacttgttataataaaacaagca
ggttatagaaaaaaactcttttttttattatttatcaacaaagcaaaaaggggtcttatcaaaccaacccaccccataaaattggaaagaaagataaagtaagtggacctgactccttgaat gaggcctctatccgctattctgatatataaattcgatgtagatgaaattgtataagtggatttttttgtatttc
cttagacttagaccacgcaaggcaagaatttctcgctatttactatttcatattcttgttactagatgttctataggaataagaagaaatcgcaacccctttccgctacacataaaaatggatttcgaaagtcaatttttcttttcaatatctttactttttttcagaatcctatttttgttcttatacccatgcaataga
gagcgagtgggaaaagggaggttactttttttcattttttccttaaaaaataggctttcttggaaataggaatcatggaataatctgaattccaatgtttatttctatagtataagaaaaactaattgaatcaaattcatggatttaccacgacctcggct gtgaccccatagataaaaatgcaaaatttctatct
tcgagaccattgaaaaaaggcattgaacgagaaaaaatcgtccacagataatctatcgtatgccttggaagtgatataaggtgctcggaaat ggttgaagtaattgaataggaggatcactatgactatagcccttggtagagttactaaagaagaaaat gatttatttgatattatggacgactggtta
cgaagggaccgttttgtttttgtaggatggtctggcctattgctttttccttgtgcttatttcgctttaggaggttggtttacagggacaacttttgtaacttcttggtatacccatggattggc gagttcctatttggaaggttgcaatttcttaaccgcagcagtttccacccct gccaatagtttagcacactct
ttgttgctactatggggcccggaagcacaaggggattttactcgttggtgtcaattaggt ggtctgtggacttttgttgctctccatggggcttttgcactaataggtttcatgttacgtcaatttgaacttgctcggtctgttcaattgcggccttataatgcaatttcattctctggcccaatcgctgtttttgttt
ccgtattcctgatttatccactggggcaatccggttggttctttgcgccgagttttggcgtagcagcgatatttcgattcatcctcttcttccaaggatttcataattggacgttgaacccatttcatatgatgggagttgccggagtattaggcgcggctctgctatgcgctattcatggggcaaccgtgga
寻找基因
? 生物知识体现为基因模型
? 基因模型的数学实现
? 马可夫、半马可夫和隐马可夫链
? 动态规划算法
? 语言学模型:生成语法
5 ’ - UT R 3 ’ - UT R
t r an sc r ib e
Ge n om i c D N A
P re - mRN A
sp li c e
mRN A
t r an sl ate
AA seq ( prote in primar y seq )
f ol d
P rote in f old
start stop
5 ’
3 ’
RNA P ol II + …
sp l i c e som e
u 1 u 2 u 4 u 5 u 6 RNP
r i b som e
i n i t,
+ e l on g, f ac t or s
t e r m,
c h ap e r on i n e
各种数学模型和算法
? 独立随机模型
? 马可夫、隐马可夫、半隐马可夫模型
? 聚类分析
? 判别分析( discriminance analysis)
? 动态规划算法
? 形式语言学方法
基于 132个完全基因组的亲缘树
(K=6)
16 个古细菌
110 个真细菌
6 个真核生物
Towards a Paradigm Shift in Biology
Walter Gilbert,Nature 349 (1991)
The new paradigm,now emerging,is that all
“genes” will be known (in the sense of being
resident in databases available electronically),
and that the starting point of a biological
investigation will be theoretical,An individual
scientist will begin with a theoretical conjecture,
only then turning to experiments to follow or to
test that hypothesis.
为新世纪培养“广谱”科学人才
? 数、理、化基础
? 生物知识
? 计算机和网络技能
? 从那门学科开始并不重要,要兼容并蓄而
不排它,不为自己设限
? 大科学需要团队精神
? 做好自己的工作、尊重别人的工作;适应
不同的思维方式和研究风格
? 学术界互相支持而不彼此拆台
适应不同的思维方法:
因果论和“目的论”
? 任何科学都来自对客观世界的反映
? 数理科学:“放之宇宙而皆准”的普遍
原理、逻辑和演绎的方法
? 生命科学:小小地球上一定历史时期、
一定空间和温度范围内的极其特殊的现
象、归纳为主的方法
? 唯其特殊、所以复杂
? 不同的语言:因果和“目的”
汤佩松、王竹溪 60多年前的贡献
? J,Phys,Chem,45 (1941) 443 (1940年
8月 9日收到寄自昆明西南联大的文稿 )
? 孤立细胞中水关系的热力学描述,使用化
学势,不同于当时的渗透压理论
? 1950年代国内的争论:汤王, 败阵,
? 1960年代国外回到热力学理论
? 1980年代以后国际上注意到汤王早期工作
(感谢刘寄星博士提供素材 )
参考书
1。郝柏林、刘寄星主编,,理论物理与生
命科学,,上海科学技术出版社,1997,
1999。
2。邹承鲁,,生物学在召唤,,上海科技
教育出版社,1999。
3。郝柏林、张淑誉,,生物信息学手册,,
上海科学技术出版社,2000,2002。
4。郝柏林,,生物信息学浅说,,上海科
技教育出版社,2003。
5。, GOOGLE大学,, http://google.com
结束
谢谢!