郝柏林院士的生物信息学讲座5

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

从学科交叉漫谈生物信息学郝柏林复旦大学理论生命科学研究中心中国科学院理论物理研究所~hao/科学、宗教与艺术•同源而殊途:同源于描述和解释自然、人类以及人和自然的关系。•数学是自然科学的“画笔”:定量而不仅是定性地掌握自然规律。•科学结论具有可以定量检验的预测能力。•“数学”和“定量”包括解析、数值、图形和其它主要由现代计算机提供的模拟手段。•物理学已经成为鼎立于实验、理论和计算三大支柱上的成熟的学科。生物是物,生物学也会受到物理学的启发。生物是物生物有理天地有大美而不言,万物有成理而不说。夫圣人者原天地之美,而达万物之理。庄子,《知北游》物含妙理总堪寻(北京颐和园铜亭出口处对联下联)细推物理须行乐何用浮名绊此身杜甫耳目之察,不足以分物理。《淮南子。览冥训》需要仪器观测和理论思维物理学与生物学的相互促进由来已久电学和电生理学同时诞生C.A.deCoulomb,1785L.Galvani,1791生物学为物理学启示过能量守恒•医生R.J.Mayer(1842):受动、静脉血色差别启发,第一个给出热功当量。•物理学家J.P.Joule(1843):热功当量。•现役军医H.vonHelmholtz(1847):把能量守恒从机械运动推广到热、电、磁乃至生命现象。(24年后任物理教授)(感谢刘寄星博士核实姓名年代)物理学为生物学提供过大量工具•光学显微镜(~1590):细胞(1665)细菌(AntonievanLeeuwenhoek,1683)(Muller确认细菌为一类生物,1773)•X射线衍射晶体结构分析DNA双螺旋结构(JDWatson,FHCCrick,1953)肌红蛋白、血红蛋白晶体结构(1957,1959)•电子显微镜、扫描电镜、隧道扫描电镜物理学为生物学提供过大量工具•各种光谱方法、荧光标记•中子衍射•示踪原子、放射性标记•核磁共振波谱•质谱仪•“化学”仪器:超速离心机、液相色谱分析、圆偏振二向色性分析、凝胶电泳物理学为生物学提供了新思想•负熵•非周期晶体•对热涨落的担心•三联码(GeorgeGamow,1954)•生物中的“标度”和“分形”ErwinSchrodinger,WhatisLife?ThePhysicalAspectoftheLivingCell,1944,…MichaelP.MurphyandLukeA.J.O’Neill,eds.WhatisLife?TheNextFiftyYears,CambridgeUniversityPress,1995,1997.数学是关于形和数的科学分析代数几何统计、概率和随机过程离散数学:组合学、图论、语言学生物有形生物有数生物有形,人所共识。地球上自然之美,多数来自生物本身和它们的营造。生物有数,则经历了漫长的认识过程。生物有形1.HIV病毒2.粘菌(Slimemold):自组织现象的实例“数学的应用:…生物学中的数学=0.”(恩格斯:1885)于光远等译,《自然辩证法》,人民出版社,1984,172页生物有数生物多样性(宏观数据)•现存物种知多少?从2百万到10亿的种种估计•2003年11月初GenBank核酸数据库中有154089种生物至少有1条数据•其中只有约半数有某些分类学信息•目前地球上存活着约5000种哺乳动物,约9000种鸟类•细菌是地球上最成功的物种,然而我们不知道它们的数目有多少生物数据的产量•中国科学院基因组学研究所(“华大基因”)每天的测序能力:5000万碱基对(5*107)•一个人的基因组:3.2*109碱基对•籼稻基因组:4.3*108碱基对•全世界每年生物数据产出量:1015字节•英国Sanger中心今后5年每年新增硬盘:80-100TB,即(0.8~1)*1014字节GenBank138版(2003年10月15日)•序列数:29819397(2981万)•核苷酸(字母)数:35599621471(355亿)•序列平均长度:1193计算机:用火以来的最伟大发明•ENIAC(1944):每秒330次乘法运算•神威计算机:每秒3840亿次浮点运算•曙光3000计算机:每秒4000亿次浮点运算•每秒1万亿次=1012次/秒数学、物理和计算机科学大有可为生物学引论地球上的自然史~13Bys:大爆炸~4.9Bys:太阳系和地球诞生~3.8Bys:地球上出现原始生命~2.7Bys:细菌、光和作用~1.7Bys:多细胞生物~550Mys:寒武纪(Cambrian)物种大爆发~425Mys:志留纪(Silurian)物种爆发~65Mys:恐龙灭绝~3.5Mys:化石古猿科与人科分离~0.7Mys:人类与黑猩猩分离~0.5Mys:北京人(Homoerectus)~0.4Mys:智人(Homosapiens)~100-20Kys:山顶洞人221BC,2224年前:秦始皇统一中国模式生物噬菌体(Bacteriophage:lambda,T4,T7)病毒(Viruses:SV40,HIV)大肠杆菌(Escherichiacoli)酵母(Saccharomycescerevisiae,yeastbudding)线虫(Caenorhabitidiselegans,nematode,worm)果蝇(Drosophilamelanogaster,fruitfly)拟南芥(Arabidopsisthaliana)水稻(Oryzasativa,rice)非洲爪蟾(Xenopuslaviae,Africanfrog)斑马鱼(Daniorerio,Zebrafish)小鼠(Musmusculus,mouse)智人(Homosapiens)遗传物质核酸(DNA):线性和环状质粒(Plasmids):线性和环状染色体:DNA+组蛋白线粒体:有自己的DNA叶绿体:也有自己的DNA生命现象的众多层次•系统生物学、生物复杂性、生态系统•生物多样性、种群动力学•动物行为科学•个体、器官、组织•细胞及其通信、信号传导•免疫网络、调控网络、代谢网络•复制、转录、剪接、翻译、运输•生物大分子:蛋白质与核酸(DNA、RNA)•小分子(糖、脂肪、核苷酸、氨基酸)、金属离子、水•分子和原子的相互作用来自我们工作的几个具体例子•完全基因组中的缺失和稀少字串:相关的组合学和语言学问题•籼稻基因组框架图:测序读出大量短串的拼接、重复序列带来的困难、长DNA链中寻找基因•细菌亲缘关系和分类学细菌完全基因组中的缺失和稀少短核苷酸串以大肠杆菌为例:一个DNA环:4639221个a,c,g,t字母长度为8的短串共有种65536种同长随机序列中平均每种串出现71次实际情形如何?seeDNA程序演示C语言+Xlib+XtoolkitUNIX或LINUX平台由GenBank取得基因组数据背后的组合学和语言学问题水稻叶绿体基因组可能曾经是一种光合细菌•全部由a、c、g、t四种核苷酸组成的序列•粳稻(日本1989):134525个字母籼稻(中国2001):134559个字母cccaatatcttgcttcagcaagatattgggtatttctagctttcctttcttcaaaaattgctatatgttagcagaaaagccttatccattaagagatggaacttcaagagcagctaggtctagagggaagttgtgagcattacgttcgtgcattacttccataccaagattagcacggttgatgatatcagcccaagtattaataacgcgaccttggctatcaactacagattggttgaaattgaatccgtttagattgaaagccatagtactaatacctaaagcagtgaaccaaatccctactacaggccaagcagccaagaagaagtgtaaagaacgagagttgttaaaactagcatattggaagattaatcggccaaaataaccatgagcggccacaatattataagtttcttcctcttgaccaaatctgtaaccctcattagcagattcgttttcagtggtttccctgatcaaactagaggttaccaaggaaccatgcatagcactgaatagggaaccgccgaatacaccagctacacctaacatgtgaaatggatgcataaggatgttatgctctgcctggaatacaatcataaagttgaaagtaccagatattcctaaaggcataccatcagagaaacttccttgaccaatagggtaaatcaagaaaacagcagtagcagctgcaacaggagctgaatatgcaacagcaatccaaggacgcatacccagacggaaactcagttcccactcacgacccatataacaagctacaccaagtaagaagtgtagaacaattagctcataaggaccaccattgtataaccactcatcaacagatgcagcttcccaaattgggtaaaagtgcaatccgatcgccgcagaagtaggaataatggcaccagagataatattgtttccgtaaagtaaagaaccagaaacaggctcacgaataccatcaatatctactggaggggcagcgatgaaggcgataataaatacagaagttgcggtcaataaggtagggatcatcaaaacaccgaaccatccgatgtaaagacggttttcggtgctagttatccagttgcagaagcgaccccacaggcttgtactttcgcgtctctctaaaattgcagtcatggtaagatcttggtttattcaaattgcaaggactcccaagcacacgtattaactagaaagataatagaaggcttgttatttaacagtataatatagactatataccaatgtcaaccaagccagccccgacagttgtatatccatacaacaaaatttaccaaaccaaaaaattttgtaaatgaagtgagtgaaaaatcaaaactcagattgctcctttctagtttccatatgggttgcccgggactcgaacccggaactagtcggatggagtagataattattccttgttacaatagagaaaaaacctctccccaaatcgtgcttgcatttttcattgcacacgactttccctatgtagaaataggctatttctattccgaagaggaagtctactaatttttttagtagtaagttgattcacttactatttattatagtacagagaacatttcagaatggaaactgtgaaagttttaccttgatcatttatcaatcatttctagtttattagttttgtttaatgattaattaagaggattcaccagatcattgatacggagaatatccaaataccaaatacgctcactgtgcgatccacggaaagaaaagtaagttgttttggcgaacatcaaagaaaaaacttgctcttcttccgtaaaaaattcttctaaaaataccgaacccaaccattgcataaaagctcgtaccgtgcttttatgtttacgagctaaagttctagcgcatgaaagtcgaagtatatactttagtcgatacaaagtcttcttttttgaagatccactgtgataatgaaaaagatttctacatatccgaccaaaccgatcaagaatatcccaatccgataaatcggtccaaattggtttactaataggatgccccgatccagtacaaaattggg

1 / 53
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功