生物信息学什么是生物信息学魏天迪2017.2.21考试情况2011级上机考试8384.588898990909395959999100100100100考试情况2012级上机考试778083848488909294959797100100考试情况2013级上机考试6672728089909192949699100100100100课程中心什么是生物信息学生物信息学的产生和发展生物信息学产生的背景:•1866年,奥地利人孟德尔根据实验结果提出了基因是以实物存在的假说;生物信息学的产生和发展生物信息学产生的背景:•1871年,瑞士人Miescher从白细胞细胞核中分离出脱氧核糖核酸(DNA);生物信息学的产生和发展生物信息学产生的背景:•1944年,美国人阿弗莱、麦克李沃和麦克卡三人通过实验证明DNA是生物的遗传物质;生物信息学的产生和发展生物信息学产生的背景:•1944年,美国人Chargaff发现DNA中鸟嘌呤(G)与胞嘧啶(C)数量相等,腺嘌呤(A)与胸腺嘧啶(T)数量相等;生物信息学的产生和发展生物信息学产生的背景:•1953年,英国人Watson和Crick在Nature杂志上发表了DNA的双螺旋结构模型;WatsonCrickWilkinsFranklin生物信息学的产生和发展生物信息学产生的背景:•1962年,Watson,Crick和Wilkins因发现了DNA的双螺旋三维结构共同获得了诺贝尔生理学医学奖。生物信息学的产生和发展生物信息学产生的背景:•1954年,Crick提出了中心法则“DNA-RNA-蛋白质”;生物信息学的产生和发展生物信息学的产生和发展生物信息学产生的背景:•1966年,美国人Nirenberg和Khorana破译了全部遗传密码字典的64个密码子。生物信息学的产生和发展生物信息学的萌生:•1956年,美国田纳西州的盖特林堡召开了“生物学中信息理论研讨会”;•1979年,美国洛斯阿拉莫斯实验室建立了GenBank数据库;•1982年,欧洲分子生物学实验室(EMBL)建立了核酸序列数据库;•1984年,日本建立了核酸序列数据库DDBJ;•90年代初,三大核酸数据库开始资源共享,联合成立了国际核苷酸序列数据库;•1987年,美国学者林华安首创了“bioinformatics”一词,“compbio”-“bioinformatique”-“bio-informatics”;生物信息学的产生和发展人类基因组计划:•1990年,国际人类基因组计划启动,预算30亿美元,被誉为生命科学“阿波罗登月计划”,参与国:美、英、日、德、法;•1997年,在耗费了巨额资金和一半预定时间之后,仅完成了3%的工作;•1998年,CraigVenter创立Celera公司;•1999年,Celera公司在无政府资助下,赶超了多国合作小组;•1999年,中国加入多国合作小组,负责测定基因组全部序列的1%;•2000年,在美国总统克林顿的协调下,Celera公司与多国合作小组合作,宣布完成了人类基因组草图的90%;•2001年,完成了人类基因组草图的99%,Celera公司与多国合作小组合作几乎同时分别在Science和Nature上独立发表自己的草图;•2003年,人类基因组序列图绘制成功,彻底完成。生物信息学的定义美国国家基因研究中心:生物信息学是一个代表生物学、数学和计算机科学的综合力量的新兴学科。美国乔治亚理工大学:生物信息学是采用数学、统计学和计算机等方法分析生物学、生物化学和生物物理学数据的一门综合性学科。美国密苏里大学:生物信息学是获知、管理和处理生物信息的科学与技术。美国加州大学洛杉矶分校:生物信息学是对生物信息和生物学系统内在结构的研究,它将大量系统的生物学数据与数学和计算机科学的分析理论及使用工具联系起来。中国军事医学科学院欧阳曙光:生物信息学是研究生物信息的采集、处理、储存、传布、分析和揭示的科学,它通过综合数学、计算机科学与工程学、生物学的工具和技术,揭示大量而复杂的的生物数据所赋有的生物学奥秘。山东大学生院魏天迪:生物信息学是用计算机解决生物问题。生物信息学的发展方向一、算法、软件和数据库的开发背景:数学、物理、计算机科学例如:重复序列蛋白质模板拼接建模算法EnsemLoc蛋白质亚细胞定位软件TollML和LRRML数据库二、算法、软件和数据库的应用背景:生物、医学、化学例如:Toll样受体及相关蛋白质的结构、功能与进化学的研究BioinformaticsNucleicacidProteinOthers•Sequencing•Database•Transcriptionalregulationprediction•Geneprediction•Molecularevolution•RNAsecondarystructureprediction•Genomics•Database•Secondary/3Dstructureprediction•Docking•Moleculardynamicssimulations•Moleculardesign•Drugdesign•Proteomics•Metabolicnetwork•Systemmodeling•Bioimaging生物信息学的研究对象基因组测序基因组测序测序仪:2000年,荧光自动测序仪(第一代);当前,高通量测序仪(第二代)基因组测序基因组测序2012年2月英国牛津纳米孔公司发布公告称,两年内将推出U盘测序仪产品MinION,个人基因组的测序将在15分钟内完成。2014年初兑现承诺,目前产品正在试用期,价格为1000美金左右。2014年6月美国罗氏公司以3.5亿美金收购了纳米孔公司。基因组测序2013年11月25日,MinION试用计划启动。参与者须支付1000美元的押金以及运费,而后将收到一台MinION测序仪,包括测序USB装置、流动槽和软件。2014年2月18日,牛津纳米孔公司公布了首批测序数据。文库制备的基本步骤是从高分子量DNA开始的,片段化DNA,无需大小选择,再连接接头。纳米孔中的酶使其变成单链DNA,再通过纳米孔。随着单链DNA通过纳米孔,测序系统根据电流变化确定DNA序列。生物数据库1.核酸数据库国际核苷酸序列数据库2.蛋白质数据库=3.蛋白质结构数据库4.其他专项生物数据库基因预测1.外部预测法2.从头预测法3.比较基因组法基因预测1.外部预测法2.从头预测法3.比较基因组法基于其他大量已知基因情况的核酸序列(基因组),对目标核酸序列进行相似性搜索。基因预测1.外部预测法2.从头预测法3.比较基因组法不与其他核酸序列进行比较,根据不同物种基因本身的序列特征进行基因预测。GENSCAN基因预测1.外部预测法2.从头预测法3.比较基因组法不与其他核酸序列进行比较,根据不同物种基因本身的序列特征进行基因预测。内含子5‘GT…AG3’基因预测1.外部预测法2.从头预测法3.比较基因组法根据自然选择的原理,基因区域的变异率应该远低于其他区域。很多物种的基因组已被完全测序,这样,比较相关物种基因组,保守区也就是潜在的基因区。基因表达调控分析四个水平上的基因表达调控:转录水平、转录后水平、翻译水平、翻译后水平。山东大学数学学院李国君教授:BOBRO–ABOTTLENECKBROCKENTOOLFORMOTIFFINDINGNucleicAcidsResearch(IF7.5)~maqin/motif_finding/index.htmlRNA二级结构预测长链非编码RNA或tRNA可通过自身碱基互补形成二级结构,如三叶草结构,来行使调解蛋白质功能的功能。蛋白质三维结构蛋白质四个水平上的结构:蛋白质三维结构allbetaalpha+betaallalpha蛋白质二级结构预测已知一个蛋白质的氨基酸序列,预测其二级结构。常用软件:PSIPRED,APSSP2,NNPREDICT,PREDICTPROTEIN蛋白质三维结构预测已知一个蛋白质的氨基酸序列,预测其三维结构。三类方法:1.同源建模法;2.穿线法;3.从头预测法。前两类方法合称为基于模板法。MEAKIVKVLDSSRCEDGFGKKRKRAASYAAYVTGVSCAKLQNVPPPNGQCQIPDKRRRLEGENKLSAYENRSGKALVRYYTYFKKTGIAKRVMMYENGEWNDLPEHVICAIQNELEEKSAAIEFKLCGHSFILDFLHMQRLDMETGAKTPLAWIDNAGKCFFPEIYESDERTNYCHHKCVEDPKQNAPHDIKLRLEIDVNGGETPRLNLEECSDESGDNMMDDVPLAQRSSNEHYDEATEDSCSRKLEAAVSKWDETDAIVVSGAKLTGSEVLDKDAVKKMFAVGTASLGHVPVLDVGRFSSEIAEARLALFQKQVEITKKHRGDANVRYAWLPAKREVLSAVMMQGLGVGGAFIRKSIYGVGIHLTAADCPYFSARYCDVDENGVRYMVLCRVIMGNMELLRGDKAQFFSGGEEYDNGVDDIESPKNYIVWNINMNTHIFPEFVVRFKLSNLPNAEGNLIAKRDNSGVTLEGPKDLPPQLESNQGARGSGSANSVGSSTTRPKSPWMPFPTLFAAISHKVAENDMLLINADYQQLRDKKMTRAEFVRKLRVIVGDDLLRSTITTLQNQPKSKEIPGSIRDHEEGAGGL蛋白质三维结构预测同源建模法:相似的氨基酸序列对应着相似的蛋白质结构。蛋白质三维结构预测穿线法:不相似的氨基酸序列也可能对应着相似的蛋白质结构。蛋白质三维结构预测穿线法:不相似的氨基酸序列也可能对应着相似的蛋白质结构。已知结构的蛋白质约10万,不同的结构拓扑1313。蛋白质三维结构预测从头预测法:1973年Anfinsen《科学》:蛋白质的三维结构决定于自身的基酸序列,并且处于最低自由能状态。由于运算量和准确度的问题,只适合几十个氨基酸长的蛋白质。蛋白质对接对接要考虑的三个因素:1.几何形状互补;2.分子表面电荷互补;3.疏水作用。蛋白质-蛋白质对接蛋白质对接对接要考虑的三个因素:1.几何形状互补;2.分子表面电荷互补;3.疏水作用。小分子化合物-蛋白质对接分子动力学模拟1ns100cpu5hVirtualscreeningLibraryofchemicalcompounds虚拟分子筛选计算机辅助药物设计分子进化DNA在进化过程中积累突变,导致了不同株系后代DNA,RNA和蛋白质序列的分歧。这个原则可以被用来构建系统发生树。由于内部突变率和选择性限制的差异,不同的大分子序列进化速率不同,使得对密切相关和远距离相关的生物体都可以进行系统发生分析。代谢网络代谢网络是决定细胞生理、生化特性的一整套代谢过程和物理过程。通过对代谢网络的研究(构建网络、拓扑分析、代谢流分析)能更好地了解生物体代谢过程,并利用这一过程促进药物设计、发酵工程和微生物工程等产业的发展。图表理论