生物信息学Bioinformatics生物科学与技术学院初步计划讲授内容第一章概论(2)第二章生物学基础(略)第三章生物信息数据库及其信息检索(4-6)第四章序列比对与算法(6)第五章核酸序列分析(6)第六章蛋白质结构预测和分子设计(4-6)第七章基因组信息学(4)第八章蛋白质组信息学(4)第九章生物信息学前沿(自学)参考书籍1、《生物信息学教程》蔡禄.化学工业出版社,20072、《生物信息学》(第二版)张阳德主编.科学出版社,20093、《生物信息学》陶士珩主编.科学出版社,20074、《生物信息学应用技术》王禄山,高培基.化学工业出版社,20075、《生物信息学与功能基因组学》(美)乔纳森•佩夫斯纳著;孙之荣译.化学工业出版社,2006网上资源1、华中农业大学国家精品课程生物信息学网站()2、西南交通大学生物信息学精品课程网站()3、东南大学生物信息学网络学习平台()4、美国国立生物技术信息中心()期刊《生物信息学》、《Bioinformatics》、《BMCBioinformatics》生物信息学概述什么是生物信息学:生物信息学(Bioinformatics):•是研究生物信息的采集,处理,存储,传播,分析和解释等各方面的学科。•是随着生命科学和计算机科学的迅猛发展而快速突起的一门学科。•是生命科学、生物统计学、现代数学、信息科学和计算机科学的结合学科,可揭示大量而复杂的生物数据所蕴藏的生物学奥秘。•生物信息学?--新兴的交叉学科MathematicalsciencesComputersciencesLifesciences生物学背景?★★★分子生物学/基因工程数学?★统计学,模型,算法计算机科学背景?★Linux/Perl/PHP/JAVA/C++/VisualBasic•生物信息学的学习人员:1)学习生物信息学是为了发展生物信息学——计算机科学家2)学习生物信息学是为了应用生物信息学——生物学家我们属于……BioinformaticsintheUniverseUniverse(宇宙=空间+时间)HumancivilizationsciencesartsreligionsNaturalsciencesSocialsciencesbiologymathematicsphysicsbiostatisticsbioinformaticsComputationalbiologyNon-humanworld生物信息学主要研究两种信息载体一级结构二级结构三级结构•1、DNA分子•2、蛋白质分子生物分子一级结构二级结构三级结构四级结构DNA前体RNAmRNA多肽链基因的DNA序列蛋白质序列对应关系遗传密码(1)遗传信息的载体——DNADNA通过自我复制,在生物体的繁衍过程中传递遗传信息;DNARNA转录翻译蛋白质基因通过转录和翻译,使遗传信息在生物个体中得以表达,并使后代表现出与亲代相似的生物性状。复制(2)蛋白质的结构决定其功能蛋白质功能取决于蛋白质的空间结构蛋白质结构决定于蛋白质的序列(这是目前基本公认的假设),蛋白质结构的信息隐含在蛋白质序列之中。三个重要的信息(3)DNA分子和蛋白质分子都含有进化信息•通过比较相似的蛋白质的核苷酸序列,如肌红蛋白和血红蛋白,可以发现由于基因复制而产生的分子进化证据。•通过比较来自于不同种属的同源蛋白质,即直系同源蛋白质,可以分析蛋白质甚至种属之间的系统发生关系,推测它们共同的祖先蛋白质。总结:生物分子至少携带着三种信息–遗传信息–与功能相关的结构信息–进化信息DNA核酸序列蛋白质氨基酸序列蛋白质结构蛋白质功能最基本的生物信息维持生命活动的机器第一部遗传密码第二部遗传密码生命体系千姿百态的变化生物分子数据及其关系蛋白质结构决定功能•第一部遗传密码已被破译,但对密码的转录过程还不清楚,对大多数DNA非编码区域的功能还知之甚少•对于第二部密码,目前则只能用统计学的方法进行分析•无论是第一部遗传密码,还是第二部遗传密码,都隐藏在大量的生物分子数据之中。生物分子数据是宝藏,生物信息数据库是金矿,等待我们去挖掘和利用。生物分子信息DNA序列数据蛋白质序列数据生物分子结构数据生物分子功能数据最基本直观展示生命体系千姿百态的变化复杂剖析生物信息学涉及的生物分子数据库生物分子数据计算机计算+特征:生物分子信息数据量大生物分子信息复杂生物分子信息之间存在着密切的联系特征:信息存储量大计算性能高速、有效信息交流方便生物分子数据与计算机计算生物信息学的发展历史生物信息学基本思想的产生生物信息学的迅速发展二十世纪50年代二十世纪80-90年代生物科学和技术的发展人类基因组计划的推动20世纪50年代,生物信息学开始孕育20世纪60年代,生物分子信息在概念上将计算生物学和计算机科学联系起来,是生物信息学形成雏形的阶段1962Zucherkandl和Pauling提出分子进化理论1967Dayhoff研制出蛋白质序列图集,后演变为著名的蛋白质信息源PIR20世纪70年代,核酸测序技术成熟,开始了少量的基因组测序工作,标志着生物信息学的真正开端(1)前基因组时代(20世纪90年代前)20世纪70年代到80年代初期,出现了一系列著名的序列比较方法和生物信息分析方法1970Needleman-Wunsch提出序列比对算法1970Gibbs和McIntyre发表矩阵打点作图法1972Gatlin将信息论引入序列分析,证实自然的生物分子序列是高度非随机的1977出现将DNA序列翻译成蛋白质序列的算法。1975Pipas和McMahon首先提出运用计算机技术预测RNA二级结构1978Gingeras等研制出核酸序列中限制性酶切位点的识别软件1981Smith-Waterman算法出现1981Doolittle提出序列模式的概念1983Wilbur和Lipman提出序列数据库的搜索算法1985快速的蛋白质序列相似性搜索程序FASTP/FASTN发布1988Pearson和Lipman发表著名的序列比较算法FASTA20世纪80年代以后,出现一批生物信息服务机构和生物信息数据库1982GenBank数据库(Release3)公开1986日本核酸序列数据库DDBJ诞生1986出现蛋白质数据库SWISS-PROT1988美国国家生物技术信息中心NCBI创立1988成立欧洲分子生物学网络(EMBnet),专门发布各种生物数据库20世纪90年代后,HGP促进生物信息学的迅速发展,标志工作是人类基因组测序,基因寻找和识别等。1986“基因组学”概念产生,研究基因组的作图、测序和分析1990国际人类基因组计划启动1993成立Sanger中心,专门从事基因组研究1995第一个细菌基因组测序完成1996酶母基因组测序完成1998第一个多细胞生物——线虫基因组测序1999果蝇基因组测序完成2000人类基因组测序基本完成2001人类基因组初步分析结果公布(2)基因组时代(20世纪90年代后至21世纪初)Saccharomycescerevisiae酿酒酵母(1996-1997)Caenorhabditiselegans秀丽线虫(1998)冲击我国对人类基因组计划的贡献NoCenterRegionSize(Mb)6/1-8/31/99ProjectedKr4/1-11/30/99ProjAccum.Mr.4/99-3/00ActualKGenbankKr1SangerCentre1,6,9,10,13,20,22,X85013009414200122WIBR(ClonesfromWashU)837296290083WashU2,3,4,7,11,15,18,Y90086555923007.94JGI5,16,1925068746121006.45Baylor1,2,3,X2304622616603.16Riken21,18,11q1601361955202.17IMB8,21,X50180321801.58GenoscopeMostof14851001183001.49U.Wash(Olson)10Beijing3p3012.512.51000.511GTC(Smith)105051500.4512MPIMG17,21,X6.94012400.313GBF21,regof96500.314Stanford(Davis)8231370.2915Keio2,6,8,22,213011751100.2316U.Wash(HoodLAB)14,15267127400.17Total2671Mb4663Kr2950Kr13687Kr32.64Mr人类基因组计划给生物信息学提出挑战•随着实验数据和可利用信息急剧增加,信息的管理和分析成为HGP的一项重要的工作发现生物学规律,解读生物遗传密码认识生命的本质研究基因组数据之间的关系分析现有的基因组数据利用数学模型和人工智能技术(3)后基因组时代(21世纪后至今)21世纪后,发展重点逐渐转移到功能基因组学研究领域,主要标志技术是进行高通量基因组分析(megabace、3700、454测序技术)、蛋白质组分析和各种数据的比较整合等,出现了转录组、蛋白质组和代谢组等各种组学概念。megabace3700Sanger,UK大规模测序基本策略逐个克隆法:小片段针对图谱的!!全基因组鸟枪法:大片段-测序-组装(美国Celera公司)Contig:重叠群,基因组测序中将许多序列片段经过比对找到重叠区,从而连接成的长片段。ABCDEFGHIJKLCONTIGGAP基因组比较蛋白质结构蛋白质序列蛋白质功能关系核苷酸序列高通量测序技术注释、解析预测验证基于生物信息学的新药设计基因组数据库蛋白质序列数据库蛋白质结构数据库DDBJEMBLGenBankSWISS-PROTPDBPIR(1)生物分子数据的收集与管理生物信息学的主要研究内容EMBL欧洲分子生物学实验室,于1974年由欧洲14个国家加上亚洲的以色列共同发起建立,包括一个位于德国Heidelberg的核心实验室,三个位于德国Hamburg,法国Grenoble及英国Hinxton的研究分部。GenBank是美国国家生物技术信息中心建立的DNA序列数据库,从公共资源中获取序列数据,主要是科研人员直接提供或来源于大规模基因组测序计划。DDBJ日本DNA数据库,于1984年建立,是世界三大DNA数据库之一,与NCBI的GenBank,EBI的EMBL数据库共同组成国际DNA数据库。SWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。PIR全称TheProteinInformationResource,是一个集成了关于蛋白质功能预测数据的公共资源的数据库,其目的是支持基因组/蛋白质组研究。PIR与MIPS(theMunichInformationCenterforProteinSequences)、JIPID(theJapanInternationalProteinInformationDatabase)合作,共同构成了PIR-国际蛋白质序列数据库(PSD):一个主要的已预测的蛋白质数据库,包括250000个蛋白。蛋白质数据库PDB是由美国国家科学基金会、能源部的生物和环境研究所、国家健康组织中的两个单位:药品科学研究所和医药图书馆共同资助的。它们设立这个机构的共同目标是通过PDB尽量广泛地传播其收集的信息。通过数据库搜索可以找到目的基因的相关信息通过序列比较寻找同源基因(2)数据库搜索及序列比较•AAGCTTAACGT•AATCTTA-CGT(3)基因组序列分析基因组结构分