“生物信息学”的新纪元Bioinformatics从碳到硅——生物学研究模式的转变基于全部基因都将知晓并以电子技术可操作的方式驻留在数据库中,新的生物学研究模式的出发点应该是理论的。科学家将从理论推测出发,再返回到实验中去,追踪或验证这些理论假设。……生物学家不仅必须成为计算机学者,而且也要改变他们研究生命现象的途径。---Gilbert(Nature,1991)Bioinformatics(v3):Foreword生物学正在经历重大转变:基因组信息的全面发掘,包括序列测序、大分子结构预测、功能注释以及调控网络的阐明,促使了“系统生物学”概念的出现。其中数学、统计学、计算机科学具有重要地位(中心地位:Centralrole)。生物信息学第一章绪论生物信息学的定义生物信息学的产生生物信息学的应用生物信息学的教育和学习什么是生物信息学?生物信息学就是利用信息技术对生物信息进行获取、储存、查询和分析,以解释这些信息数据所蕴涵的生物学意义的学科。姊妹学科——计算生物学(Computationalbiology)研究内容的本质性联系Biochemistry——Forbiology,chemistryismuchmorethanjustamethod:biologyisrootedin,andisfirmlybasedon,thelawsofchemistry.Bioinformatics——Forbiology,informaticsismuchmorethanjustamethod:biologyisrootedin,andisfirmlybasedon,thelawsofinformatics.生命的信息内涵信息是在多种可能状态下的一种选择。--生物学研究的就是生物信息的产生和传递方式。什么是信息?Log22=1bitATCGC=?bits--生物信息的产生源于自然选择。当一种选择引起另一种选择时,我们理解为信息传递了。包括复制传递和转化传递。中心法则:什么是生物信息学?生物信息学就是利用信息技术对生物信息进行获取、储存、查询和分析,以解释这些信息数据所蕴涵的生物学意义的学科。信息技术的应用由于长期进化,生物信息及其传递方式是如此的复杂,以至我们需要借助专门储存和分析它们的技术和工具——涉及数学、统计学和计算机科学。什么是生物信息学?生物信息学就是利用信息技术对生物信息进行获取、储存、查询和分析,以解释这些信息数据所蕴涵的生物学意义的学科。参考定义:Bioinformaticsisthebranchofsciencethatdealswiththecomputer-basedanalysisoflargebiologicaldatasets.Bioinformaticsincorporatesthedevelopmentofdatabasestostoreandsearchdata,andofstatisticaltoolsandalgorithmstoanalyzeanddeterminerelationshipsbetweenbiologicaldatasets,suchasmacromolecularsequences,structures,expressionprofilesandbiochemicalpathways.----InstantNotesinBioinformatics.2002thesciencethatusestheinstrumentsofinformaticstoanalyzebiologicaldatainordertoformulatehypothesesaboutlife.----IntroductiontoBioinformatics.2007.theapplicationofcomputationaltechniquestothemanagementandanalysisofbiologicalinformation.----Bioinformatics.2009.thescienceofhowinformationisgenerated,transmitted,received,andinterpretedinbiologicalsystems.----Bioinformatics,anintroduction.2009.研究内容:方法(信息技术)上游有针对性的计算机技术开发。中游利用这些技术建立相关数据库、工具、算法、软件等。下游利用这些工具有效管理和处理生物学数据。成果方法方法成果上游:1.数据库管理技术。2.数据仓库、数据挖掘与数据库中的知识发现技术。3.分布式计算(网格计算、云计算等)4.图像处理和可视化技术。中游:1.数据库的构建。2.算法建立。3.统计模型建立。4.工具软件开发。下游:1.建立特定方向或自己的专用数据库。2.数据库检索的技术。3.数据分析:序列分析、进化分析等。研究内容:对象(生物信息)目前主要包括:macromolecularsequences;(最初)macromolecularstructures;expressionprofiles;(EST;microarrays;2D-PAGE)biochemicalpathways;evolutionhistory.Microarrays(1)——本质是生物信息的集成性平行分析:利用核酸分子杂交、蛋白质分子亲和原理,通过荧光标记可视化,借助计算机分析处理,可迅速获取大量生物信息,效率是传统手段的成百上千倍。•Thereareseveralnamesforthistechnology–biochips,microchips,DNAmicroarrays,DNAarrays,DNAchips,genechips,others.Sometimesadistinctionismadebetweenthesenamesbutinfacttheyareallsynonyms(同义词)astherearenostandarddefinitionsforwhichtypeofmicroarraytechnologyshouldbecalledbywhichname——EBI.•Twomajortechnologies----SpottedDNAmicroarraysOligonucleotideGeneChips(theUScompanyAffymetrixInc.)Microarrays(2)Typicallyonaglassslide.DNAmolecules(clones)areattachedatfixedlocations(5,000spots/cm2,diameter0.1mm).OligonucleotideGeneChip(oligos,~25nt)(upto1,000,000spots/cm2,diameter0.01mm).Microarrays(3)Eachpointcontainsahugenumber(107-108)ofidenticalDNAmolecules.Eachkindofthesemoleculesideally*shouldidentifyonegeneoroneexoninthegenome.*OligonucleotideGeneChips:20kindsforonegeneMicroarrays(4)Onepopularmicorarrayapplicationsallowstocomparegeneexpressionlevelsintwodifferentsamples,e.g.,thesamecelltypeinahealthyandadiseasedstate.Microarrays(5)Microarray分析:图像分析(去噪音和信号数据化)、标准化(重复实验的可比性)、Ratio分析(两色荧光的比值)、基因聚类分析(寻找同类基因)。Microarrays(6)研究内容:对象(生物信息)目前主要包括:macromolecularsequences;(最初)macromolecularstructures;expressionprofiles;(EST;microarrays;2D-PAGE)biochemicalpathways;evolutionhistory.第一章绪论生物信息学的定义生物信息学的产生生物信息学的应用生物信息学的教育和学习生物信息学的产生之孕育1950s末,计算机应用于生物学研究中。主要是利用数学模型、统计学方法和计算机处理宏观生物学数据。如NumericalTaxonomy,MathematicalEcology(1970s逐渐成熟)。随后(1980s),计算机开始应用于分子生物学研究。其中包括建立分子生物学数据库(如Genbank)以及蛋白质结构的计算机辅助分析与预测等。——在上述研究中,人们已经逐步建立了理论基础和一批方法、模型、软件和数据库。生物信息学的产生之促成(1)生物信息的全面发掘——巨大数据量的产生。1990s后,DNAsequencing,microarray,2D-PAGE,proteininteractions,proteinstructuredetermination,molecularevolution……high-throughputtechnique如HGP(Humangenomeproject),1990~2001年,10年时间实现了“工作草图”,2003年实现了“完成图”,3×109个碱基对,并对30,000个基因进行了注释。越来越多的其他模式生物也完成了全基因组测序工作。Howmanycharactersareinthe“HeavenBook”?3×10910,000books1book100pages1page3,000charactersCCGGTCTCCCCGCCCGCGCGCGAAGTAAAGGCCCAGCGCAGCCCGCGCTCCTGCCCTGGGGCCTCGTCTTTCTCCAGGAAAACGTGGACCGCTCTCCGCCGACAGTCTCTTCCACAGACCCCTGTCGCCTTCGCCCCCCGGTCTCTTCCGGTTCTGTCTTTTCGCTGGCTCGATACGAACAAGGAAGTCGCCCCCAGCGAGCCCCGGCTCCCCCAGGCAGAGGCGGCCCCGGGGGCGGAGTCAACGGCGGAGGCACGCCCTCTGTGAAAGGGCGGGGCATGCAAATTCGAAATGAAAGCCCGGGAACGCCGAAGAAGCACGGGTGTAAGATTTCCCTTTTCAAAGGCGGGAGAATAAGAAATCAGCCCGAGAGTGTAAGGGCGTCAATAGCGCTGTGGACGAGACAGAGGGAATGGGGCAAGGAGCGAGGCTGGGGCTCTCACCGCGACTTGAATGTGGATGAGAGTGGGACGGTGACGGCGGGCGCGAAGGCGAGCGCATCGCTTCTCGGCCTTTTGGCTAAGATCAAGTGTAGTATCTGTTCTTATCAGTTTAATATCTGATACGTCCTCTATCCGAGGACAATATATTAAATGGATTGATCAATCCGCTTCAGCCTCCCGAGTAGCTGGGACTACAGACGGTGCCATCACGCCCAGCTCATTGTTGATTCCCGCCCCCTTGGTAGAGACGGGATTCCGCTATATTGCCTGGGCTGGTGTCGAACTCATAGAACAAAGGATCCTCCCTCCTGGGCCTGGGCGTGGGCTCGCAAAACGCTGGGATTCCCGGATTACAGGCGGGCGCACCACACCAGGAGCAAACACTTCCGGTTTTAAAAATTCAGTTTGTGATTGGCTGTCATTCAG