生物信息学及其软件平台庄君中科院计算所生物信息学实验室2002年2月第一部分:生物信息学研究需要什么?需要什么?a.数据库(DNA、蛋白质序列)b.各种算法(Blast,Genscan……)c.这样就行了吗?——用户(生物学研究人员)如何能更好的使用a和bBioinformatics–aDefinition--OxfordEnglishDictionary(Molecular)bio–informatics:bioinformaticsisconceptualisingbiologyintermsofmolecules(inthesenseofPhysicalchemistry)andapplying“informaticstechniques”(derivedfromdisciplinessuchasappliedmaths,computerscienceandstatistics)tounderstandandorganisetheinformationassociatedwiththesemolecules,onalargescale.Inshort,bioinformaticsisamanagementinformationsystemformolecularbiologyandhasmanypracticalapplications.Bioinformatics:科技界一颗耀眼的新星在BIOINFORMATICS没有诞生之前,一个新药的问世需要十年时间,数亿美元的R&D,而BIOINFORMATICS已将这个过程减少三分之二,R&D的费用也相应大大减少。许多中小BIOTECH公司也看到了BIOINFORMATICS的巨大作用和潜在的商机,纷纷投资BIOINFORMATICS研究项目。美国电脑执照--高薪阶层“BIOINFORMATICSCERTIFICATION”,这是目前最新的一门生物化学工程与电脑技术相结合的课程。包括“CBS”证书和“CBM”证书。VisualBasic--$1195VisualC++--$1295BioInformatics--CBS,CBM$2500MIT:Course:20.01sDate:June24-28,2002Tuition:$2,500后基因组时代后基因组时代的挑战:1.蛋白组学:序列-结构-功能2.研究生物的生长代谢的过程和疾病的机制3.基因组药物………生物信息学离不开高性能计算机。并需要信息学家的参与。急需有自主知识产权的生物信息处理软件平台和大量高效的快速的新算法的开发及改进。pic2pic3Pic4Pic5Pic6Pic7MajorApplicationI:DesigningDrugsUnderstandingHowStructuresBindOtherMolecules(Function)DesigningInhibitorsDocking,StructureModelingMajorApplicationII:FindingHomologsMajorApplicationIII:OverallGenomeCharacterizationOverallOccurrenceofaCertainFeatureintheGenomee.g.howmanykinasesinYeastCompareOrganismsandTissuesExpressionlevelsinCancerousvsNormalTissuesDatabases,StatisticsproteomicsdataProteomicstoolsIdentificationandcharacterizationDNA-ProteinSimilaritysearchesPatternandprofilesearchesPost-translationalmodificationpredictionPrimarystructureanalysisSecondarystructurepredictionTertiarystructureTransmembraneregionsdetectionAlignmentCIF:生物信息学构架CorporateInformationFactory(CIF)是一个支援企业级的信息系统构架结构。生物信息学是在生物研究中信息系统的应用。CIF正是一个从不同的源头来集成生物信息学数据,数据库中管理这些信息,并将这些信息递交专家系统进行处理的一个完整的体系,数据集成、数据标准化、数据完整准确性是CIF的特点。当这些运作起来之后,CIF提供了一个企业级管理生物信息数据的方法。生物信息学构架(2)数据结构、信息提取过程的不统一、数据集成和标准化工作的不力是目前生物信息学的一个问题,这个问题妨碍了信息的交互,这一点在基因组和蛋白组学研究中很突出。孤立的基因组和蛋白组数据只能揭示很少的在活体细胞内的基因/蛋白的功能信息,而一个集成的,以系统学方法管理的生物信息学数据将为研究者带来更广阔的视野。服务器-客户式结构client-server生物信息网络中的数据库服务广泛采用服务器-客户式结构,这些服务器包括为数众多的数据库搜索和序列对比服务器以及各专业领域的服务器.生物信息数据库种类生物信息数据库是种类繁多。近年来,世界各国的生物学家和计算机科学家合作,已经开发了几百个数据库BioinformaticsandXMLXML因其将数据信息本身的存储与关联与表现形式相分离,强大的可扩展性,本身层次清晰的树形结构特性以及跨平台、跨语言的特性而成为良好网际语言,并在各种数据和存取工作中大显神通。生物信息学的发展同样引入了XML技术。JAVAJava是一种跨平台的编程语言在基于JAVA语言开发的网上序列查询和类比排列系统上,科学家们可通过视图方式对已知DNA、蛋白质结构、基因结构及科学家们提交的序列进行比较,分析出有意义的信息,包括新基因的发现,重复序列的测定,调控基因的确定,完整基因的分析等等。Java(2)Java迫使你更加系统化,必须进行程序构架规划。而且它还能帮助你避免通常的编码错误。”有人说,Java很慢.真的吗?第二部分:我国生物信息学现状及问题1.我国已有强大的DNA测序中心:华大,北方,南方,..但我们需要运算速度远比现在计算速度快的机器或方法.2.生物信息学处理系统处于初级规模.有一些Genbank,EMBL,GCG的镜象.(1).没有自己的完善的系统(2).没有大量新算法的开发3.后基因组:科研单位及制药工业并未完全吸收利用生物信息学的工具.现有各种生物信息学网站(公共免费的,如NCBI,EMBL)特点:数据多、全,并且具有权威性缺点:1)用户太多(全世界),国内的网慢,比如有时递交较长的序列做Blast会很长时间得不到结果2)数据库太大太多,使用不易付费的,如:eBioinformatics.com,doubletwist,com,虽然使用方便,帮助用户在网站上保留数据,服务性好,软件也好用但是需付费,学术力量不强第三部分:建立自主知识产权的生物信息学处理软件平台时期生物信息学的作用我们能做的序列基因组收集、存储、分析和共享信息资源能功能基因组识别基因及功能,图谱能蛋白质组鉴别和分类能治疗/研究疾病基因预测/基因芯片能?药物设计研制新药/产业化能??我们能做什么GenbankHTGHTG是GenBank、DDJB及EMBL为使生物学家更好地进行同源性对比搜寻高通量基因组序列而作的特殊分类。占所有DNA序列的70%以上。HTG部分包括那些通过高通量测序中心测序产生的尚未完成的DNA序列,有或没有注释。项目目标(生物信息学处理软件平台)开发一个可以使用Genscan,Blast,Blocks等分析GeneBank的基因组数据并可以通过Web界面进行查询的原型系统不断完善,添加算法和更新数据,最终可以通过提供数据和服务来获取社会效益和经济效益各种序列:DNA,Protein生物信息学处理软件平台BlastGenscanBlocks生物学家计算生物学模型/算法软件并行软件:Blast,Phrap,SW市场化各种算法串行后基因组学数据并行项目功能描述(一)从Genbank中提取原始数据,经过机群系统的处理(运行各种目前流行的算法,如Blast、GenScan、Blast等对提取的数据进行分析),生成rawdata,最后经过文本处理程序(perl)的处理,得到xml格式的数据。项目功能描述(二)用户通过网页提交检索,检索经过预处理的核酸、蛋白质序列数据库,将结果以图形、图像的形式,通过网页返回给用户查看,检索后的数据应具备较高的可用性(以图形化的方式将相应的算法处理结果表达出来)竞争优势强大的计算资源高性能计算机高性能算法的支持并行Blast解决了Blast在单节点上的瓶颈问题我们对生物信息领域深刻的理解GenebankHTGDivision生物学家与计算机开发人员的紧密配合社会效益和经济效益社会效益具有我国自主知识产权的生物信息处理软件平台1、提供个人数据和服务2、为客户的特殊要求度身定做数据或处理系统3、新算法的开发生物信息学处理软件平台版本1。01。目前只注释人类的Genome数据库a.预测基因结构b.预测蛋白编码基因2。目前数据库最重要来源是GenBank序列。未完成注释的HTG序列70%,已部分完成注释的PRI序列30%.我们的平台包括:a.通过一个庞大的算法流水线(pipeline)来加工,和注释未完成(或已完成)的基因组的DNA序列.b.数据库格式化:XML技术.c.通过搜索引擎在网络上实现可用性。d.数据图视化及用户服务。流程图Genbankflatfile用户数据算法流水线集群运算(曙光,PBS,…..)数据处理,数据库管理,XML,。。。搜索引擎网站WEBServerHTML图视化xPBS命令GUIxPBSMON节点监控图视化—HTG没有Genbank注释图视化—PRI(有Genbank注释)未来的图视化第四部分:基因组分析的算法的现状和发展问题Algorithms—已有算法(1)我们的分析使用算法:(已完成的)a.GENSCAN--预测exons(外显子),introns(内显子)和Promotor(起动子)...预测可用作替换拼接形式的基因b.BLOCKS--预测出蛋白质的结构:motifs(模式)和domains(域)。c.BLASTx--预测蛋白质的功能和相似性的家族。blocks-算法(2)BLOCKSPR006781/10blocks:PI3KINASEP85REGULATORYSUBUNITSIGNATUREBlockFrameLocation(aa)BlockE-valuePR00678D0416-4341.6|---157aminoacids---|PR00678AAA::::::BB::::CCCC::::::DDDEEEE:::::FFFGGGG7UP1_DROME::::::::::::::::::::::::::DDDBlastx-算法(3)算法(4)a.REPEAT_MASKER--RepeatMasker是一程序.它能掩盖散布在哺乳动物的基因组中的重复片段及低复杂DNA序列。它把DNA序列中的重复片段用Ns代替.平均一个人有40%~50%以上的DNA可被RepeatMasker程序掩盖.b.Sim4--sim4把从数据库搜索结果与信息的其它来源结合起来获得确定结论.它是连接ESTs(Unigene)的主要工具。算法(5)(未来:平台2.0以上).Genie,GeneWise,fGene,…….预测基因.COGnitor--蛋白质组的种系的分类.SCOP,NRL-3D---三维折叠.SNP--疾病基因。Glimmer--预测微生物基因...............。。。。。新算法的开发1.二级数据库的开发.2.并行BLAST算法3