多序列比对主要内容•多序列比对的定义•介绍多序列比对数据库•介绍如何手动方式输入一组蛋白或核酸序列进行多重比对多序列比对的目的和定义•多序列比对的目的;通过序列的相似性检索得到许多相关的相似序列,将这些序列做一个总体的比对,以观察它们在序列结构上的异同,以回答相关的生物学问题。•多序列比对就是将2条以上可能有系统进化关系的序列进行比对。•一个多重比对就是一组可以部分或整体对齐的蛋白质或核酸序列(3个或以上)。相同或相似的氨基酸残基排在同一列上,这些对齐的残基在进化意义上是同源的:来自共同的祖先。在三维结构中,对齐的残基也倾向于占据对应的位置。可以根据下面特征来确定是否对齐某些氨基酸残基•一些高度保守的残基(如参与形成二硫键的半胱氨酸)•形成保守膜体(motif),如跨膜结构域和免疫蛋白结构域•蛋白质二级结构的保守特征,如参与形成alpha螺旋、beta片层和可变区的残基。•显示出一致插入或缺失模式的区域。多序列比对的典型应用•大多数蛋白质家族中有远源的成员,与两两比对相比,多序列比对能够更敏感地发现同源关系。•在检查某次数据库搜索结果时(如BLAST),多重比对形式的结果能更容易显示保守残基和模体。•构建系统进化树的一个最关键的步骤就是多序列比对。•当一个物种的基因组被完整测序,数据分析的一个主要部分是注释所有基因产物所归属的蛋白家族。数据库搜索进行高效的多重比对,将每一个新蛋白(或基因)与其它所有家族的蛋白质进行比较•很多基因的调节区含有转录因子结合的共有序列。多序列比对方法ExactmethodsProgressive(ClustalW)Iterative(MUSCLE)Consistency(ProbCons)Structure-based(Expresso)多序列比对方法Exactmethods:dynamicprogrammingInsteadofthe2-DdynamicprogrammingmatrixintheNeedleman-Wunschtechnique,thinkabouta3-D,4-Dorhigherordermatrix.Exactmethodsgiveoptimalalignmentsbutarenotfeasibleintimeorspaceformorethan~10sequences.Stillanextremelyactivefield.多序列比对的渐近比对方法在目前发展的众多多序列比对方法中,最常用的是来自FengandDoolittle(1987)的渐近比对。之所以称为渐近比对,是因为这种方法需要先对所有的序列计算两两比对的分值,然后从关系最近的一对序列开始,逐步加入其它序列。Examples:CLUSTALW,MUSCLEMultiplesequencealignment:methodsExampleofMSAusingClustalW:twodatasetsFivedistantlyrelatedlipocalins(humantoE.coli)FivecloselyrelatedRBPsWhenyoudothis,obtainthesequencesofinterestintheFASTAformat!(YoucansavetheminaWorddocument)Page321TheinputforClustalW:agroupofsequences(DNAorprotein)intheFASTAformatGetsequencesfromEntrezProtein(orHomoloGene)YoucandisplaysequencesfromEntrezProteininthefastaformatUseClustalWtodoaprogressiveMSA[1]利用NeedlemanandWunsch’s的动态规划算法对所有序列进行两两比对。[2]计算距离矩阵,建立辅助导向树[3]根据导向树中的位置关系建立多重比对。Page321ProgressiveMSAstage1of3:generateglobalpairwisealignmentsFig.10.2Page323fivedistantlyrelatedlipocalinsbestscoreProgressiveMSAstage1of3:generateglobalpairwisealignmentsStartofPairwisealignmentsAligning...Sequences(1:2)Aligned.Score:84Sequences(1:3)Aligned.Score:84Sequences(1:4)Aligned.Score:91Sequences(1:5)Aligned.Score:92Sequences(2:3)Aligned.Score:99Sequences(2:4)Aligned.Score:86Sequences(2:5)Aligned.Score:85Sequences(3:4)Aligned.Score:85Sequences(3:5)Aligned.Score:84Sequences(4:5)Aligned.Score:96Fig.10.4Page325fivecloselyrelatedlipocalinsbestscoreNumberofpairwisealignmentsneededFornsequences,(n-1)(n)/2For5sequences,(4)(5)/2=10Page322Feng-Doolittlestage2:guidetree•将相似分数转化为距离分数•用树来表示序列之间的距离•使用UPGMA(definedinthephylogenylecture)•ClustalW给出了关于导向树描述的句法•导向树不是系统进化树Page323ProgressiveMSAstage2of3:generateaguidetreecalculatedfromthedistancematrixFig.10.2Page32312354ProgressiveMSAstage2of3:generateguidetree((gi|5803139|ref|NP_006735.1|:0.04284,(gi|6174963|sp|Q00724|RETB_MOUS:0.00075,gi|132407|sp|P04916|RETB_RAT:0.00423):0.10542):0.01900,gi|89271|pir||A39486:0.01924,gi|132403|sp|P18902|RETB_BOVIN:0.01902);Fig.10.4Page325fivecloselyrelatedlipocalinsFeng-Doolittlestage3:progressivealignment•根据导向树中的位置关系建立多重比对•先选择距离最近的一个两两比对,•接着在此基础上加入下一个最近序列形成三重比对或加入下一个最近的两两比对•重复此过程直到用完所有序列•规则:“一旦是空白,永远是空白.”Page324ProgressiveMSAstage3of3:progressivelyalignthesequencesfollowingthebranchorderofthetreeFig.10.3Page324ProgressiveMSAstage3of3:CLUSTALXoutputNotethatyoucandownloadCLUSTALXlocally,ratherthanusingaweb-basedprogram!ClustalWalignmentof5closelyrelatedlipocalinsCLUSTALW(1.82)multiplesequencealignmentgi|89271|pir||A39486MEWVWALVLLAALGSAQAERDCRVSSFRVKENFDKARFSGTWYAMAKKDP50gi|132403|sp|P18902|RETB_BOVIN------------------ERDCRVSSFRVKENFDKARFAGTWYAMAKKDP32gi|5803139|ref|NP_006735.1|MKWVWALLLLAAW--AAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDP48gi|6174963|sp|Q00724|RETB_MOUSMEWVWALVLLAALGGGSAERDCRVSSFRVKENFDKARFSGLWYAIAKKDP50gi|132407|sp|P04916|RETB_RATMEWVWALVLLAALGGGSAERDCRVSSFRVKENFDKARFSGLWYAIAKKDP50********************:****:*****gi|89271|pir||A39486EGLFLQDNIVAEFSVDENGHMSATAKGRVRLLNNWDVCADMVGTFTDTED100gi|132403|sp|P18902|RETB_BOVINEGLFLQDNIVAEFSVDENGHMSATAKGRVRLLNNWDVCADMVGTFTDTED82gi|5803139|ref|NP_006735.1|EGLFLQDNIVAEFSVDETGQMSATAKGRVRLLNNWDVCADMVGTFTDTED98gi|6174963|sp|Q00724|RETB_MOUSEGLFLQDNIIAEFSVDEKGHMSATAKGRVRLLSNWEVCADMVGTFTDTED100gi|132407|sp|P04916|RETB_RATEGLFLQDNIIAEFSVDEKGHMSATAKGRVRLLSNWEVCADMVGTFTDTED100*********:*******.*:************.**:**************gi|89271|pir||A39486PAKFKMKYWGVASFLQKGNDDHWIIDTDYDTYAAQYSCRLQNLDGTCADS150gi|132403|sp|P18902|RETB_BOVINPAKFKMKYWGVASFLQKGNDDHWIIDTDYETFAVQYSCRLLNLDGTCADS132gi|5803139|ref|NP_006735.1|PAKFKMKYWGVASFLQKGNDDHWIVDTDYDTYAVQYSCRLLNLDGTCADS148gi|6174963|sp|Q00724|RETB_MOUSPAKFKMKYWGVASFLQRGNDDHWIIDTDYDTFALQYSCRLQNLDGTCADS150gi|132407|sp|P04916|RETB_RATPAKFKMKYWGVASFLQRGNDDHWIIDTDYDTFALQYSCRLQNLDGTCADS150****************:*******:****:*:****************Fig.10.5Page326*asterisksindicateidentityinacolumnProgressiveMSAstage3of3:progressivelyalignthesequencesfollowingthebranchorderofthetree:OrdermattersTHELASTFATCATTHEFASTCATTHEVERYFASTCATTHEFATCATTHELASTFATCATTHEFASTCAT---THELASTFA-TCATTHEFASTCA-T---THEVERYFASTCATTHELASTFA-TCATTHEFASTCA-T---THEVERYFASTCATTHE----FA-TCATAdaptedfrom