生物信息学分子系统发育分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

分子系统发育分析毛理凯2本课目录一.总括二.多序列比对三.构建系统树四.系统发生软件3一、总括4系统发生学(phylogenetics)亦称系统学,种系发生学,种系发生系统学(phylogeneticsystematics)在希腊文中phylon=tribe,race(种系)genesis=birth研究生物群体(如:物种,种群)之间的进化关系5相关概念phylogenetictaxonomy(系统发生分类学)是系统学的一个分支根据进化相关度对生物群体分类phylogeny(=phylogenesis系统发生)生物群体的产生和进化分子系统学(molecularphylogenetics)将核酸,氨基酸序列作为进化特征6系统发生树(phylogenetictree)也叫系统树,进化树(evolutionarytree),生命树(treeoflife)对物种之间的进化关系的一种描述,这些物种被认为有共同祖先叶,节点关系,时间7有根树和无根树有根树(rootedtree)有共同祖先无根树(unrootedtree)树空间(treespace)从已知序列可以产生许多系统树来自几何8无根树和有根树的关系(1)从一棵有根树总可以产生一棵无根树而从无根树产生有根树需要额外的数据9无根树和有根树的关系(2)一棵无根树可以产生多棵有根树10WilliHennig(1913-1976)德国生物学家,被认为是系统发生学和分类学(cladistics;也叫cladogram)的奠基人据已知资料来看,他的观点并不是最早被阐述属达尔文学派;类似的观点另一学派的Lamarck和Rosa也有阐述可以认为是系统发生学的集大成者11历史上的系统树海克尔(ErnstHaeckel)首次制成了当时所有已知生物的系统树(1834-1919)著名的德国生物学家,哲学家,医生,教授,艺术家创建了重演论(recapitulationtheory)命名了许多生物学术语(如:门,系统发生,生态学,原生生物)和几千物种出版了著名的KunstformenderNatur(ArtformsofNature)12可能是最早的系统树C.Darwin,183713特征选取的变迁经典系统发生学主要是比较大的物理或表型特征如生物体的大小,颜色,牙齿个数,行为特征缺点:不易量化(连续),难以选取合适特征现代系统发生学分子水平:核酸或氨基酸序列优点:易量化(离散),易获取,适于自动化,更本质例子:(现代人起源)通过对线粒体DNA的研究,认为所有现代人都是一个非洲女性的后代(“夏娃”)14系统发生学研究方法目的在树空间中寻找正确的系统树分析步骤1.多(重)序列比对(multiplesequencealignment,MSA)2.构建系统树3.评价结果15三种构建系统树中使用的搜索算法穷尽法搜索整个空间(所有可能的树),然后根据评价标准选择一棵最优的树分支约束方法根据一定的约束条件将搜索空间限制在一定范围内启发式或经验性方法(heuristic)根据目前的搜索情况指导下一步的搜索方向根据先验知识或一定的指导性规则压缩搜索空间16两类数据:距离和离散特征距离描述序列之间的差别(遗传距离)一般用距离矩阵(distancematrix)表示距离往往由序列比对产生(如错配的比例)离散特征二态特征(如:DNA序列上的某个位点是否剪切位点)多态特征(如:某一位点可能的碱基有A,T,G,C)17两大类构建系统树的算法1.基于距离的构建方法(distance-matrixmethods)邻近归并法(或称邻接法,neighbor-joining)非加权组平均法(UPGMA)Fitch-Margoliash法最小进化方法2.基于离散特征的构建方法最大简约法(MP)进化简约法(EP)最大似然法(ML)相容性方法18注意:系统树的限制有人认为生物的系统关系不一定是树状的系统树不一定代表进化历史1.有很多干扰分析的因素噪音(noisy)水平基因转移(horizontalgenetransfer;网状)杂交,重组等(网状)2.用不同基因或蛋白产生的树往往不同3.已经灭绝的物种只能作为叶节点19二、多序列比对20例子多物种核糖体Rplp0蛋白比对ClustalW生成(颜色表示氨基酸保守性)21多序列比对方法动态规划(dynamicprogramming)慢,耗内存改进:使用“sumofpairs”目标函数渐进法(progressivemethod;或称分级法hierarchical,建树法tree)迭代法(iterativemethod)基序法(motiffinding;或称轮廓分析法profileanalysis)来自计算科学的算法HMM,GA,SA星形比对,树形比对22动态规划法是两两比对所用动态规划方法的直接扩展步骤1.用两两比对的方法比对所有的序列对2.建立n维矩阵(n为序列个数)3.产生多序列比对优点理论上适用于任意多个序列保证能得到较好结果缺点耗费大量时间,内存实际上很少用于多于3个序列的比对23逐对加和法(sumofpairs,SP)步骤1.进行所有两两比对,并给每个比对打分2.将所有的得分相加3.找到最优多序列比对,使得总得分(目标函数objectivefunction)最高例子对于这个蛋白多序列(3个)比对,求总分已知得分(K,R)=3,间隔罚分为-12K–R(-12)+(-12)+3=-2124Clustal可能是使用最广的多序列比对软件算法1.用Needleman-Wunsch全局算法做所有两两比对2.得到距离矩阵,从而产生引导树(guidetree;利用UPGMA,见后;得到dnd文件)3.渐进式比对(先处理距离最近的2个序列,再加次最近的…;得到aln文件)两个主要形式ClustalW(命令行)ClustalX(图形用户界面GUI)适用于Windows,MacOS,Unix/Linux25Clustal的输入输出文件格式输出PHYLIPClustalNBRF/PIRGCG/MSFGDENEXUS输入FASTAClustalNBRF/PIRGCC/MSFGDEEMBL/SwissprotGCG9RSF26ClustalW比对多序列(1)–主页这里将输入比对的多个序列27ClustalW(2)–获取FASTA格式的序列拷贝这些部分选择格式拷贝这些部分拷贝这些部分或将这里改为Text,更易拷贝28ClustalW(3)–将多个序列输入将多个序列粘贴到此点此比对29ClustalW(4)–比对结果(1)基本信息引导树文件多序列比对文件30ClustalW(5)–比对结果(2)比对图31ClustalW(6)–比对结果(3)引导树32MSA数据库Pfam(profileHMMlibrary)SMARTCDD(HMM;NCBIDART;=Pfam+SMART)BLOCKS(HMM)PRINTSPROSITEPopSetDOMO(GappedMSA)PRODOM(PSI-BLAST)MetaFAMINTERPROiProClass33MSA软件(维基的列表)NAMEDescriptionSequenceTypeAlignmentTypeLinkAuthorYearMSADynamicprogrammingBothLocalorGlobaldownloadD.J.Lipmanetal.1989(modified1995)MultAlinDynamicprogramming/clusteringBothLocalorGlobalserverF.Corpet1988PSAlignAlignmentpreservingnon-heuristicBothLocalorGlobaldownloadS.H.Sze,Y.Lu,Q.Yang.2006ClustalWProgressivealignmentBothLocalorGlobalEBIPBILEMBNetGenomeNetThompsonetal.1994KalignProgressivealignmentBothGlobalserverT.Lassmann2005T-CoffeeMoresensitiveprogressivealignmentBothLocalorGlobalserverC.Notredameetal.2000AMAPSequenceannealingBothGlobalserverA.SchwartzandL.Pachter2006MAVIDProgressivealignmentBothGlobalserverN.BrayandL.Pachter2004Multi-LAGANProgressivedynamicprogrammingalignmentBothGlobalserverM.Brudnoetal.2003MUSCLEProgressive/iterativealignmentBothLocalorGlobalserverR.Edgar2004MAFFTProgressive/iterativealignmentBothLocalorGlobalGenomeNetMAFFTK.Katohetal.2005GeneiousProgressive/Iterativealignment;ClustalWpluginBothLocalorGlobaldownloadA.J.Drummondetal.2005/2006CHAOS/DIALIGNIterativealignmentBothLocal(preferred)serverM.BrudnoandB.Morgenstern2003PRRN/PRRPIterativealignment(especiallyrefinement)ProteinLocalorGlobalPRRPPRRNY.Totoki(basedonO.Gotoh)1991andlaterPOAPartialorder/hiddenMarkovmodelProteinLocalorGlobaldownloadC.Lee2002SAMHiddenMarkovmodelProteinLocalorGlobalserverA.Kroghetal.1994(mostrecent2002)ProbConsProbabilistic/consistencyProteinLocalorGlobalserverC.Doetal.2005SAGASequencealignmentbygeneticalgorithmProteinLocalorGlobaldownloadC.Notredameetal.1996(newversion1998)Ed'NimbusSeededfiltrationNucleotidesLocalserverP.Peterlongoetal.2006RevTransCombinesDNAandProteinalignment,bybacktranslatingtheproteinalignmenttoDNA.DNA/Protein(special)LocalorGlobalserverWernerssonandPedersen2003(newestversion2005)34其他MSA软件Opal(Bioinformatics23(13);2007/7/1;免费)aligningalignmentsMurlet(Bioinformatics23(13);2007/7/1;开源)forRNASQUINT(Bioinformatics23(12);2007/6/1)Probalign(Bioinfor

1 / 58
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功