分子进化树构建方法

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第五章系谱分析生物信息学2.系统发生分析(Phylogeneticanalysis)分析基因或蛋白质的进化关系系统发生(进化)树(phylogenetictree)Atreeshowingtheevolutionaryrelationshipsamongvariousbiologicalspeciesorotherentitiesthatarebelievedtohaveacommonancestor.经典进化生物学:比较:形态、生理结构、化石分子进化生物学:比较DNA和蛋白质序列研究系统发生的方法Residuesthatarelinedupindifferentsequencesareconsideredtoshareacommonancestry(i.e.,theyarederivedfromacommonancestralresidue).AnAlignmentisanhypothesisofpositionalhomologybetweenbases/AminoAcidsEasyonlywithsubstitutionsDifficultalsowithindels=((A,(B,C)),(D,E))Newickformat节点Node分支BranchABCDE末端节点可以是物种,群体,或者蛋白质、DNA、RNA分子等OTU祖先节点/树根Root系统发生树术语内部节点/分歧点该分支可能的祖先HTUAclade(进化支)isagroupoforganismsthatincludesanancestorandalldescendentsofthatancestor.geneticchangenomeaningPhylogramCladogramtimeTaxonATaxonBTaxonCTaxonD111635TaxonATaxonBTaxonCTaxonDTaxonATaxonBTaxonCTaxonDUltrametrictree超度量树进化树分支树系统发生树术语Rootedtreevs.Unrootedtreetwomajorwaystoroottrees:ABCD102352d(A,D)=10+3+5=18Midpoint=18/2=9Bymidpointordistance有根树ACBD无根树系统发生树术语outgroup外群、外围支plantplantplantfungusanimalanimalanimalUnrootedtreerootRootedtreebacteriumanimalanimalanimalfungusplantplantplantMonophyleticgroupMonophyleticgroupRootedtreevs.Unrootedtree选择外群(Outgroup)选择一个或多个已知与分析序列关系较远的序列作为外类群外类群可以辅助定位树根外类群序列必须与进化树上其它序列同源,但外类群序列与这些序列间的差异必须比这些序列之间的差异更显著。eukaryoteeukaryoteeukaryoteeukaryotearchaeaarchaeaarchaeabacteriaoutgroup外群Howtorootatree?系统发育树构建步骤多序列比对(自动比对、手工校正)选择建树方法(替代模型)建立进化树进化树评估最大简约法(maximumparsimony,MP)距离法(distance)最大似然法(maximumlikelihood,ML)贝叶斯法(Bayesianinference)统计分析BootstrapLikelihoodRatioTest……UPGMA邻近法(Neighbor-joining,NJ)最小进化法(minimumevolution)距离法距离法又称距离矩阵法,首先通过各个序列之间的比较,根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵。进化树的构建则是基于这个矩阵中的进化距离关系。CatDogRatDog3Rat45Cow676CatDogRat11224Cow计算序列的距离,建立距离矩阵通过距离矩阵建进化树Step1.计算序列的距离,建立距离矩阵Uncorrected“p”distance(=observedpercentsequencedifference)Kimura2-parameterdistance(estimateofthetruenumberofsubstitutionsbetweentaxa)对位排列,去除空格(选择替代模型)由进化距离构建进化树的方法有很多,常见有:1.UnweightedPairGroupMethodwithArithmeticmean(UPGMA)2.Neighbor-JoiningMethod(NJ法/邻位连接法)3.MinimumEvolution(MP法/最小进化法)Step2.通过矩阵建树最大简约法(MP)最早源于形态性状研究,现在已经推广到分子序列的进化分析中。最大简约法的理论基础是奥卡姆(Ockham)哲学原则,对所有可能的拓扑结构进行计算,找出所需替代数最小的那个拓扑结构,作为最优树。最大简约法(MaximumParsimony)FindthetreethatexplainstheobservedsequenceswithaminimalnumberofsubstitutionsSequence1TGCSequence2TACSequence3AGGSequence4AAG123PositionMP法建树流程If1and2aregroupedatotaloffourchangesareneeded.If1and3aregroupedatotaloffivechangesareneeded.If1and4aregroupedatotalofsixchangesareneeded.Position1(1,2):1change;(1,3)or(1,4):2changesPosition2(1,3):1change;(1,2)or(1,4):2changesPosition3(1,2):1change;(1,3)or(1,4):2changes456BESTMP法建树步骤最大似然法(MaximumLikelihood)最大似然法(ML)最早应用于对基因频率数据的分析上。其原理为选取一个特定的替代模型来分析给定的一组序列数据,使得获得的每一个拓扑结构的似然率都为最大值,然后再挑出其中似然率最大的拓扑结构作为最优树。ML法建树流程CAGATGCCATGC•PickanEvolutionaryModel•Foreachposition,Generateallpossibletreestructures•BasedontheEvolutionaryModel,calculateLikelihoodoftheseTreesandSumthemtogettheColumnLikelihoodforeachOTUcluster.•CalculateTreeLikelihoodbymultiplyingthelikelihoodforeachposition•ChooseTreewithGreatestLikelihoodInferringthemaximumlikelihoodtreeHolder&Lewis(2003)NatureReviewsGenetics4,275-284Bayesianinference:Whatistheprobabilitythatthemodel/theoryiscorrectgiventheobserveddata?Pr(T|D)MaximumLikelihood:Whatistheprobabilityofseeingtheobserveddata(D)givenamodel/theory(T)?Pr(D|T)•Speed•Noneedforbootstrapping构建进化树的新方法——贝叶斯推断(Bayesianinference)与ML相比,BI的优势:ComparisonofMethodsDistanceMaximumparsimonyMaximumlikelihoodUsesonlypairwisedistancesUsesonlysharedderivedcharactersUsesalldataMinimizesdistancebetweennearestneighborsMinimizestotaldistanceMaximizestreelikelihoodgivenspecificparametervaluesVeryfastSlowVeryslowEasilytrappedinlocaloptimaAssumptionsfailwhenevolutionisrapidHighlydependentonassumedevolutionmodelGoodforgeneratingtentativetree,orchoosingamongmultipletreesBestoptionwhentractable(30taxa,homoplasyrare)GoodforverysmalldatasetsandfortestingtreesbuiltusingothermethodsBioinformatics:SequenceandGenomeAnalysis,2ndedition,byDavidW.Mount.p254ChoosingaMethodforPhylogeneticPrediction(3):792-802AssessingtreereliabilityPhylogeneticreconstructionisaproblemofstatisticalinference.Onemustassessthereliabilityoftheinferredphylogenyanditscomponentparts.Questions:(1)howreliableisthetree?(2)whichpartsofthetreearereliable?(3)isthistreesignificantlybetterthananotherone?Astatisticaltechniquethatusesintensiverandomresamplingofdatatoestimateastatisticwhoseunderlyingdistributionisunknown.评估进化树的可靠性——自展法(bootstrappingmethod)从排列的多序列中随机有放回的抽取某一列,构成相同长度的新的排列序列重复上面的过程,得到多组新的序列对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性TheBootstrap•Computationalmethodtoestimatetheconfidencelevelofacertainphylogenetictree.ratGAGGCTTATChumanGTGGCTTATCturtleGTGCCCTATGfruitflyCTCGCCTTTGoakATCGCTCTTGduckweedATCCCTCCGG0123456789SamplerathumanturtlefruitflyoakduckweedInferredtreeMorereplicates(between100-1000)ratGGAAGGGGCThumanGGTTGGGGCTturtleGGTTGGGCCCfruitflyCCTTCCCGCCoakAATTCCCGCTduckweedAATTCCCCCT

1 / 42
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功