浅谈系统发育分析及进化树制作郭勇晖2012.11.6人类偏肺病毒的确认PhylogeneticanalysisofORFsofhMPV黄病毒家族乙型脑炎病毒黄热病毒PhylogeneticanalysisofSARSproteins.Unrootedphylogenetictreesweregeneratedbyclustalw30MAY2003VOL300SCIENCE:1399-1404SARS新型冠状病毒“新”在哪里?达卡尔蝙蝠黄病毒2分子系统发育分析•系统发育分析是研究物种进化和系统分类的一种方法,研究对象为携带遗传信息的生物大分子序列,采用特定的数理统计算法来计算生物间的生物系统发生的关系。并用系统进化树来概括生物间的这种亲缘关系。3•系统发育进化树(Phylogenetictree)用一种类似树状分支的图形来概括各种生物之间的亲缘关系。•系统进化树的主要构成:结点(node):每个结点表示一个分类单元(属、种群)。进化分枝(Clade):是指由同一生物进化而来的单一系统群。实体抽象为节点,实体间的进化关系抽象为连接•研究对象:包括基因序列,基因组的排列方式,二级结构,编码的蛋白序列及高级结构等•研究意义:通过序列同源性的比较进而了解基因的进化以及生物系统发生的内在规律分子系统发育的核心是——构建系统发育进化树分子系统发育分析4人猩猩狒狒外群分支长度根进化支结点系统发育进化树示例结点:表示一个分类单元。进化支:两种以上生物(DNA序列)及其祖先组成的树枝。进化分支:进化关系的图形表示进化分支长度:用数值表示的进化枝的变化程度(遗传距离)距离标尺:生物体或序列之间差异的的数字尺度。根:所有分类的共同祖先。外群:一个或多个无可争议的同源物种,与分析序列相关且具有适当的亲缘关系距离标尺一个单位系统进化树0.55系统进化树6黄病毒家族黄热病毒达卡尔蝙蝠黄病毒基因树和物种树基因树(genetree):当一个系统进化树是根据某一个基因数据构建而来的,称为基因树。因为这种树代表的仅仅是单个基因的进化历史。而不是它所在物种的进化历史。物种树(speciestree):反映物种之间真实进化关系的系统进化树被称为物种树。例如一项关于植物进化的研究中,用了100个不同的基因来构建物种树。联系:虽然基因树不能等同于物种树,但基因树的分支形式能够反映物种的进化历史。病毒比较简单,遗传多态性较弱,一般而言结构蛋白基因构建的基因树最能接近物种树表达的进化关系。7物种树基因树8人类偏肺病毒的确认9SARS“新”型冠状病毒10找到建树目的基因(基因组)进行多序列比对选择建树方法建立进化树进化树评估系统发育树构建分析步骤11Distance-basedmethods基于距离的方法Unweightedpairgroupmethodusingarithmeticaverage(UPGMA)非加权分组平均法Minimumevolution(ME)最小进化方法Neighborjoining(NJ)邻位归并法Character-basedmethods基于特征的方法Maximumparsimony(MP)最大简约法Maximumlikelihoodmethod(ML)最大似然法计算速度距离法最大简约法最大似然法系统发育树构建的基本方法12基于距离的方法首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵。进化树的构建则是基于这个矩阵中的进化距离关系。基于特征的方法不计算序列间的距离,而是将序列中有差异的位点作为单独的特征,并根据这些特征来建树。系统发育树构建的基本方法13系统发育树构建的分析过程14•ClustalX(序列比对软件)•Modeltest&MrModeltest(碱基替换模型筛选软件)•PHYLIP•MEGA•PHYML•PAUP•BEAST•Figtree(树形显示软件)•TreeView(树形显示软件)系统发育树构建软件系统发育树构建的相关软件15•用截然不同的距离矩阵法与简约法分析一个数据集,如果能够产生相似的系统发生树,这样的树可以认为是可靠的•用Bootstrap(自展法)检验系统发育树构建的评估16•从排列的多序列中随机有放回的抽取某一列,构成相同长度的新的排列序列•重复上面的过程,得到多组新的序列•对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性•一般Bootstrap重复取样次数要大于100(一般文章要求1000),根据每个分支在不同此取样时出现的频率赋予该分支一个百分比。•如果严格根据统计学概念,该百分比要大于95%采认为该分支的较为可信。在实际应用中该值大于75%就认为可信,细菌等相似度更大的分类中,大于50%就可以认为可信。Bootstrap-自展法17A.重新取样(100-1000time).123451001:ATCTG…A2:ATCTG…C3:ACTTA…C4:ACCTA…T123451001:AATTT…T2:AATTT…G3:AACTT…T4:AACTT…T11244x123451001:TTTAT…T2:TAACC…G3:TAACC…T4:TGGGA…T47789…x123451001:AGGTA…T2:AGGAC…G3:AAAAC…A4:AAAGG…C15578…xBootstrap-自展法18B.每组取样重建进化树.123451001:AATTT…T2:AATTT…G3:AACTT…T4:AACTT…T11244x123451001:TTTAT…T2:TAACC…G3:TAACC…T4:TGGGA…T47789…x123451001:AGGTA…T2:AGGAC…G3:AAAAC…A4:AAAGG…C15578…xSp1Sp2Sp3Sp4Sp1Sp2Sp3Sp4Sp1Sp2Sp3Sp4Bootstrap-自展法19C.计算各分支出现的可信度Sp1Sp2Sp3Sp4Sp1Sp2Sp3Sp4Sp1Sp2Sp3Sp4Sp1Sp2Sp3Sp467%100%In67%ofthedatasets,thesplitbetweenSP1+SP2andtherestofthetreewasfound.Bootstrap-自展法20•得到CA16VP1序列,利用MEGA软件进行处理和分析序列:1)用MEGA软件对多序列进行比对,建立MEGA软件构建进化树的数据格式(两端对齐,fasta格式输出);2)用N-J法构建基因进化树;3)对所构建的进化树进行加工处理。实例讲解:(建立肠道病毒CA16VP1的基因树)21实例讲解:(建立肠道病毒CA16VP1的基因树)22实例讲解:(建立肠道病毒CA16VP1的基因树)23实例讲解:(建立肠道病毒CA16VP1的基因树)24实例讲解:(建立肠道病毒CA16VP1的基因树)25实例讲解:(建立肠道病毒CA16VP1的基因树)26实例讲解:(建立肠道病毒CA16VP1的基因树)27实例讲解:(建立肠道病毒CA16VP1的基因树)28实例讲解:(建立肠道病毒CA16VP1的基因树)29实例讲解:(建立肠道病毒CA16VP1的基因树)30实例讲解:(建立肠道病毒CA16VP1的基因树)31实例讲解:(建立肠道病毒CA16VP1的基因树)32实例讲解:(建立肠道病毒CA16VP1的基因树)33实例讲解:(建立肠道病毒CA16VP1的基因树)34实例讲解:(建立肠道病毒CA16VP1的基因树)35实例讲解:(建立肠道病毒CA16VP1的基因树)363738体会:1、用什么方法建树。2、定立标准:想建成什么样的树、树的分类情况如何、标准是什么。3、建树过程:要注意标准株的组合,所构建的树是否需要有根,如何定立外群。392、定立标准:Feb.2010,JCM2010:619-622Apr.2011,JCM2010:1659–1661403、建树过程:41谢谢!距离没有意义系统进化树42•怎样确定树根?无根树:只表明序列间的差异有根树:表明序列间的差异,同时表明进化的方向系统进化树43