金丽华生物信息技术项目3进化树的构建项目3课程导学生物是怎么进行进化的?从什么数据中我们可以看出生物分子的进化过程呢?猴子和人类有多大的相似性?在本项目中,我们利用系统进化树的方法来理解生物的进化过程。项目任务1)学习并理解分子进化。2)能理解分子钟和中性理论3)能看懂进化树4)能利用MEGA5.1软件画出系统进化树。学习内容1.分子进化与系统发育2.分子进化树与系统进化树3.利用MEGA5.1构建进化树(实操任务)分子进化与系统发育内容提要分子进化分析介绍系统发育树重建方法Phylip软件包在分子进化分析中的应用PAUP*在分子进化分析中的应用MEGA分子进化树分析软件从物种的一些分子特性出发,从而了解物种之间的生物系统发生的关系。蛋白和核酸序列通过序列同源性的比较进而了解基因的进化以及生物系统发生的内在规律。分子进化研究的目的系统发育树是什么?对一组实际对象的世系关系的描述(如基因,物种等)。祖先节点/树根内部节点/分歧点,该分支可能的祖先结点分支/世系末端节点ABCDE代表最终分类,可以是物种,群体,或者蛋白质、DNA、RNA分子等系统发育树:术语ABCDE†FG树只代表分支的拓扑结构FGCDE†AB分子进化研究的基础(假设)核苷酸和氨基酸序列中含有生物进化历史的全部信息。在各种不同的发育谱系及足够大的进化时间尺度中,许多序列的进化速率几乎是恒定不变的。(分子钟理论,1965)分子进化研究的基础(理论)虽然很多时候仍然存在争议,但是分子进化确实能阐述一些生物系统发生的内在规律。分子进化研究的基础(实际)从一个分歧数据可以推测其他序列分歧度分歧时间xy分子钟理论速率恒定的证据:血色素中性理论“在生物分子层次上的进化改变不是由自然选择作用于有利突变引起的,而是在连续的突变压之下由选择中性或非常接近中性的突变的随机固定造成的,中性突变是指对当前适应度无影响的突变。”否认自然选择在生物进化中的作用,认为生物大分子的进化的主要因素是机会和突变压力进化及遗传模型1、序列有指定的来源并且正确无误。2、序列是同源的,而序列不是“paralog”的混合物。3、序列比对中,不同序列的同一个位点都是同源的4、在接受分析的一个序列组中,序列之间的系统发育史是相同的。5、样本足以解决感兴趣的问题。进化及遗传模型6、样本序列之间的差异代表了感兴趣的宽组。7、样本序列之间的差异包含了足以解决感兴趣的问题的系统发育信号。8、样本序列是随机进化的。9、序列中的所有位点的进化都是随机的。10、序列中的每一个位点的进化都是独立的。直系同源(orthologs):同源的基因通过物种形成的事件而产生,或源于不同物种的最近的共同祖先的两个基因,或者两个物种中的同一基因,一般具有相同的功能。并系同源(paralogs):同源基因在同一物种中,通过至少一次基因复制的事件而产生。直系同源与旁系同源paralogsorthologsparalogsorthologsErikL.L.SonnhammerOrthology,paralogyandproposedclassificationforparalogsubtypesTRENDSinGeneticsVol.18No.12December2002–seefrontmatter©2002ElsevierScienceLtd.Allrightsreserved.以上两个概念代表了两个不同的进化事件用于分子进化分析中的序列必须是直系同源的,才能真实反映进化过程。趋同进化的基因(Convergentevolution)通过不同的进化途径获得相似的功能,或者功能替代物(geneshaveconvergedfunctionbyseparateevolutionarypaths)异源基因或水平转移基因(xenologousorhorizontallytransferredgenes)由某一个水平基因转移事件而得到的同源序列Bacterium1Bacterium3Bacterium2Eukaryote1Eukaryote4Eukaryote3Eukaryote2Bacterium1Bacterium3Bacterium2Eukaryote1Eukaryote4Eukaryote3Eukaryote2Phylogramsshowbranchorderandbranchlengths进化树,有分支和支长信息2.进化分支图,进化树Cladogramsshowbranchingorder-branchlengthsaremeaningless进化分支图,只用分支信息,无支长信息。archaeaarchaeaeukaryoteeukaryoteeukaryoteeukaryote通过外围支来确定树根archaeabacteriaoutgroup根eukaryoteeukaryoteeukaryoteeukaryote无根树archaeaarchaeaarchaea有根树外围支无根树,有根树,外围支无根树和有根树:潜在的数目#Taxa无根树有根树31343155151056105945794510,395…30~3.58X1036~2.04X1038Taxa增多,计算量急剧增加,因此,目前算法都为优化算法,不能保证最优解4.基因树,物种树WeoftenassumethatgenetreesgiveusspeciestreesabcABDGenetreeSpeciestree系统发育树重建分析步骤多序列比对(自动比对,手工比对)建立取代模型(建树方法)建立进化树进化树评估1.最大简约法(maximumparsimony,MP)2.距离法(distance)3.最大似然法(maximumlikelihood,ML)系统发育树重建的基本方法最大简约法(MP)1.理论基础为奥卡姆剃刀(Ockham)原则:计算所需替代数最小的那个拓扑结构,作为最优树2.在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候,最大简约法能够推导获得一个很好的进化树3.优点:不需要在处理核苷酸或者氨基酸替代的时候引入假设(替代模型)4.缺点:分析序列上存在较多的回复突变或平行突变,而被检验的序列位点数又比较少的时候,可能会给出一个不合理的或者错误的进化树推导结果1.信息位点,必须在至少2个taxa中具有相同的序列性状2.信息位点是指那些至少存在2个不同碱基/氨基酸且每个不同碱基/氨基酸至少出现两次的位点信息位点(Sitesareinformative)上例1.Position5,7,9为信息位点2.基于position5的三个MP树:Tree1长度1,Tree2&3长度23.Tree1更为简约2.距离法又称距离矩阵法,首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵。进化树的构建则是基于这个矩阵中的进化距离关系计算序列的距离,建立距离矩阵通过距离矩阵建进化树简单的距离矩阵由进化距离构建进化树的方法有很多,常见有:(1)Fitch-MargoliashMethod(FM法):对短支长非常有效(2)Neighbor-JoiningMethod(NJ法/邻接法):求最短支长,最通用的距离方法(3)NeighborsRelatonMethod(邻居关系法)(4)UnweightedPairGroupMethod(UPGMA法)通过距离矩阵建树的方法1.找出关系最近的序列对,如A和B2.将剩余的序列作为一个简单复合序列,分别计算A、B到所有其他序列的距离的平均值3.用这些值来计算A和B间的距离4.将A、B作为一个单一的复合序列AB,计算与每一个其他序列的距离,生成新的距离矩阵5.确定下一对关系最近的序列,重复前面的步聚计算枝长7.从每个序列对开始,重复整个过程8.对每个树计算每对序列间的预测距离,发现与原始数据最符合的树Fitch-Margoliash方法(FM法)Fitch-Margoliash方法(FM法)D和E最接近!分成三组:D,E,以及ABCDE距离=d+e(1)D到ABC间的平均距离=d+m(2)E到ABC间的平均距离=e+m(3)(2)-(3)+(1)d=4,e=6C最接近DE!分成三组:C,DE,以及ABc+g+(e+d)/2=19(1)c+f+(a+b)/2=40(2)(e+d)/2+(a+b)/2+f+g=41(2)(1)+(2)-(3)得:c=9c+g+(e+d)/2=19(e+d)/2=5,c=9,则g=5由:(a+b)/2+f+g+(d+e)/2=41得:f=20由:a+f+c=39得:a=10,则b=12练习题计算以下序列的进化距离,画出进化树。序列1:AACTGTTAGTCAATTGATTCCAATGGTCCATAAACGAATC序列2:AACAGTCAGTCAAGTGTTTCCTTTGGTCCATCGACGAATC序列3:AAGGGTCTGTCACAGGATGGCATCGGTCGGTAAACGAGAC序列4:AAGGGTCTGTCACAGGAAGGCATCGGTGGGTAAACGTGAC序列5:AACACACAGTCAAGAGTTTCCTTGGGTCCATCGTCGAATCNJ法/邻接法Neighbor-JoiningMethod(NJ法/邻接法):邻接法(Neighbor-joiningMethod)由Saitou和Nei(1987)提出。该方法通过确定距离最近(或相邻)的成对分类单位来使系统树的总距离达到最小。相邻是指两个分类单位在某一无根分叉树中仅通过一个节点(node)相连。通过循序地将相邻点合并成新的点,就可以建立一个相应的拓扑树。NJ/邻接法1.与FM方法非常类似2.保证总的支长最短总支长:a+b+c+d+e=314/4=78.5找到距离最近的两个点1.任意两个节点选为相邻序列的总支长计算公式:2.计算SAB,SBC,SCD,SDE…等数值3.该例中,SAB最小把A、B看成一个新的复合序列,构建一个新的距离表,重复以上过程计算A,B的分支长度AB组合出现3次,DE组合出现3次,CD、AC、BC组合各一次,则AB和DE各为两对关系最近的邻居。(关系最近的邻居作为邻居的次数最多),将邻居看成一个新的复合序列,重复这个过程邻居关系法UPGMA法称为(应用算术平均数的非加权成组配对法,unweightedpair-groupmethodusinganarithmeticaverage)。该法将类间距离定义为两个类的成员所有成对距离的平均值,广泛用于距离矩阵。Nei等模拟了构建树的不同方法,发现当沿树上所有分枝的突变率相同时,UPGMA法一般能够得到较好的结果。但必须强调有关突变率相等(或几乎相等)的假设对于UPGMA的应用是重要的。另一些模型研究(如Kim和Burgman)已证实当各分枝的突变率不相等时,这一方法的结果不尽人意。当各分枝突变率相等时,认为分子钟(molecularclock)在起作用。d=e=10/2=5UPGMA法c=19/2=9.5g=c-d=9.5-5=4.5a=b=22/2=11AB(CDE)A-2239.5B--41.5(CDE)---(AB)(CDE)(AB)-40.5(CDE)--f1+a=f2+c=40.5/2=20.25f1=9.25,f2=11.75最大似然法(ML)1.最大似然法(maximumlikelihood,ML):最早应用于对基因频率数据的分析上2.选取一个特定的替代模型来分析给定的一组序列数据,使得获得的每一个拓扑结构的似然率都为最大值,然后再挑出其中似然率最大的拓扑结构作为最优树3.在最大似然法的分析中,所考虑的参数并不是拓扑结构而是每个拓扑结构的枝长,并对似然率求最大值来估计枝长4.缺点:费时,每个步骤都要考虑内部节点的所