分子系统发育分析一、分子进化的基本理论系统发育(或种系发育、系统发生,phylogeny)是指生物形成或进化的历史。系统发育学(phylogenetics)研究物种之间的进化关系,其基本思想是比较物种的特征,并认为特征相似的物种在遗传学上接近。系统发育学是进化生物学的一个重要研究领域,系统发育分析早在达尔文时代就已经开始。从那时起,科学家们就开始寻找物种的源头,分析物种之间的进化关系,给各个物种分门别类。一、分子进化的基本理论所有的生物都可以追溯到共同的祖先,生物的产生和分化就像树一样地生长、分叉,以树的形式来表示生物之间的进化关系是非常自然的事。可以用树中的各个分支点代表一类生物起源的相对时间,两个分支点靠得越近,则对应的两群生物进化关系越密切。一、分子进化的基本理论经典系统发育学主要是物理或表型特征如生物体的大小、颜色、触角个数通过表型比较来推断生物体的基因型(genotype),研究物种之间的进化关系经典系统发育学经典系统发育学局限性表型有时候会误导我们,表型相似并不总是反映基因相似。关系很远的物种也能进化出相似的表型,这是由趋同进化的过程造成的。用表型来判定进化关系的另一个问题是,对于许多生物体很难检测到可用来进行比较的表型特征。比较关系较远的生物体,什么样的表型特征能用来比较呢?现代系统发育学利用从遗传物质中提取的信息作为物种特征核酸序列或蛋白质分子现今世界上存在的核酸和蛋白质分子都是从共同的祖先经过不断的进化而形成的作为生物遗传物质的核酸和作为生命机器的蛋白质分子中存在着关于生物进化的信息这些分子不仅在序列上保留进化的痕迹,它们的结构也保留着进化的痕迹现代系统发育学现代系统发育学发展过程在分子水平上研究生物之间的关系早在20世纪初就开始了(免疫反应)。直到20世纪中期,分子数据才开始被广泛应用于系统发育研究。蛋白质电泳使得我们可以在一些浅层特征上,如分子大小和电荷,来分离和比较相关的蛋白质。20世纪60年代,蛋白质测序成为可能;20世纪70年代,研究者开始能够获得基因组信息,特别是DNA序列。蛋白质序列和DNA序列为分子系统发育分析提供了可靠的数据。根据现有生物基因或物种多样性来重建生物的进化史基本原理从一条序列转变为另一条序列所需要的变换越多,那么,这两条序列的相关性就越小,从共同祖先分歧的时间就越早,进化距离就越大;相反,两个序列越相似,那么它们之间的进化距离就可能越小。为了便于分析,一般假设序列变化的速率相对恒定。GAATC序列1GAGTT序列2GAATCGAGTTGA(A/G)T(C/T)祖先序列一个可靠的系统发育的推断,将揭示出有关生物进化过程的顺序,有助于我们了解生物进化的历史和进化机制在分子水平上进行系统发育分析具有许多优势,所得到的结果更加科学、可靠。关于现代人起源的研究:线粒体DNA——所有现代人都是一个非洲女性的后代系统发育分析术语直系同源(orthologs):同源的基因是由于共同的祖先基因进化而产生的.旁系同源(paralogs):同源的基因是由于基因复制产生的.以上定义源自Fitch,W.M.(1970)Distinguishinghomologousfromanalogousproteins.Syst.Zool.19,99–113paralogsorthologsparalogsorthologsErikL.L,etalTRENDSinGenetics,2002异同源(xenology)系统发育树术语祖先节点/树根内部节点/分歧点,该分支可能的祖先结点分支/世系末端节点ABCDE代表最终分类,可以是物种,群体,或者蛋白质、DNA、RNA分子等单系类群包含一个祖先类群所有子裔,存在共同祖先并系类群非单系类群,存在共同祖先复系类群非单系类群,不存在共同衍生祖先内类群研究所涉及的某一特定类群外类群不包括在内类群中又与之有一定关系姐妹群与某一类群关系最为密切的类群archaeaarchaeaeukaryoteeukaryoteeukaryoteeukaryote通过外围支来确定树根archaeabacteriaoutgroup根eukaryoteeukaryoteeukaryoteeukaryote无根树archaeaarchaeaarchaea无根树,有根树,外群有根树外群abcdabcdabcdadbcbacdcabddabcacbdbcadcbaddbacadbcbaaccdabdcab考虑4个分类群时,共有15种可能的有根树abcdacbdadbc考虑4个分类群时,共有3种可能的无根树考察类群数为m(m≥3)的系统树,其可能的拓扑结构数目为:)!(m)!m(m22322−⋅−−有根树)!3(2)!52(3−⋅−−mmm无根树无根树和有根树:潜在的数目#Taxa无根树有根树31343155151056105945794510,395…30~3.58X1036~2.04X1038Taxa增大,计算量急剧增加,因此,目前算法都为优化算法,不能保证最优解TaxonATaxonBTaxonCTaxonD116遗传变化TaxonATaxonBTaxonCTaxonD时间TaxonATaxonBTaxonCTaxonD只用分支信息,无支长信息分支图进化树时间度量树以上三种类型的系统发育树表示相同的分支状况,相同的进化关系系统发育树:三种类型基因树、物种树基于单个同源基因差异构建的系统发育树称为基因树(genetree),代表的仅仅是单个基因的进化历史两个物种分歧的时间:两个物种发育生殖隔离的时间物种树一般是通过综合多个基因数据的分析结果而产生,代表物种的进化历史。两个基因分歧点:表示基因分离的时间。Speciationevent物种树(矩形)和基因树(实心点)基因与物种的分离时间未必同步ABCDE†FGFGCDE†AB树只代表分支的拓扑结构分子进化的两个特点生物大分子进化速率的相对恒定V分子进化速率Â生物大分子随时间的改变主要表现为核苷酸、蛋白质的一级结构的改变速率,即分子序列中核苷酸、氨基酸的替换速率V不同物种同源大分子的分子进化速率大体相同Â例子:比较不同物种血红蛋白氨基酸序列差异人、马——0.8×10-9/AA.a人、鲤鱼——0.6×10-9/AA.aV分子进化速率远远比表型进化速率稳定Â原因?Â序列的核苷酸或氨基酸替换是否随机过程?…分子进化的两个特点生物大分子进化的保守性V保守性Â功能上重要的大分子或大分子的局部在进化速率上明显低于那些在功能上不重要的大分子或者大分子局部。(引起表型发生显著改变的突变发生的频率要低于无明显表型发生显著改变得突变发生的频率)V氨基酸Â例:血红蛋白分子的外区的功能要次于内区的功能,外区的进化速率是内区进化速率的10倍。V核苷酸Â例:DNA密码子的同义替代频率高于非同义替代频率;内含子上的核苷酸替代频率较高。V生物大分子进化并非完全随机V存在某种制约因素,存在某种机制……?分子进化中性论V20世纪60年代末基于对蛋白质和核酸分子的进化改变(表现为蛋白质分子中的氨基酸替换和DNA分子的碱基替换)的比较研究,1968年,日本遗传学家木村资生提出分子进化中性学说:“在生物分子层次上的进化改变不是由自然选择作用于有利突变而引起的,而是在连续的突变压之下由选择中性或非常接近中性的突变的随机固定造成的。中性突变是指对当前适应度无影响的突变。”V中性突变、连续突变压、随机固定换句话说,分子中性论虽然承认自然选择在表现型进化中的作用,但否认自然选择在分子进化中的作用,认为生物大分子的进化主要因素是机会和突变压力。系统发育分析一般是建立在分子钟(molecularclock)基础上的分子钟假说是在20世纪60年代首次提出序列之间的遗传差异的数量与分歧时间接近正线性关系;分子变化的速率相当稳定,可以用来预测分化的时间。分子钟:进化时间的估计1.遗传距离d的计算:VA.氨基酸序列:p-距离,d-距离,Γ-距离;VB.DNA序列:Jukes-Cantor距离,Kimura距离;2.物种分歧点:使用考古数据确定共有祖先;确定分化时间T;3.计算分子的分化/进化的速率:r=d/2T;4.对新的序列,计算分化时间:Tnew=dnew/2r物种分化时间:化石证据1.灵长目-啮齿动物:~80Myrago2.哺乳动物-鸟类:~310Myrago3.哺乳动物-两栖类:~350Myrago4.四肢动物-硬骨鱼:~430Myrago5.脊椎动物-果蝇(昆虫):~830MyragoVNatureGenetics31,205-209(2002)关于分子钟的讨论和争议1、对长期进化而言,不存在以恒定速率替换的生物大分子一级结构;(基因功能的改变、基因数目的增加)2、不存在通用的分子钟;3、争议:V分子钟的准确性V中性理论(分子钟成立的基础)分子钟的昀明显的例外之一是分子序列证据与化石证据在人类起源时间上的差异。60年代中期,许多人类学家认为人类在3000万年前与我们昀近的亲属——非洲猿分歧。根据分子钟假设,分歧3000万年的物种氨基酸序列差异的应达4~5%、非重复序列DNA差异应约为8%,但实测值分别为0.8%与1.1%。对这种6倍左右的差别有两种解释。许多人类学家倾向于怀疑钟的存在,并认为在高等灵长类中分子进化速率下降虽然大部分分子进化学家同意序列进化与分歧时间密相关,但进化是以年限还是以代限为刻度则仍有分歧与争议;而且因为众多因素的影响,与分子钟相左的数据,无论是用氨基酸、核苷酸序列差异、免疫学距离,还是用DNA杂交复性等参数,均不断有所报道,其论争预计将继续下去。分子进化中性论揭示了分子进化的规律,这是他的主要贡献;其次中性论强调随机因素和突变压在进化中的作用,这正是对现代综合进化论的纠正和补充。分子进化中性论虽然很好地解释了分子多样性的起源,但未能解释表现型的适应进化。中性论所涉及的只是生物大分子一级结构单元的替换,并不能包含和解释分子进化的全部。二、系统发育树重建分析步骤多序列比对(自动比对,手工校正)确定替换模型建立进化树进化树评估2.1多序列比对序列多重比对的结果反映了序列之间的相似性,为系统发育树的构建提供了有价值的信息。为提高模型估算的精确性,不仅需要选择合适的比对方法和参数,还需要对后续比对结果进行合理修正,从中提取有意义的数据集用于系统发育树的构建。一个典型的比对过程包括:Â首先应用CLUSTALW程序,然后进行手工比对,昀后提交给一个建树程序。这个过程有如下特征选项:Â(1)部分依赖于计算机(也就是说,需要手工调整);Â(2)需要一个先验的系统发育标准(即需要一个前导树);Â(3)使用先验评估方法和动态评估方法(推荐)对比对参数进行评估;Â(4)对基本结构(序列)进行比对(对于亲水氨基酸,推荐引入部分二级结构特征);Â(5)应用非统计数学优化。V这些特征选项的取舍依赖于系统发育分析方法。2.1多序列比对2.2确定替换模型替代模型既影响比对,也影响建树;因此需要采用递归方法。碱基取代速率模型Â一般而言,生物化学性质相近的碱基之间的取代频率较高;在DNA中,四种置换(A-G,G-A,C-T,T-C)的频率比八种颠换(A-C,A-T,C-G,G-T,以及前四种的反向取代)的频率要高;这些偏向会影响两个序列之间的预计的分歧。Â各个残基之间的相对取代速率一般由方阵形式列出;对于碱基而言,行数和列数都是4,对于氨基酸而言,行数和列数都是20;对于密码子而言,行数和列数都是61(除去了终止密码子)。2.2确定替换模型位点内速率差异模型Â一个序列中各个不同位点之间取代速率的差异也会对建立进化树的结果产生很深远的影响(Swoffordetal.,1996a);关于位点之间的速率差异(或者叫做位点异质性),有一个昀明显的例子,就是在一个编码序列中,三联体编码的位点差异:在三联体编码中,第三个编码位点比另外两个位点更加容易发育变化;正是出于这个原因,许多系统发育分析方