生物统计学小结00811078万俊男2010-6-6第1页共3页统计学在分子进化领域的应用生命科学学院00811078万俊男分子进化是一门在进几十年才快速发展起来的生物学领域。产生这样的迅猛发展,得力于PCR、DNA测序等生化技术的发展,除此之外的另一个重要原因就是数据分析的统计方法以及计算机技术的发展。分子进化研究不同于生物学其他领域的一点在于,一项系统的研究往往需要海量的数据作支持,如何从庞大的蛋白质或DNA序列中获取想要的生物学信息,这就需要统计与数据分析来为分子进化的研究打开一扇大门。我就从一篇我看过的文献来谈谈我对统计学在分子进化领域的应用的看法。ZihengYangandRasmusNielsen.200.Codon-SubstitutionModelsforDetectingMolecularAdaptationatIndividualSitesAlongSpecificLineages.MolecularBiologyandEvolution.19:908–917.在分子进化中,非同义替代与同义替代的比(ω=dN/dS)可以反映DNA是否受到达尔文正选择。如果有ω1,则可以认为该DNA的变异受到明显的正选择。但由于正选择往往只发生在几个特定的位点,正选择的作用会被其他位点的随机替换掩盖,一般都很难得到ω1的结果。这篇文章综合了以往用来分析正选择作用的分支特异模型(Branch-specificmodels)和位点特异模型(Site-specificmodels)的优缺点,建立了一种新的分支-位点模型(Branch-sitemodels)。之后通过三个具体的例子,比较了三种模型的分析结果。在新的模型中,被考察的进化支被定义为前景支(the‘‘foreground’’branches),而进化树中其他的支被定义为背景支(the‘‘background’’branches)。新模型就是希望通过扣除背景支的影响,单独考察我们所感兴趣的进化支受正选择的情况。于是,不同位点的受选择情况就被划分为了四种(见Table1):Class0代表前景支与背景支中都高度保守的位点(ω0=0或ω01),Class1代表前景支与背景支中都处于中性或受到弱选择的位点(ω1=1或ω1略小于1),Class2和Class3则分表表示背景支为ω0或ω1,而前景支受到正选择的位点(ω21)。其中,Class2和Class3在整个DNA序列中的比例,可以由Class0和Class1的比例估计。生物统计学小结00811078万俊男2010-6-6第2页共3页在此基础上,就可以对得到的若干序列进行统计分析。由某一位点替代情况的观测数据集对应的条件概率,可以推断出该位点的非条件概率,并由此得到整个DNA序列的对数似然估计值l,这个值是之后对统计模型进行比较以及检验ω与1的关系的重要参数(2Δl服从2分布,用来检验差异的显著性)。而之后就可以用贝叶斯公式计算某一位点情况的后验概率,以考察前景支那些位点是上面提到的Class2和Class3的情况,以确定具体受到正选择的位点。以上就是新的分支-位点模型的基本思想。之后,作者选取了灵长类中的溶菌酶基因,灵长类中的肿瘤抑制基因BRCA1以及被子植物中的植物色素基因家族来比较三种模型的效率。在比较模型间的是否有明显差别时,计算出两模型的2Δl,然后计算2分布的尾区概率P,看某种模型是否明显优于另一种。以Table2(最后一排的最后一个数据应该为1=3.383)中的M0的one-ratio模型与分支模型的two-ratios模型间的比较为例(H0为两模型无差异),计算得2Δl=2×2.13=4.26,查2分布表(df=1)可得P=0.0390.05,拒绝H0,因此可以下结论,认为two-ratios模型显著优于one-ratio模型。而在计算的ω1后,也不能直接下结论认为有正选择作用,而需要检验该ω是否显著大于1。用到的方法就是再建立一个ω固定为1的模型,比较我们感兴趣的模型与假设的模型是否有显著差异,与上面的检验方法相同,还是对2Δl进行2检验。以Table2中的two-ratios模型得到的1=3.383为例,计算得2Δl=2×1.33=2.66,P=0.100.05(df=1),接受H0,认为1与1无显著差异,无法认定有正选择作用的存在。可见,即使得到了ω1,也无法直接判断有正选择,而应该进行进一步的统计检验。运用以上的方法,作者比较了三个例子中,三种模型的效率。结果显示,新的分支-位点模型,能够很好的清除背景的干扰,发现正选择的存在;并可以进一步通过计算相应位点的后验概率,确定正选择的作用位点。尤其是仅有极少的位点受到强的正选择时,其它两种模型都无法检测出正选择的效应,而分支-位点模型则可以很清晰的反映出那些位点受到了强的正选择作用。因此,分支-位点模型是一种非常有效的检测正选择的模型,而实际上,该模型目前也的确在分子进化领域广泛运用。从这篇文献的例子中,我们可以看出,面对已知的数据,我们是有着多种解读的方法的,但各种方法都有着自己的优缺点,想要得到好的生物学结论,方法的选取十分重要。从中我们可以看到统计学在其中发挥的重要作用:一方面,统计学提供了数据分析的手段,基于一定理论的好的统计模型,为我们指明了发现问题的方向,使得从海量数据中发掘生物学信息生物统计学小结00811078万俊男2010-6-6第3页共3页成为可能;另一方面,统计学还提供了比较不同统计模型的方法,使得我们能够从不同的模型中,比较发现出最适用的一种,提高了统计分析的效率,确保了得到结论的可靠。相较于别的生物学领域,分子进化尤其与统计学密切相关,可以说,统计学就是分子进化的重要基础之一。但分子进化还是生物学,而非数学,也非统计学,统计学只是分子进化领域研究生物学问题的强有力的工具。正如Efron和Tibshirani谈到分子进化时所说:“统计学是一门用途极为广泛的学科,但有效的应用者却寥寥无几。对于大多数人而言,传统的通往统计学知识之路被数学这堵令人望而生畏的高墙所阻挡。我们这里走的路就是避开这堵墙。”统计学,就是让我们能过绕过数学却依然能够走在分子进化之路上的重要工具。【参考文献】YANG.Z.,andR.NIELSEN.2002.Codon-substitutionmodelsfordetectingmolecularadaptationatindividualsitesalongspecificlineages.Mol.Biol.Evol.19:908–917.[美]MasatoshiNei,SudhirKumar著;吕宝忠等译.分子进化与系统发育.北京:高等教育出版社,2002.6