生物多样性2014,22(1):3–20Doi:10.3724/SP.J.1003.2014.13170BiodiversityScience——————————————————收稿日期:2013-07-22;接受日期:2014-01-06基金项目:国家自然科学基金国际(地区)合作交流项目(31061160184)和面上项目(31270268)∗通讯作者Authorforcorrespondence.E-mail:zhiduan@ibcas.ac.cn生命之树及其应用鲁丽敏1,2孙苗1,2张景博1,2李洪雷1,2林立1,2杨拓1,2陈闽1,2陈之端1*1(中国科学院植物研究所系统与进化植物学国家重点实验室,北京100093)2(中国科学院大学,北京100049)摘要:生命之树的概念由达尔文在1859年提出,用以反映分类群的亲缘关系和进化历史。近30年来,随着建树性状种类的多样化、数据量的快速增长以及建树方法的不断发展和完善,生命之树的规模越来越大,可信度也越来越高。分子生物学、生态学、基因组学、生物信息学及计算机科学等的快速发展,使得生命之树成为开展学科间交叉研究的桥梁,其用途日益广泛。本文综述了生命之树研究的历史和现状,介绍了生命之树在以下几个方面的应用:(1)通过构建不同尺度的生命之树,理解生物类群间的系统发育关系;(2)通过时间估算和地理分布区重建,推测现存生物的起源和地理分布格局及其成因;(3)基于时间树,结合生态、环境因子及关键创新性状,探讨生物的多样化进程和成因;(4)揭示生物多样性的来源和格局,预测生物多样性动态变化,并提出相应的保护策略。昀后,本文评估了生命之树在目前海量数据情况下遇到的序列比对困难、基因树冲突、“流浪类群”干扰等建树难题,并指出了构建“超大树”的发展趋势。关键词:生命之树,系统发育,基因树冲突,生物地理,生物多样性,系统发育多样性TreeoflifeanditsapplicationsLiminLu1,2,MiaoSun1,2,JingboZhang1,2,HongleiLi1,2,LiLin1,2,TuoYang1,2,MinChen1,2,ZhiduanChen1*1StateKeyLaboratoryofSystematicandEvolutionaryBotany,InstituteofBotany,ChineseAcademyofSciences,Beijing1000932GraduateUniversityoftheChineseAcademyofSciences,Beijing100049Abstract:Theterm“TreeofLife”wasfirstusedbyCharlesDarwinin1859asametaphorfordescribingphylogeneticrelationshipsamongorganisms.Overthepastthreedecades,therecognizedtreeoflifehasim-provedconsiderablyinoverallsizeandreliabilityduetoanincreaseindiversityofcharacterresources,adramaticgrowthinuseabledata,andthedevelopmentoftree-reconstructionmethods.Asabridgeconnectingphylogeny,evolutionandrelateddisciplines,suchasmolecularbiology,ecology,genomics,bioinformaticsandcomputerscience,thetreeoflifeisincreasinglywidelyused.Inthispaper,wereviewthehistoryandprogressoftreeoflifestudiesandfocusonitsapplicationinthefollowingfields:(1)thereconstructionofphylogenetictreesatdifferenttaxonomichierarchiestounderstandphylogeneticrelationshipsamongtaxa;(2)investigationoftheoriginsoftaxaandbiogeographicpatternsbasedondatingestimationandbio-geographicreconstruction;(3)examinationofspecies’diversificationanditscausesbyintegratingdatedtrees,ecologicalfactors,environmentalvariationandkeyinnovations;(4)thestudyoftheoriginandpatternsofbiodiversity,predatingbiodiversitydynamics,anddevelopmentofconservationstrategies.Finally,weevaluatethedifficultiesfrommatrixalignment,genetreeincongruenceand“roguetaxa”distractionintreereconstructionduetomassiveincreasesofuseabledataandinthecontextconsider“supertree”buildinginthefuture.Keywords:treeoflife,phylogeny,genetreeincongruence,biogeography,biodiversity,phylogeneticdiver-sity4生物多样性BiodiversityScience第22卷1生命之树简介1.1生命之树概念的提出和发展历史生命之树(TreeofLife,简称TOL)也称系统发育树(PhylogeneticTree),是指地球上的生命经历了38亿年的演化,每一种生命形式都有其来源,物种之间的关联及其进化历史就像是一棵树,从单细胞的微生物到复杂的动物和植物,每个物种都可以在这棵树上找到其昀近缘物种和昀近共同祖先,或在根部,或在主干,或在某一个枝杈上。生命之树展现的是所有现存的以及绝灭的生物类群间的亲缘关系,可以帮助我们理解生命的起源、各大门类生物的起源及其亲缘关系、生物进化的形式、现存生物多样性的存在方式和动态变化以及何种生物正处于灭绝的边缘。尽管早在公元前600年的中国和公元前300年的古希腊,人类就开始对生物进行分门别类,且林奈在250年前就已尝试按照某些形态性状把生物排列起来(Linnaeus,1753),但建立在生物进化论基础上的生命之树概念则是由Darwin(1859)在其著作《物种起源》中首次明确提出的。生物进化论打破了“神创论”的束缚,认为物种不是上帝创造的,也不是固定不变的,地球上的所有生命形式都是由其共同祖先逐渐进化而来的。如果所有的生命昀终都可以追溯到同一个“根”上,那么就不难想象整个生命世界就像一棵“树”,每个物种都可以根据其昀近的祖先找到它在这棵树上的位置。生命之树是《物种起源》中唯一的一幅插图,达尔文结合该图对“物种”、“共同祖先”、“起源”、“竞争”、“自然选择”等概念进行了形象的阐述。昀后他总结道:枝桠上生长出新芽,如果新芽足够健壮,就会再分生出其他枝条遮盖四周较弱枝条,巨大的“生命之树”随着时间不断进化出新的物种,其中有的绝灭了,有的存留至今。既然生命之树的概念在150年前就已经提出了,那么为何在昀近的几十年才受到极大的关注?这和系统与进化生物学的发展历史有关。在达尔文及其后很长的时期内,人们一直利用形态性状来研究生物的分类、系统关系和进化过程,并且从昀初利用单个形态性状发展到后来采用多种性状进行研究。为了使分类学工作更为客观,在20世纪50年代,以Michener和Sokal为代表的学者提出了表征学(phenetics)或数量分类学(numericaltaxonomy)的概念(Michener&Sokal,1957;Wileyetal.,1991;Doo-little&Bapteste,2007),这些学者因此被称为表征学派。该学派采用数值方法对所研究类群的形态性状进行统计,再借助统计学方法(如聚类分析)对这些数值进行客观的分析,从而得出被研究类群之间的关系。这一方法为分类学提出了一个相对客观的理论框架,但在性状的选择和描述过程中,依旧无法避免主观因素的影响。更为重要的是,该方法过分强调形态性状的相似性,不能对性状在物种间的演化进行有效的分析(DeQueiroz&Gauthier,1992)。基于Dobzhansky(1937)的思想,Hennig(1950)建立了分支分类学(Cladistics),Hennig及其追随者被称为分支学派。该学派强调研究类群的单系性(monophyly)和性状的同源性(homology),对性状进行祖征(plesiomorphy)和衍征(apomorphy)的区分,旨在重建一个单系类群的系统发育关系(也称谱系关系,phylogeneticrelationship),并通过分支图(cladogram)对类群关系进行展示(Richter&Meier,1994;Doolittle&Bapteste,2007)。区别于数量分类学,分支分类学依赖实证法并严格遵循演化准则重建研究类群之间的关系,而非根据形态相似性进行分门别类(DeQueiroz&Gauthier,1992)。可见,具有演化思想的分支分类学为构建达尔文提出的生命之树提供了有效的研究手段。20世纪60年代,随着Sanger的蛋白质测序技术的成熟,人们开始利用蛋白质序列差异来构建生物类群的系统发育关系,如,通过凝血纤维蛋白肽(blood-clottingfibrinopeptides)的氨基酸序列差异构建了脊椎动物的系统发育关系(转引自Doolittle,1999),利用线粒体细胞色素C蛋白研究了动物及真菌的系统发育关系(Fitch&Margoliash,1967)。1977年,Woese和Fox(1977)开创性地采用16S小亚基核糖体RNA的碱基序列构建了包括动物、植物和微生物的生命之树(UniversalTreeofLife)。通过这棵树他们发现了古细菌域(Archaea),并提出了对地球生命世界的三域划分,即真细菌、古细菌、真核生物。与蛋白质和RNA序列相比,DNA序列具有更多的变异信息位点,可以应用到更广泛的类群中。而后随着DNA测序和计算机技术的更新和发展,重建生命之树的各种算法和软件不断涌现。在用于构建生命之树的分子数据选择上,已经历了从单个第1期鲁丽敏等:生命之树及其应用5DNA片段、多DNA片段、质体或线粒体基因组到核基因组的发展。与形态性状相比,分子性状的变异在大尺度上(如界、门、纲、目、科)的同源性更易于区别,根据所研究的分类阶元的不同来选择相应的具有不同进化速率的分子片段,为准确构建包括更大范围类群的生命之树提供了可能,这使得生物分类、系统和进化领域进行大规模或大尺度的研究成为现实(Hillisetal.,1994)。目前,测序成本大幅度降低,序列数据海量增加。据统计,在GenBank数据库中,存储了上亿条DNA或蛋白序列,且这些序列每2–3年就会翻倍(Bensonetal.,2011)。因此,生命之树重建和基于生命之树而开展的研究正呈现出以下发展趋势:(1)大量的物种取样和更多的基因或DNA片段取样,并开始利用核基因组数据来构建大尺度的系统发育树(Bininda-Emonds,2004;Cracraft&Donoghue,200