进化基因组学研究进展刘超(山东大学生命科学学院济南250100)摘要:进化基因组学是利用基因组数据研究差异基因功能、生物系统演化、从基因在水平探索生物进化的学科。随着近年来基因组数据的不断增加,进化基因组学得到了长足的发展。进化基因组学主要包括从基因组水平理解和诠释生物进化和新基因分析研究探索两方面的内容。本文介绍了进化基因组学研究的主要内容和较为常用的方法,以及近年来在细菌、酵母、果蝇进化基因组学方面的研究进展。关键词:进化基因组学系统进化比较基因组学新基因前言随着基因测序技术的不断进步以及基因组学的飞速的发展,人们积累了大量的基因组学数据,利用所得的大量的基因组数据与进化生物学相结合,在基因组水平研究生物进化机制,随即产生了进化基因组学(EvolutionalGenomics)。近年来进化基因组学取得了长足的进展,在研究差异基因功能、生物系统演化、从基因在水平探索生物进化的终极方式等方面有重大突破,对人类理解生命现象和过程有重要作用。1进化基因组学研究内容研究系统进化学通常包括两个关键步骤:一方面,在不同物种中鉴定同源性特佂,另一方面利用构建系统进化树的方法比较这些特征,进而重新构建这些物种的进化历史[1]。针对这两个关键步骤,传统系统进化学,常采用基于形态学数据和单个基因研究的同源性状鉴定和重建系统进化树(常包括距离法、最大简约法、概率法)[1]的方法来研究。在目前拥有丰富基因组数据的条件下,我们可以分析基因组数据,利用进化基因组学研究系统进化。目前进化基因组学的研究内容主要集中于两个方面:(1)在比较不同生物的基因数据的基础上,从基因组水平理解和诠释生物进化;(2)通过对新基因的分析研究探索基因进化过程的规律两个方面[2](如图1)。在进行全基因组进化分析方面,进化基因组学主要集中于构建系统进化树、研究基因组进化策略、研究生物功能变化和进化机制、进化和生态功能基因组学[2]、基因注释的等方面;在新基因方面主要分析基因产生机制和新基因固定及其动力学研究。图1进化基因组学主要研究内容目前进化基因组学的研究有力的解决了一些基础性的进化问题,但也出现了一些未来需要急需解决的挑战。例如生物进化的本质和目前重建系统进化树方法的限制[1]。2研究进化基因组学的方法研究进化基因组学的方法主要包括利用基因组数据分析和研究新基因的产生和演化两种。2.1利用基因组数据进行系统进化分析利用基因组数据进行系统进化分析,常有基于基因序列的方法和基于全基因特征的方法。(如图2)图2利用基因组数据进行系统进化分析[1]基于基因序列的方法需要利用ClustalW等工具将直向同源基因对齐并进行多样基因序列的校直,并对直向同源基因明显校直位点进行分析(如利用Gblocks)。一旦这个关键步骤实现,能够从不同基因(经常是不同长度或包含不同的物种集合)的校直中利用两种不同的方法继续进行系统进化的推测:一是超矩阵法,倾向于分析成串的个体基因;另一个是超树分析,倾向于从个体基因的分析中结合所得的最优化的进化树。基于全基因特征的方法是通过对全基因组进行分析并预测系统进化树,如分析基因含量、基因序列等。2.2进化基因组学与比较基因组学进化基因组学中对于基因组数据的分析主要利用了比较基因组学的方法。比较基因组学(comparativegenomics)是在基因组图谱和测序的基础上,利用某个基因组研究获得的信息推测其他原核生物、真核生物类群中的基因数目、位置、功能、表达机制和物种进化的学科[4]。在基因组间进行比较可以了解不同基因组在核苷酸组成、同线性关系和基因顺序方面的异同,进而可以得到基因分析预测与定位、生物系统发生进化关系等方面的信息。当在两种以上的基因组间进行序列比较时,实质上就得到了序列在系统发生树中的进化关系[4]。基因组信息的增多使得在基因组水平上研究分子进化、基因功能成为可能。2.3新基因的产生与演化新基因指在基因组中新近形成的基因,在研究基因组中基因最初产生的分子机制和基因在群体中扩散并最终固定下来的群体动力学过程有重要意义[5]。新基因产生的机制主要:基因重复(fgeneduplication)、外显子重(exonshuffling)、逆转座(retrotransposition)、可移动元件(mobileelements)、基因水平转移(fgenelateraltransfer)和基因分裂与融合(genefissionandfusion)等[5]。对于新基因在群体中的固定,目前研究的一些模型在一定程度上了描述了中性选择、正选择在进化过程中的作用。Walsh和Ohta认为中性选择与正选择两者都会在新基因形成过程中起作用,特别在一个大群体中,选择将大大增加形成新基因的概率[5]。但对于新基因产生中的实际群体动力学仍不得而知。2.3.1利用生物信息学鉴定新基因随着生物信息学的快速发展,产生了大量可利用的基因组信息和分析软件,充分这些数据和工具在鉴定新基因有重要作用。目前克隆新基因的主要方法基于有EST的电子克隆和定位克隆[6]。其中电子克隆技术是加速基因克隆的一条有效途径。电子克隆或称cDNA文库筛选,主要采用生物信息学方法延伸EST序列,获得基因的部分乃至全长cDNA序列。定位候选克隆策略是利用细胞生物学、分子遗传学以及人类基因组计研究的最新结果,分离鉴定染色体特定位置上功能基因的方法。目前充分利用整个基因组数库,EST数据库等资源可以进行网上克隆,进而分析和鉴定新基因。3进化基因组学研究进展截止2008年,全球已有将近730种物种的完全基因组被测定(82种真核生物,597种细菌和51种古细菌),而且超过2759个基因组计划提上议程。[7]这些基因组数据为进化基因组的发展提供了大量的材料,近年来进化基因组学取得了飞速的发展。3.1细菌进化基因组学细菌在三域生物界中独占一域,在了解生命起源、系统进化等方面有重要意义。另外其基因组小,已知数据充足的特点,使细菌在进化基因组学方面的研究提供了可能。通过对细菌进化基因组的研究,对于研究细菌生境适应、毒力进化、耐药性产生蔓延等方面有重要意义。宾文,金齐[8]通过对痢疾志贺氏菌亚群(Shigelladysenteriae)的比较基因组学研究对其进行了进化分析。他们制备了包含有大肠杆菌K12MG1655株全基因组ORFs、痢疾志贺菌(S.dysenteriae)A1型Sd51197株特异性ORFs的DNA芯片,并其他12型痢疾志贺氏菌代表株杂交,较深入地对痢疾志贺氏菌亚群内各型间进行了比较以及进化基因组学分析。通过分析他们构建了痢疾志贺氏菌的系统进化树,证明志贺氏菌在起源和进化关系上与大肠杆菌关系密切。痢疾志贺氏菌亚群在漫长的进化过程中,通过基因水平转移,其基因组正经历着种内平行进化过程。外源基因的获得以及基因的不断缺失导致痢疾志贺氏菌亚群内的剧烈分化,推动了其基因组的进化,如Ⅱ型蛋白分泌系统的演变。一些在肠道中生存必需的基因在没有生存压力的选择下逐渐退化,如鞭毛相关基因。在进化过程中,痢疾志贺氏菌不仅获得了质粒上的毒力相关基因,而且还通过缺失丢掉了某些基因,在染色体上形成不可逆转的“黑洞”,从而增强毒力。痢疾志贺氏菌亚群在进化过程中的多样性还反映在很多方面,如如铁离子转运系统的差别。通过对多种细菌的进化基因组学研究发现,基因水平转移和基因缺失是细菌基因组进化的主要策略;基因组片段的倒位、重复、移位可造成基因组大小、所载荷基因的排列和功能及相互关系的变化[9]。正是采用前述多种进化策略,细菌具有高度的生物多样性,不同细菌间在代谢特征、细胞构造、生活方式等表型特征上分化明显,即便在亲缘关系很近的细菌种类甚至同种不同生态型间也是如此,分别适应于不同的生态位宿主和自然环境。3.2酵母进化基因组学酵母是真核生物中研究进化基因组学的一个理想的材料,因为它的基因组小而且简单,并且酵母中包含了较多的物种,在进化基因组的研究中有广泛的利用。BernardDujon,DavidSherman[10]等人利用半子囊菌(Hemiascomycelaceae)中四种酵母进行了进化基因组学的研究,包括光滑假丝酵母(Candidaglabrata)、(Kluyveromyceslactis)、解脂耶氏酵母(Yarrowialipolytica)、汉氏德巴利氏酵母(Debaryomyceshansenii)。他们首先得到这四种酵母的全基因组数据,通过对四种酵母全基因组序列的比较、利用CAAT-Box系统进行基因组注释、非编码RNA基因比较、对蛋白质进行家族归类、对重复区域和同线性簇进行鉴定、鉴定串联阵列等方法对酵母的进化基因组学进行了研究。通过研究,他们得到了四种酵母和酿酒酵母的进化树(如图3)。由于拥有较大的基因组和较高的基因冗余,解脂耶氏酵母表现出较强的定位扩散的趋势,这种扩散在多种水平上得以体现,例如几乎没有重复区域,拥有较高数量的共生同源基因、tRNA基因和rDNA位点。相反其他种的酵母拥有严格限定大小的基因组,其很可能与他们能够有序的进行基因复制的能力有关,从而出现了基因组中重复区域和串联重复基因,这种趋势在汉氏德巴利氏酵母中尤为明显。另外其他三种酵母在进化中也取得了新的特征,如三倍的盒式MAT、短的着丝粒。与拥有最短最小冗余基因组的乳酸克鲁维酵母相比,酿酒酵母、光滑假丝酵母仍然保留从他们共同祖先中继承来的性状。酵母基因相对与光滑假丝酵母丢失了部分重复基因。尽管在五种酵母的基因组中有显著的组织性区别,但是所有的结果都符合他们的系统进化树。图35种酵母的系统进化树[10]通过对几种酵母的进化分析,我们可知虽然他们在形态学和生物学方面相似,但是它们包含了一个和整个脊索动物门一样大的进化范围[10]。与这个广泛的进化范围相比,现在完整的或部分测序的酵母的数目仍然受到限制。总之,酵母仍是一个有效的实验系统。3.3果蝇进化基因组学在过去的一个世纪中,果蝇在动物发育和遗传学基础性研究中逐渐成为模式生物。在过去的10年中,果蝇的基因组逐渐测序完毕,为进化基因组学提供了良好的材料,果蝇在其他方面广泛的研究也更容易将进化基因组学结果与发育、遗传等方面结合。在进化基因组学的研究特别是新基因的发现方面,果蝇研究取得巨大的成就。从1993年龙漫远等人[11]在果蝇中发现了第一个新基因—精卫基因(jingwei),其后又有多个新基因在果蝇中被发现。AlexanderStark,MichaelF.Lin[12]等人通过对12种果蝇基因组测序结果比较,进行进化基因组学研究,分析了果蝇的基因和基因组的进化和它们与果蝇生物学特点和适应性的关联。他们通过12种果蝇基因组测序、预测基因模型、进行基因同源性分析、基因校直比较、PAML参数分析等方法来进行果蝇的进化基因组学分析。通过分析得到了12种果蝇的进化树(如图4)。图412种果蝇的系统进化树[12]通过对12种果蝇进化基因组学分析,我们对果蝇在基因结构进化、转座子进化、ncRNA基因家族进化、特殊家系基因、蛋白编码基因进化、非编码序列进化、顺式调控DNA进化等方面有了充分的了解。小结进化基因组学利用基因组数据,在探究物种进化机制,发现新的功能基因,统一生物发育、遗传、进化等方面有重要意义。虽然进化基因组学在生物进化本质、系统进化可靠性、新基因固定动力学等方面仍存很多问题和困难,进化基因组学未来的发展方向也存在多样性,但随着基因组数据的不断丰富、新基因不断的发现,进化基因组学一定会在探索生物进化机制、促使人们更深入理解生命现象等方面发挥巨大的作用。参考文献:[1]FrédéricDelsuc,HennerBrinkmann,Phylogenomicsandthereconstructionofthetreeoflife,Genomics,362-375(2005);[2]王文,宿兵,进化基因组学简介.科学中国人,50-51(2004);[3]杨坤,进化基因组学.生物学通报,60-61(2006);[4]宋雪梅,李宏滨,杜立新,比较基因组学及其应用.生命的化学,425-427(2006);[5]李昕,杨爽,王