DNA条形码技术研究进展摘要:DNA条形码(DNAbarcoding)是近几年国际生物学研究的重点,即通过使用短标准核酸片段,对物种进行快速、准确的识别和鉴定。该技术在动物研究中采用线粒体COI基因中650bp片段,在植物中条形码主要在叶绿体基因组上进行选择,此外还有核基因ITS等。虽然DNA条形码研究还处于起步阶段,面临巨大的挑战,但是越来越多的研究表明DNA条形码可以广泛应用于生物的分类和鉴定,是一种简便、高效、准确的物种鉴定技术。本文简略的概述了DNA条形码的主要研究方法,开发应用以及面对的困难和争议,并展望该技术在生命科学领域的发展前景。关键词:DNA条形码,物种鉴定,分类引言科学准确的鉴别区分物种是进一步开展深入研究的和利用的前提和基础。自瑞典植物学分类家CarolusLinnaeus建立双名法命名体系以来,虽然已经鉴定出大约一百七十万种生物,但是地球生物种类繁多,已鉴定分类的物种斤占生物总数约15%,人类仍然没有认识鉴定的物种占大多数,尤其是深海,原始丛林中的物种。传统生物分类法主要依据形态学特征,比较解剖学等,在形态特征显著的脊椎动物,高等植物,昆虫等生物类群中应用效果较好,对形态差异较小的微小生物则差强人意,此外许多生物的形态容易受环境及生理时期影响,会导致分类产生误差。自上世纪五十年代DNA双螺旋结构提出以来,人类对遗传物质的认识与日俱增,特别是PCR技术、测序技术和生物信息学技术的飞速发展,推动了利用DNA蕴藏的信息对系统发育学的快速发展,并应用至生物分类学研究。条形码技术是现代零售业发展的需求而产生的,在零售业的商品管理与销售中发挥了无法替代的关键作用。生物分类学家从中得到启示,DNA分子一级结构上的线性核苷酸序列可以建立类似的生物条形码,应用于快速鉴别生物。基于此,加拿大Guelph大学教授Hebert等(2003a)首次提出DNA条形码(DNAbarcoding)概念:利用足够变异且容易扩增的相对相对较短的标准DNA片段,在种内的特异性和种间的多样性中建立的一种新的生物身份识别系统从而实现对物种进行快速、准确的识别和鉴定。1.DNA条形码的筛选开发1.1DNA条形码标准理想的DNA条形码应该符合以下几个标准:(1)序列变异水平适宜,可以将不同各种区分开来,同时种内变异较小。(2)变异区域两端序列高度保守,可以设计众多物种稳定扩增的通用引物。(3)扩增序列尽量短,便于DNA提取和一个反应可以完成测序,尤其是对存在DNA降解的材料(如:腊叶标本,民间药材)。细胞核内基因含量丰富,但其变化速率较低,过于保守。而线粒体基因组插入删除很少,基于长度差异的考虑,900bp最适合现有技术要求与条件,线粒体13个蛋白编码基因中仅有COI、Cytb(细胞色素b)、ND4、ND5满足上述条件。ND4、ND5进化太快,不能设计通用引物。COI和Cytb都拥有适合的长度和慢的进化速率。Hebert等最终选定了COI,因为COI在能够保证足够变异的同时容易被通用引物扩增,自身DNA序列很少存在缺失和插入,COI的序列变化上又比Cytb慢,拥有系统发育信号多,所以适合解析亲缘关系密切的分类类群。同时,它还拥有蛋白编码基因所共有的特征,即密码子第3位碱基不受自然选择压力的影响,可以自由变异。依据每百年2%的进化速率,一个有100万年生殖隔离历史的物种类群,650bp的DNA序列约有12个特征信号位点可用于识别。即使在亲缘关系很近的类群中,大多数物种的进化历史都超过100万年,所以COI基因650bp的DNA片段足够分析绝大多数的动物物种。据此,已有研究表明COI基因是许多鱼类、昆虫和鸟类等动物分类与鉴别的理想DNA条码。对于植物而言线粒体COI基因进化速率慢,遗传分化小,不宜用作条形码。因此植物中最可能的条形码是从叶绿体基因组中选择的。虽然叶绿体基因组相对保守,但仍然包含许多变异区域,同时叶绿体基因组相对保守有其自身优势:单亲遗传避免基因重组;植物中均有大量叶绿体,即使DNA高度降解也容易扩增。生物条形码联盟(CBOL)最初建议的植物条形码均为叶绿体片段:matK,ropC1,ropB,accD,nhdJ和YCF5。但因为后三个片段在一些主要植物类群中有缺失,如YCF5在苔藓类植物中缺失,accD在禾本科植物中缺失,而ndhJ在松属植物中缺失,因此它们在第二阶段的更新中已被排除。此外核基因组的核糖体DNAITS片段广泛分布于可以进行光合作用的真核生物(除蕨类植物外)和真菌中,是系统学研究中最常用的片段之一,在GenBank中也积累了大量的数据,但仍有下列原因导致ITS在一些类群中不适合作植物条形码:(1)其长度变异大,多数物种扩增片段长度超过1100bp,需要使用中间引物才能扩增获得整个基因;(2)存在长的poly-G、poly-C和poly-A,导致测序和序列分析困难;(3)核基因本身存在多拷贝的特性,在种内序列变异较大,进一步降低了该片段作为条形码的应用性。1.2DNA条形码的开发程序DNA条形码开发包括如下几个基本过程:(1)材料的采集和DNA提取。样品要具有代表性,覆盖尽可能多的地理群体;(2)设计与合成扩增引物。引物要具有通用性和特异性,在目标类群中容易扩增,条带单一,并且产物大小适宜,一般不要超过700bp;(3)PCR扩增。引物筛选,优化反应条件;(4)直接进行DNA测序或链接载体克隆后测序;(5)序列加工。根据测序峰图比对序列,进行必要的人工校正,去掉载体和不可靠的核苷酸;(6)序列分析。采用MEGA或PAUP等软件计算比较不同分类阶元上的遗传距离,构建Neigh-bour-joiningtree(NJ树)等分支图,数据很多时进行多元尺度分析,更直观的用图展示鉴定效果;(7)提交结果。目前BOLD是仅有动物条形码数据库,提交该数据库的内容主要包括;(1)所需材料的物种名称;(2)标本的目录号与馆藏号等信息;(3)采集人、采集日期、纬度与海拔高度GPS定位参数等标本采集信息;(4)至少500bp的DNA条形码序列;(5)标本鉴定人;(6)PCR扩增引物;(7)测序的原始峰图。如果还提供标本的照片以及标本采集生境的描述等信息则更好。2.DNA条形码的应用2.1DNA条形码的优点生物的代表性表型特征具有一定的可塑性,而且许多生物的形态特征有一定的生长发育阶段性,仅仅依据形态特征进行传统物种分类时可能出错,而且,形态学方法无法鉴定隐存种。不仅如此,分类学家识别能力有限,能准确鉴定超过1000种生物的分类学家凤毛麟角,而传统分类学很难得到项目资助的现实使从事分类学研究的学者愈来愈少,大大制约了分类学和相关学科的发展。与传统的形态学分类相比,DNA条形码能够更准确快捷地鉴定物种,具有明显的优点:(1)准确性高。每种生物DNA序列具有特异性和稳定性,不会出现传统分类时因趋同或者环境影响而产生的表型差异引起的物种鉴定错误;(2)区别和鉴定物种十分快捷,鉴定效率高,非分类学家也可以很快掌握;(3)样品要求低。条形码分析提取DNA的样品有0.1g甚至更少就足够了,而且无组织和器官的特异性和完整性要求,甚至毛发、粪便、尿液都可以用于准确鉴定,许多死亡后的组织也符合要求;(4)不受个体发育阶段影响。所有生物同一个体的DNA组成在不同生长发育阶段是否存在显著形态学差异都是相同的,条形码序列不会发生变化;(5)能有效鉴定传统形态学分类难以区分的个体很小或者形态相似的生物,例如微生物、珊瑚等共生和寄生生物;(6)发现、鉴定新种与隐存种,建立完善生物的演化关系。有些不同类群的生物由于生境等相似而出现趋同进化,呈现相似的外表形态特征,大大影响了基于形态特征的传统分类的可靠性;(7)为系统发生树的构建提供丰富的可靠“树叶”;(8)可以分析动物肠道包含物和排泄物,揭示生物之间的食物链关系;(9)通过建立数据库,实现数据的不断补充完善和信息化管理。各个物种的数据明确充分,检索鉴定方便、准确,可实现快速大批量鉴定,并不断补充完善数据库,推动生物分类学持续深入地发展。2.2DNA条形码的应用DNA条形码最主要和最根本的目的是进行生物分类,快速准确的鉴定单个物种,可以更加可靠的发现隐形种,在动植物和微生物等各类生物中正得到越来越广泛的应用。在此基础上,DNA条形码进一步应用于与生物鉴定分类相关的生态学,保护生物学等学科领域。DNA条形码分类高效简便,能够可靠评估物种的多样性和遗传多样性,开展生态学以及生物地理学研究。DNA条形码能够区分近缘种,使生物多样性分析更加细致全面。通过分析DNA条形码的种内和种间多态性与遗传距离等可以准确揭示生物遗传的多样性。在保护生物学中,DNA条形码可以正确评价濒危物种的多样性,为其科学保护和种群恢复提供可靠依据。同时,应用DNA条形码进行生物食谱分析,可以了解生态系统中的食物链关系,促进珍稀生物保护。此外,DNA条形码还应用于监督动植物产品的非法交易,提升海关等政府部门对珍惜物种的有效监控和保护;在食品安全领域,实现食品的快速检测和鉴别;在生物安全领域科学准确鉴定外来物种,尤其是难以用形态学分类的卵和幼虫的鉴定等。3.DNA条形码研究面临的挑战自提出DNA条形码概念以来,众多学者持积极乐观态度并且取得了丰硕的成果,但也有人持怀疑和反对的态度。一方面担心DNA条形码会削弱或者取代以形态学为基础的传统分类方法,另一方面由于DNA条形码自身的不足以及目前研究还存在的一些问题。3.1DNA条形码的通用性理想的DNA条形码是找到某一DNA序列可以鉴别地球上一切物种。然而,核基因和细胞器基因、编码区和非编码区等不同的DNA区段的进化速率或是在不同生物中的同一区段DNA序列的进化速率常常存在显著差异,目前研究这一设想难以实现。即便是DNA条形码研究较成功的动物,单单运用COI也不能实现对已经研究明确的动物进行完全鉴定,尤其是在研究多样性程度较高的热带地区物种时存在局限性。相对较落后的植物类群条形码研究,Rubinoff等认为很难找到适宜用做DNA条形码的单一基因片段。采用rbbcL和matK基因等多组合条形码也仍然难以完全鉴别高等植物。3.2DNA条形码的局限性许多分类分类学家怀疑单个基因序列进行物种鉴定的可靠性,完全依靠遗传分化会导致错误的鉴别。他们认为,相对基因组而言如此短的DNA条形码不能在物种水平上提供可靠信息。有效的DNA条形码需要满足两个前提条件:(1)种内遗传差异显著小于种间差异,二者间存在条形码间隙;(2)研究对象在物种系统发生上彼此互为单系群。当DNA条形码分析的样品数量足够大时,种内遗传组成差异可能随地理种群数量增加而显著提高,而种间遗传差异则降低,种内最大遗传距离和种间最小遗传距离可能重叠交叉,条形码间隙消失,可能得出错误的结论。有研究显示确实存在种内分化过高和种间分化不足现象。目前的DNA条形码主要为线粒体和叶绿体基因,而二者均为单亲遗传,鉴定存在杂交的生物类群时明显有缺陷。许多生物类群存在不完全支系演化与杂交等基因渗入现象,DNA条形码鉴定难以区分。新近形成的物种,其分子间差异不一定达到显著区分的程度,而且分子进化速率的差异可能导致二次突变也会影响分析的结果,近缘和近期分化的物种是否能用该方法验证一直备受争议。3.3DNA条形码分类的鉴定阈值难以统一虽然已有的大部分研究结果显示COI等DNA条形码能够胜任分类鉴定,但是这些研究的对象都是能够采用传统分类方法清晰鉴定的代表性物种。如果使用传统形态学分类较困难的物种,DNA条形码分析很可能遇到很多问题。不同物种的变异范围可能不一致,种内和种间变异范围模糊,很难界定区分种内和种间差异的标准;其它各分类阶元上不同生物类群判断标准同样也难以确定。目前,很多研究取材时取材的种群数量很少,每个种群仅仅分析1—2个个体,必然导致种内变异的低估;或者没有分析姊妹类群,高估了种间差异,这可能虚高了DNA条形码的有效性和准确率。4.前景展望虽然争议仍然存在,但是在动植物和微生物中已经取得了越来越多的DNA条形码研究成果,显著的推动了生物分类学的发展。近几年国内外对DNA条