第八届全国会员代表大会暨第十五次学术研讨会论文集196下一代测序技术的应用及展望何彪,涂长春(军事医学科学院军事兽医研究所,吉林省人兽共患病预防与控制重点实验室,吉林长春,130122)摘要下一代测序技术以其通量高、总体成本低、信息产出高等突出优点于2005年出现后,迅速应用于各个生命科学研究的各个领域,如denovo测序、RNA测序、表观遗传学、宏基因组学等。随着人们对测序的要求不断提高,新型测序技术越来越多,在短短的几年里已由原来的第二代测序发展到以单分子测序为代表的第三代测序技术,并且新的测序原理还在开发,如纳米孔测序、扫描电镜测序等,各自展现出独特的魅力。本综述介绍了下一代测序技术的测序原理、发展概况、各自优劣及应用情况,并对高通量测序分布格局、我国高通量测序的发展做了简要的讨论。关键词下一代测序;高通量;单分子测序基因测序技术的出现极大地推动了生命科学领域的发展。1977年,英国生物化学家Sanger因发明的双脱氧终止DNA测序法而获得1980年诺贝尔化学奖,且在过去的30年里,这种测序方法获得了无数的成果,帮助人们完成了小到病毒基因组,大到人类基因图谱的绘制工作。然而,随着人类基因组计划的完成,人们的研究已延伸到全基因组和转录组水平,愈发感觉到传统的Sanger测序法无法满足技术的要求,尤其是其速度慢、成本高和通量低成为应用的瓶颈。进而,人们需要自动化程度高、并行性强(通量高)、成本低、工厂化式的测序技术。2005年,原来的454公司便推出了里程碑式的测序革新技术,这种技术采用乳液PCR(emulsionPCR)和焦磷酸测序法原理,其初始版本一次运行便轻易地获得50倍ABI3730测序仪的数据量,且其成本仅为ABI3730测序的1/6,因其数据产出是常规测序方法无法比拟的,因此也被称为高通量测序(High-throughputsequencing)。在随后的几年里,以Roche454、IlluminaSolexa、ABISOLiD为代表的二代测序技术(SecondGenerationSequencing,SGS)呈现出“你追我赶、瓜分全球”的势头,并且在“后基因组时代”的从头(denovo)测序、全基因组测序、外显子测序、目标区域测序、宏基因组测序、转录组测序、表达谱测序、小RNA测序、表观遗传研究等方面展现出五彩的特色和无穷的魅力。但是,第二代测序技术在测序之前都有一个PCR扩增的建库过程,这就可能引入外源的碱基突变,并且PCR过程的非均一性,也会改变原始核酸的比例结构,加之二代测序技术普遍读长较短,无关信息较多,后续生物信息分析复杂繁重,而Helicos的单分子DNA测序(Single-MolecularDNAsequencing)、PacBio的实时DNA测序(Real-timeDNASequencing)和OxfordNanopore的单分子纳米孔DNA测序(Single-moleculeNanoporeDNASequencing)则很好地解决了这些问题,因此这些新型的测序法区别于第二代测序技术称之为第三代测序技术(ThirdGenerationSequencing,TGS)。而二、三代测序技术一般统称为下一代测序(Next-GenerationSequencing,NGS)。本文简要阐述各代表性下一代测序技术的原理及应用,客观地比较了各测序技术的优劣,并分析了全球测序技术的分布格局,探讨了我国测序技术开发滞后的原因。1第二代测序技术第二代测序技术自2005年由454公司首次推出后,在几年内便迅速地应用在生命科学领域,其典型特点是:(1)通量高,一次运行可以产生上G的数据量;(2)价格便宜,相对于获得的海量的数据其价格比Sanger测序法低很多;(3)测序周期较短,在短短的几天甚至是几小时内便产出数据;(4)挖掘的信息多,因其采用了多通道测序,能反应丰富的物种信息,加之愈发丰富的各种数据库,能直接反应出代谢情况及信号通路等。第二代测序技术出现之初,并没有引起多大的轰动,主要是当时的测序技术相对于传统的Sanger测序法来说,尽管在数据量和成本上占有优势,但仅为100bp的读长(reads)太短,在生物信息分析上不占有优势。然而,其发展速度给人们带来了信心,16个月后,读长便达到了250bp,到目前为止,Roche454测序的读长更是达到了1000bp以上,足以与Sanger测序法相媲美。由于其突出的优势,也使得第二代测序市场迅速打开,各种第二代测序技术相继开发出来。其中全球测序业务中更是被三大巨头所垄断:Roche的454GSFLX,Illumina的Solexasequencer和ABI的SOLiD系统。1.1罗氏454454测序现已归罗氏公司所有,其核心技术在于乳液PCR(emulsionPCR)和并行焦磷酸测序法(ParallelizedPyrosequencing)。为了昀大可能地实现无偏扩增,在测序之初,该技术将DNA分子连文献综述197接到含有大量引物的微小磁珠上,这种磁珠在被乳液包围的微量水滴中进行扩增进而建成文库,然后将磁珠再固定到含有数百万个微孔的PTP板上,在DNA聚合酶的作用下,四种dNTP按顺序聚合到模板上,并同时释放出焦磷酸分子(PPi),PPi在ATP硫酸化酶的作用下同过硫酸铵生成新的ATP分子,然后在荧光素酶的作用下,ATP将荧光素激发出荧光,被CCD相机捕获后得以识别。到目前为止,罗氏公司已推出了适合中小型实验室的GSJunior系统和通量更高、读长更长的GSFLXTitanium+系统,前者易于操作,读长400bp,一次运行产生70000个扩增子(Amplicons),其准确度达到Q20,运行时间能在10小时内完成;后者更适用于全基因组测序、转录组测序、目标序列捕获以及宏基因组测序,其读长能达到1000bp,一次运行能产生700000个扩增子,准确度达到了Q30,运行时间则延长到了23小时。1.2IlluminaSolexaSolexa测序的出现较454晚,目前已被Illumina公司收购。这种测序技术需将DNA分子打碎到200bp以下,然后两端加上接头,再连接到固相Flowcell表面的单一泳道(lane)上形成桥(Bridge),通过桥式PCR(BridgePCR)将片段化的短DNA分子扩增成为单克隆DNA簇(DNAclusters),在特殊的DNA聚合酶作用下,将四种携带不同荧光的可逆性终止核苷酸(ReversibleTerminatorNucleotides)匹配到DNA簇中,这种核苷酸的3´羟基带有可切割的阻抑部分,保证每个循环只允许加入一个碱基,当一轮反应完成后,洗掉多余的碱基,掺入的碱基根据特异的荧光被识别,然后阻抑部分被切割,进而进行下一轮反应,直到序列信息完全读出,这种将DNA簇通过可逆性终止核苷酸和边合成边测序(SequencingBySynthesis,SBS)便成为了Solexa测序的核心技术。目前Illumina涵盖了低、中、高不同层次的测序产品,2011年底新推出的MiSeq以其性价比高、操作界面友好、数据产出易于分析等特点迅速打入全球市场,这款测序仪升级后读长能达到400bp,质量高达Q30,数据产出7G,运行时间23小时内,加上其配置的Nextera文库制备试剂盒,可以在90分钟内完成建库工作;GenomeAnalyzerIIx被称为是全球应用昀广,产出昀多的测序仪,这个平台采用双末端(Paired-End)测序法可有效测出200bp到500bp的片段,在14天内可以产出高达95G的数据,并且准确度能达到Q20以上,适合于基因组的denovo测序、转录组测序、基因重测序、数字化基因表达谱、宏基因组测序和小RNA测序;HiSeq系列产品已升级到了HiSeq2500,其突出的优点是极高的通量,一次运行可输出600G的数据,堪称“工厂化测序”的代表,因此可以用于任何高通量测序,运行时间也延长到了11天,但读长较短约为180bp,并且准确度也较Roche454差。1.3ABISOLiDABI公司研发的SOLiD(SequencingbyOligonucleotideLigationandDetection)测序技术可简单概括为连接测序法(SequencingbyLigation),目前已随着ABI公司属于LifeTechnology公司的产品。该技术同样采用了乳液PCR法构建文库,每个小磁珠上的DNA片段经扩增形成文库,将磁珠沉积共价连接到SOLiD玻片上,采用双碱基编码技术(Two-baseEncoding),即每相邻两个位点的对应碱基共同使用一个荧光信号,顺序往后延伸,如此一来,每个位点被重复地扫描两次,显著提高了准确率。目前ABI公司已推出了5500系列基因分析系统,其每天能昀多产出20G的数据量,且准确率高达Q20以上,但片段较短一般在50-100bp之间。然而从当前应用来看ABISOLiD没有Roche454和IlluminaSolexa测序应用范围广泛,主要原因是没有明显的优势,其读长不及Solexa,更比不上454,数据产出也远无法和Solexa较劲。1.4IonTorrentIonTorrent研发的半导体测序,其读取序列信息的方式为检测离子流而不是鉴别荧光,因此被称为介于第二代和第三代之间的一种测序技术,目前已属于LifeTechnology公司所有。这项技术核心部件是一个高密度的微孔芯片,DNA分子固定在芯片上后,在DNA聚合酶作用下,单核苷酸配对到模板上,同时释放出氢离子,然后通过检测氢离子而读取DNA序列信息,因其不使用标记的核苷酸和CCD相机,所以其机器和测序成本都更低了。目前IonTorrentPGM系列已出到了318系列,尽管其读长只有100bp左右,但通量达到1G,运行时间也缩短到3小时,且成本每Mb仅为0.63美元。2第三代测序技术第二代测序技术尚如日中天,人们在研究中便发现其内在缺点,那就是读长无法满足需要,并且第八届全国会员代表大会暨第十五次学术研讨会论文集198测序前建库需要PCR过程,会影响原始核酸比例结构,另外,由于读取序列和碱基反应的异步性(Asynchronocity)使得昀后数据噪音太大,加重了后续的生物信息分析的负担,于是科学家研发了更新的测序技术。2008年,美国Harris等发明了一种单分子测序技术(Single-MoleculeSequencing,SMS),并成功对M13病毒的基因组进行了重测序,因此也拉开了以单分子测序为标志第三代测序(theThirdGenerationSequencing,TGS)帷幕。第三代测序技术昀大的优点在于,不需要经PCR建库的过程,直接对样品中的DNA分子进行测序,因此能真实地反映样品中DNA分子比例情况;并且独特的测序机理使得读长有很大的改进,目前更是突破了1000bp;测序速度的提高使得整个运行时间逐渐缩短;准确度高,能很好地进行SNP检测,及各种突变体的筛查;上样标准低,没有对上机总量的要求,因此也更易于处理样品;成本更低,使得100美元测一个人的全基因组成为可能。目前,引领第三代测序的主要有通过检测标记荧光获得序列信息的Helicos的HeliScope遗传分析系统和PacBio的SMRT技术,以及OxfordNanopore公司的纳米孔测序技术(Nanopore)等。2.1单分子测序2008年,Helicos公司的Harris等采取新的单分子DNA测序技术成功重测了M13病毒的基因组。他们依然采用了SBS技术,首先在DNA分子3´端加上poly(A)后,直接以单链的形式结合在特制的玻璃表面,形成单分子阵列(Array),然后依次加入标记不同荧光的核苷酸,在DNA聚合酶的作用下,核苷酸配对到相应的模板上,再激发出荧光,被机器采集后进而读出序列。这种测序方法同Solexa和454比较类似,但它突破了建库扩增的限制。尽管其初始读长只有23bp,但其成本却远低于第二代测序。2009年,他们团队中的Ozsolak等进行原理验证(Proof-o