第二代测序技术(Next-GenerationSequencing)NGS之基础篇2001年,美、英、法、德、日、中六国合作,历时十年,耗资数十亿美元的人类基因组计划(HumanGenomeProject,HGP)宣告完成。转眼又是十年过去,在此期间,各国科学家仍在为解读基因的密码而不懈努力,这其中最大的突破,就是第二代测序技术的推出。HGP的顺利完成证明了我们有能力对自身的遗传信息进行研究,然而,高昂的成本、漫长的时间、巨大的人力需求,无不限制着对遗传密码的进一步认识。从HGP开始的第一天期,科学家们就在寻求更好的方法来对基因组进行研究,“鸟枪法”就是其中之一。2006年,美国X大奖基金会()设立了奖金高达1000万美元的基因组ArchonX大奖,旨在奖励第一个在10天内以低于100万美元的成本完成100个人类基因组测序的民间团队。而罗氏(Roche)、应用生物系统(AppliedBiosystems,ABI)、Illumina三家公司先后推出了各自的第二代高通量测序平台,成为NGS领域的领头羊。2005年底,454公司推出第一个基于焦磷酸测序原理的高通量基因组测序系统——GenomeSequencer20System,这是核酸测序技术发展史上里程碑式的事件。随后,罗氏公司以1.55亿美元收购了454公司,并在2006年推出了更新的GSFLX测序系统,该系统可在10小时的运行中获得100万条读长(reads),4~6亿个碱基信息(basepair),且准确率达到99%以上。2008年,GSFLX系统再次升级,通量提高了5倍,读长和准确率也有所增加。虽然454GS测序平台也许不是市场占有率最高的测序仪,但截至2011年3月,利用该系统进行研究的论文已发表超过1000余篇,而它在读长上的优势明显胜于另两套系统,因此在从头测序(denovo)和宏基因组测序(metagenome)方面有着不可替代的地位。2006年,Solexa公司也推出了自己的NGS系统——GenomeAnalyzer,简称GA。这套基于DNA簇(DNAcluster)、桥式PCR(BridgePCR)和可逆阻断(Reversibleterminator)等核心技术的系统具有高通量、低错误率、低成本、应用范围广等优点。2007年,Illumina公司以6亿美元的高价收购了Solexa,使GA得以商品化。GA最早期的版本一次运行可获得1Gb的数据,因此也有1GbAnalyzer的含义,而最新的Hiseq2000平台则能够在10天的运行中获得300Gb以上的数据,读取的碱基长度达到150bp左右。更有消息称,Illumina已完成了600Gb的运行测试并在部分客户中开展了前期体验,Tb(1000Gb)级的测试Run也将于年内进行。据不完全统计,Illumina公司已售出超过600台/套GAIIx和Hiseq2000平台,2010年仅深圳华大基因研究院一家就购买了128台Hiseq2000,一举成为全球最大的基因组测序与分析中心,Illumina公司在测序领域的影响力由此可见一斑。在Sanger测序时代,美国应用生物系统公司(ABI)一直是该行业的龙头老大,其垄断地位无人能撼,从早期的377到全自动化的3730xl,ABI的测序仪被广泛应用在基因组学研究的各个方面。然而在第二代测序技术迅猛发展之初,ABI起步较晚,显得有些漫不经心。直到2005年454公司推出GS平台,ABI的领先地位受到威胁,这才开始发力,迅速收购了研发NGS的一家小公司Agencourt,并于2007年推出了它的SOLiD测序平台。此后SOLiD不断升级,目前已到SOLiD5版本(SOLiD5500xl)。SOLiD的全称是SequencingbyOligoLigationDetection,即寡聚物连接检测测序,其基本原理是通过荧光标记的8碱基单链DNA探针与模板配对连接,发出不同的荧光信号,从而读取目标序列的碱基排列顺序。在该方法下,目标序列的所有碱基都被读取了两遍,因此SOLiD最大的优势就是它的高准确率。据悉,SOLiD5平台的测序通量已达到30Gb/天,成本低于60美元/Gb,准确率高达99.99%。并且由于SOLiD系统采用的不是PCR反应进行DNA合成与测序,因此对于高GC含量的样本,SOLiD系统具有非常大的优势。NGS之进阶篇454的焦磷酸测序原理,简单来说就是利用DNA聚合酶、ATP硫酸化酶、荧光素酶和双磷酸酶的协同作用,将PCR反应每一个碱基(dNTP)的延伸与一次荧光信号的释放偶联起来,通过记录荧光信号的有无和强度,达到实时测定DNA序列的目的。在454测序仪中,A、T、G、C四种碱基是分别存储在单独的试剂瓶中的,每步反应四种碱基依次加入反应池,当碱基配对结合,就会释放出一个焦磷酸(PPi),而这个焦磷酸在酶的作用下,将荧光素氧化成氧化荧光素,并发出光信号,从而读取出这一位置的碱基信息。454测序仪的整个实验步骤可大致概括为:样品处理、文库制备、emPCR、反应板准备、上机测序。样品处理主要是针对大片段的DNA分子,如基因组DNA、Fosmid或BAC质粒等,利用超声或氮气打断将这些DNA分子片段化,然后采用琼脂糖凝胶电泳回收或磁珠纯化,选择500-800bp的DNA片段。对于非编码RNA或PCR产物,则不需要这一步骤。文库制备包括接头连接和磁珠纯化两步,454的文库接头分A、B两种,各44bp,由20bp的PCR引物、20bp的测序引物及4bp(TCAG)的“key”碱基构成,其中B接头的5’端带有生物素(Biotin)标记,用于磁珠纯化步骤。经过磁珠结合与DNA变性之后,只有A+目的片段+B形式的连接产物得以富集,另两种形式(AA、BB)的产物都被去除。emPCR是454测序的一个关键步骤,将富集到的文库与测序磁珠、各反应物混合,加入特定的矿物油和表面活性剂,再利用振荡器剧烈振荡,使反应体系形成油包水(water-in-oil)的稳定乳浊液。在理想条件下,每一个液滴,或称微反应器(microreactor)中将只包含一个磁珠和一条单链DNA,通过控制该步骤的条件,1mL乳液中可以形成至少10的6次方个理想的微反应器。经过PCR扩增后,每一个磁珠上将形成密集的DNA簇,这些DNA序列完全相同,即可用于后续的步骤。454测序的反应板称为PTP(PicoTiterPlate),含有350万个由光纤组成的小孔,每个孔的直径为29μm,而测序磁珠的直径为20μm,因此每个孔中仅能容纳一个磁珠。将磁珠与测序试剂加入PTP中,使之可用于上机测序。测序步骤如前所述,四种碱基在泵的控制下依次加入反应板,反应完成后再洗去,每延伸一个或若干个碱基,就会发出一次光信号,通过记录信号的有无和强度,即可测定DNA序列。454测序准确度较高,当读长超过400bp时,其准确性仍能达到99%以上,主要的错误来自于同聚物,即相同碱基的连续延伸,如ATTTG这样一段序列,A和G的读取没有问题,但T只记录了一次光信号,仅信号强度与ATG序列的T有所不同,因此同聚物越长,可能产生的误差就越大。目前,由于454测序仪在读长上的明显优势,它在大基因组从头测序(denovo)、转录组分析、基因组结构分析等领域有着广泛的应用。以下图片:1.454GSFLX测序仪外观;2.3(4)种连接产物的磁珠纯化;3.PTP板与测序磁珠;4.454GS测序峰图;5.上机准备实拍图。NGS之进阶篇二:SolexaIlluminaSolexa高通量测序平台可以说是目前“测序界”应用最广泛的NGS平台,它在兼容性、操作性和成本方面有着较大的优势,第一个亚洲人基因组“炎黄一号”、第一个非洲人基因组、熊猫基因组、家蚕基因组甲基化图谱等等,都是在该平台的支持下完成的。从最初的GA到GAIIx,又更新换代为现在的Hiseq2000,Solexa测序平台的通量由1Gb/run一路提升至300Gb/run,预计在年内还将实现1Tb/run的升级,测序读长也从几十bp提高到150bp。当年的人类基因组计划用了10年时间完成了一个基因组的精细图,而现在使用Hiseq2000测序仪只需10天左右的时间,即可完成至少3个人类全基因组的测序工作,NGS测序能力的飞速发展甚至超过了IT届的摩尔定律。与454一样,Solexa测序平台所采用的也是SBS(Sequencing-by-Synthesis,边合成边测序)的方式,并且也利用光信号收集信息。有所不同的是,Solexa并没有采用间接反应(焦磷酸氧化荧光素)的形式激发光信号,而是直接在dNTP上连接荧光基团和阻断基团,通过“去阻断—延伸—激发荧光—切割荧光基团—去阻断”这样一个循环的方法来依次读取目的DNA上的碱基排列顺序。如下图所示,该原理在基础篇的Solexa宣传视频中亦有提及。由于采用了可逆阻断技术(即在dNTP上连接可剪切的阻断基团),Solexa测序的每一步只延伸一个碱基,不会出现类似于454测序的同聚物影响准确性的问题,因此其单碱基准确性较高,但随着读长的增加,荧光信号会有所衰弱,所以越“靠后”的碱基准确性会逐渐降低,这也是Solexa测序读长受限的一个主要因素。Solexa平台的应用范围极广,几乎囊括了目前基因组学研究的所有方面,例如基因组从头测序(denovo)、重测序(re-sequencing)、基因组结构分析、转录组测序、表达谱分析、小RNA及非编码RNA测序、表观遗传学研究等等。然而,应用该平台的核心过程是大致相同的,这也为它的兼容性提供了很大的便利。Solexa测序的实验流程主要包括:样品处理、文库制备、芯片准备及上级测序。根据实验目的和样品来源的不同,Solexa测序的样品处理也有所不同,基因组DNA需进行打断及片段选择,totalRNA需富集mRNA或小RNA,mRNA也要进行片段化处理,ChIP(染色质免疫共沉淀)、甲基化及PCR产物等都有各自的处理方式,需要实验人员根据情况进行选择。以基因组DNA测序为例,在获得样本后,首先需要对DNA进行检测,保证样本的浓度和完整性符合实验要求,然后使用超声或氮气打断,将这些DNA分子片段化,这步与454的样品处理类似,但不需要收集特定范围的DNA片段即可用于下一步实验。文库制备过程可分为末端修复、3’端腺苷化、接头连接、片段选择、PCR扩增以及文库纯化六个步骤。末端修复是将片段化的DNA分子在几种酶的作用下,补齐随机打断造成的黏性末端而成为平末端。3’腺苷化目的是在DNA双链的3’端加上dATP,以便于下一步的接头连接。Solexa文库制备所用的接头(adapter)是一个一端互补,另一端开叉Y字形DNA片段,互补的部分5’端有一个T,可与3’腺苷化的DNA进行T-A连接,开叉的部分则是为了通过PCR扩增引入测序引物P5和P7的互补序列。接头连接完成后,再采用采用琼脂糖凝胶电泳回收或磁珠纯化获得特定大小的片段(通常为目的片段大小+120bp),如构建200bp文库,则回收320±20bp的DNA。之后再进行PCR扩增和纯化,即得到可用与上机测序的文库。此时的文库DNA由待测序列、测序接头、引物互补序列及index标签序列(如非index文库则无),如下图所示。芯片准备与上机测序主要由机器完成,在此不做赘述,若想做进一步了解,可访问Illumina官方网站的技术支持:。同样,最后献上几张图片:1.cBot芯片制备仪与Hiseq2000测序仪;2.SolexaGAII测序芯片;3.Solexa测序光信号采集直观图;4.Solexa测序流程与原理示意图。