我国基因测序技术研究报告1三代测序技术简介从1977年第一代DNA测序技术(Sanger法),发展至今三十多年时间,测序技术已取得了相当大的发展,从第一代到第三代乃至第四代,测序读长从长到短,再从短到长。虽然就当前形势看来第二代短读长测序技术在全球测序市场上仍然占有着绝对的优势位置,但第三和第四代测序技术也已在这一两年的时间中快速发展着。测序技术的每一次变革,也都对基因组研究,疾病医疗研究,药物研发,育种等领域产生巨大的推动作用。1.1第一代测序技术第一代DNA测序技术用的是1975年由Sanger和Coulso开创的链终止法或者是1976-1977年由Maxam和Gilbert发明的化学法(链降解)。并在1977年,桑格测定了第一个基因组序列,是噬菌体X174的,全长5375个碱基。自此,人类获得了窥探生命遗传差异本质的能力,并以此为开端步入基因组学时代。研究人员在Sanger法的多年实践之中不断对其进行改进。在2001年,完成的首个人类基因组图谱就是以改进了的Sanger法为其测序基础。在测序技术起步发展的这一时期中,除了Sanger法之外还出现了一些其他的测序技术,如焦磷酸测序法(Roche公司454技术),连接酶测序法(ABI公司SOLID技术),但他们的共同核心手段都是利用了Sanger中的可中断DNA合成反应的ddNTP。1.2第二代测序技术第一代测序技术的主要特点是测序读长可达1000bp,准确性高达99.999%,但其测序成本高,通量低等方面的缺点,严重影响了其真正大规模的应用。经过不断的技术开发和改进,以Roche公司的454技术、illumina公司的Solexa,Hiseq技术和ABI公司的Solid技术为代表的第二代测序技术诞生了。第二代测序技术大大降低了测序成本的同时,还大幅提高了测序速度,并且保持了高准确性,但在序列读长方面比起第一代测序技术则要短很多。简要介绍下三个技术平台的测序原理。1.2.1Illumine技术平台Illumina公司的Solexa和Hiseq是目前全球使用量最大的第二代测序机器,这两个系列的技术核心原理是相同的,都是边合成边测序的方法,测序过程主要分为4步:(1)DNA待测文库构建利用超声波把待测的DNA样本打断成200-500bp长的序列片段,并在这些小片段的两端添加上不同的接头,构建出单链DNA文库。(2)FlowcellFlowcell是用于吸附流动DNA片段的槽道,当文库建好后,这些文库中的DNA在通过flowcell的时候会随机附着在flowcell表面的channel上。每个Flowcell有8个channel,每个channel的表面都附有很多接头,这些接头能和建库过程中加在DNA片段两端的接头相互配对,并能支持DNA在其表面进行桥式PCR的扩增。(3)桥式PCR扩增与变性桥式PCR以Flowcell表面所固定的接头为模板,进行桥形扩增,如图4.a所示。经过不断的扩增和变性循环,最终每个DNA片段都将在各自的位置上集中成束,每一个束都含有单个DNA模板的很多分拷贝,进行这一过程的目的在于实现将碱基的信号强度放大,以达到测序所需的信号要求。(4)测序测序方法采用边合成边测序的方法。向反应体系中同时添加DNA聚合酶、接头引物和带有碱基特异荧光标记的4中dNTP(如同Sanger测序法)。这些dNTP的3’-OH被化学方法所保护,因而每次只能添加一个dNTP。在dNTP被添加到合成链上后,所有未使用的游离dNTP和DNA聚合酶会被洗脱掉。接着,再加入激发荧光所需的缓冲液,用激光激发荧光信号,并有光学设备完成荧光信号的记录,最后利用计算机分析将光学信号转化为测序碱基。这样荧光信号记录完成后,再加入化学试剂淬灭荧光信号并去除dNTP3’-OH保护基团,以便能进行下一轮的测序反应。1.2.2Roche454技术平台Roche454测序系统是第一个商业化运营二代测序技术的平台。它的主要测序原理是:(1)DNA文库制备454测序系统的文件构建是利用喷雾法将待测DNA打断成300-800bp长的小片段,并在片段两端加上不同的接头,或将待测DNA变性后用杂交引物进行PCR扩增,连接载体,构建单链DNA文库。(2)EmulsionPCR(乳液PCR)454当然DNA扩增过程也和illumina的截然不同,它将这些单链DNA结合在水油包被的直径约28um的磁珠上,并在其上面孵育、退火。(3)焦磷酸测序测序前需要先用一种聚合酶和单链结合蛋白处理带有DNA的磁珠,接着将磁珠放在一种PTP平板上。将一种比PTP板上小孔直径更小的磁珠放入小孔中,启动测序反应。测序反应以磁珠上大量扩增出的单链DNA为模板,每次反应加入一种dNTP进行合成反应。如果dNTP能与待测序列配对,则会在合成后释放焦磷酸基团。释放的焦磷酸基团会与反应体系中的ATP硫酸化学酶反应生成ATP。生成的ATP和荧光素酶共同氧化使测序反应中的荧光素分子并发出荧光,同时由PTP板另一侧的CCD照相机记录,最后通过计算机进行光信号处理而获得最终的测序结果。1.2.3Solid技术平台Solid测序技术是ABI公司于2007年开始投入用于商业测序应用的仪器。它基于连接酶法,即利用DNA连接酶在连接过程之中测序。它的原理是:(1)DNA文库构建片段打断并在片段两端加上测序接头,连接载体,构建单链DNA文库。(2)EmulsionPCRSolid的PCR过程也和454的方法类似,同样采用小水滴emulsionPCR,但这些微珠比起454系统来说则要小得多,只有1um。在扩增的同时对扩增产物的3’端进行修饰,这是为下一步的测序过程作的准备。3’修饰的微珠会被沉积在一块玻片上。在微珠上样的过程中,沉积小室将每张玻片分成1个、4个或8个测序区域。(3)连接酶测序这一步是Solid测序的独特之处。它并没有采用以前测序时所常用的DNA聚合酶,而是采用了连接酶。Solid连接反应的底物是8碱基单链荧光探针混合物,这里将其简单表示为:3’-XXnnnzzz-5’。该技术的读长在2×50bp,后续序列拼接同样比较复杂。由于双次检测,这一技术的原始测序准确性高达99.94%,而15x覆盖率时的准确性更是达到了99.999%,应该说是目前第二代测序技术中准确性最高的了。但在荧光解码阶段,鉴于其是双碱基确定一个荧光信号,因而一旦发生错误就容易产生连锁的解码错误。1.3第三代测序技术测序技术在近年来又有新的里程碑。以PacBio公司的SMRT和OxfordNanoporeTechnologies纳米孔单分子测序技术,被称之为第三代测序技术。与前两代相比,他们最大的特点就是单分子测序,测序过程无需进行PCR扩增。1.3.1PacBioSMRT技术平台PacBioSMRT技术其实也应用了边合成边测序的思想,并以SMRT芯片为测序载体。SMRT技术的测序速度很快,每秒约10个dNTP。但是,同时其测序错误率比较高(这几乎是目前单分子测序技术的通病),达到15%,但好在它的出错是随机的,并不会像第二代测序技术那样存在测序错误的偏向,因而可以通过多次测序来进行有效的纠错。1.3.2OxfordNanoporeTechnologies纳米孔单分子测序技术OxfordNanoporeTechnologies公司所开发的纳米单分子测序技术与以往的测序技术皆不同,它是基于电信号而不是光信号的测序技术。该技术的关键之一是,他们设计了一种特殊的纳米孔。该公司在去年基因组生物学技术进展年会(AGBT)上推出第一款商业化的纳米孔测序仪,引起了科学界的极大关注。纳米孔测序(和其他第三代测序技术)有望解决目前测序平台的不足,纳米孔测序的主要特点是:读长很长,大约在几十kb,甚至100kb;错误率目前介于1%至4%,且是随机错误,而不是聚集在读取的两端;数据可实时读取;通量很高(30x人类基因组有望在一天内完成);起始DNA在测序过程中不被破坏;以及样品制备简单又便宜。理论上,它也能直接测序RNA。1.3.3其他测序技术目前还有一种基于半导体芯片的新一代革命性测序技术--IonTorrent。该技术使用了一种布满小孔的高密度半导体芯片。这一技术的发明人同时也是454测序技术的发明人之一--JonathanRothberg,它的文库和样本制备跟454技术很像,甚至可以说就是454的翻版,只是测序过程中不是通过检测焦磷酸荧光显色,而是通过检测H+信号的变化来获得序列碱基信息。IonTorrent相比于其他测序技术来说,不需要昂贵的物理成像等设备,因此,成本相对来说会低,体积也会比较小,同时操作也要更为简单,速度也相当快速,除了2天文库制作时间,整个上机测序可在2-3.5小时内完成,不过整个芯片的通量并不高,目前是10G左右,但非常适合小基因组和外显子验证的测序。表1测序技术的比较公司平台名称测序方法检测方法读取长度优点相对局限性第一代ABI/生命技术公司3130xL-3730xL桑格-毛细管电泳测序法荧光/光学600-1000高读长,准确度一次性达标率高,能很好处理重复序列和多聚序列通量低;样品制备成本高,使之难以做大量的平行测序贝克曼GeXP遗传分析系统桑格-毛细管电泳测序法荧光/光学600-1000高读长,准确度一次性达标率高,能很好处理重复序列和多聚序列;易小型化通量低;单个样品的制备成本相对较高第二代Roche/454基因组测序仪FLX系统焦磷酸测序法光学230-400在第二代中最高读长;比第一代的测序通量大样品制备较难;难于处理重复和同种碱基多聚区域;试剂冲洗带来错误累积;仪器昂贵IlluminaHiSeq2000,2500/MiSeq可逆链终止物和合成测序法荧光/光学2x150很高测序通量仪器昂贵;用于数据删节和分析的费用很高ABI/Solid5500xlSolid系统连接测序法荧光/光学25-35很高测序通量;在广为接受的几种第二代平台中,所要拼接出人类基因组的试剂成本最低测序运行时间长;读长短,造成成本高,数据分析困难和基因组拼接困难;仪器昂贵赫利克斯Heliscope单分子合成测序法荧光/光学25-30高通量;在第二代中属于单分子性质的测序技术读长短,推高了测序成本,降低了基因组拼接的质量;仪器非常昂贵第三代太平洋生物科学公司PacBioRS实时单分子DNA测序荧光/光学~1000高平均读长,比第一代的测序时间降低;不需要扩增;最长单个读长接近3000碱基并不能高效地将DNA聚合酶加到测序阵列中;准确性一次性达标的机会低(81-83%);DNA聚合酶在阵列中降解;总体上每个碱基测序成本高(仪器昂贵);全基因组学公司GeXP遗传分析系统复合探针锚杂交和连接技术荧光/光学10在第三代中通量最高;在所有测序技术中,用于拼接一个人基因组的试剂成本最低;每个测序步骤独立,使错误的累积变得最低低读长;模板制备妨碍长重复序列区域测序;样品制备费事;尚无商业化供应的仪器IonTorrent/生命技术公司个人基因组测序仪(PGM)合成测序法离子敏感场效应100-200对核酸碱基的掺入可直接测定;在自然条件下进行DNA合成(不需要使用修饰过的碱基)一步步的洗脱过程可导致错误累积;阅读高重复和同种多聚序列时有潜在困难;牛津纳米孔公司gridION纳米孔外切酶测序电流尚未定量有潜力达到高读长;可以成本生产纳米孔;无需荧光标记或光学手段切断的核苷酸可能被读错方向;难于生产出带多重平行孔的装置2基因测序的应用基因测序在生物医学、农业、畜牧业、祖先起源、法医取证、生物能源、药学等领域均有广泛应用。在医学方面,基因测序在检测遗传病、基因突变、各种慢性病症,以及针对某种疾病的特定基因测试中有广泛的应用。在农业方面,2013年,Monsanto公司和SyntheticGenomicsInc公司合作,运用基因组学技术,改善了农作物的产量并且防止了疾病造成的经济损失。基因组学还可以应用于探索人类祖先的起源并通过个性化的DNA分析追踪个人的血统来源。根据华大基因的相关规划,我国基因测序未来的产业化发展重点