单分子测序PacBio技术和应用解决方案

榕木根
1 ℃
2020-01-04

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

单分子测序PacBio技术和应用解决方案一、技术原理SMRT：singlemolecularrealtimeSequencingPacBioRS，RS表示RealtimeSequencing关键之一：DNA聚合酶基本原理：DNA聚合酶和模板结合，4色荧光标记4种碱基，经过Watson配对后不同的碱基加入，会发出不同光，根据光的波长与峰值可判断进入的碱基类型。和其他基本测序技术一样，在反应管中进行的是大规模平行的多分子反应，怎样在其中进行单分子反应检测？周围有大量的荧光标记的游离碱基，怎样将反应信号与周围游离碱基的强大荧光背景区别出来？通过一个物理现象解释：ZMW（zero-modewaveguides，零模波导孔）。例如微波炉壁上可看到有很多密集的小孔。小孔直径有考究，如果直径大于微波波长，能量就会穿透面板泄露。如果孔径小于波长，能量不会辐射外部，起保护作用。在一个反应管（SMRTCell：单分子实时反应孔）中有许多这样的圆形纳米小孔，即ZMW（零模波导孔），外径100多纳米，比检测激光波长小（数百纳米），激光从底部打上去后不能穿透小孔进入上方溶液区，能量被限制在一个小范围（体积20X10-21L）里，正好足够覆盖需要检测的部分，使得信号仅来自这个小反应区域，孔外过多游离核苷酸单体依然留在黑暗中，将背景降到最低。单个ZMW底部固定有一个结合了模板DNA的聚合酶，当加入测序反应试剂后，每个碱基配对合成后会发出相应的光并被检测。一个SMRTCell中有15万个ZMW，每个孔中有一个单分子DNA链在高速合成，如众星闪烁。原始检测数据的结果，每合成一个碱基即显示为一个脉冲峰，每分钟100个碱基的速度，配上高分辨率的光学检测系统，就能实时检进行检测。关键点之二：荧光标记位点。这是影响测序长度的非常关键的因素。二代测序都标记在5‘端甲基上，在合成过程中，荧光标记物保留在DNA链上，随DNA链的延伸会产生三维空间阻力导致DNA链延长到一定程度后会出现错读。这是NGS的测序读长仅能达到100多bp到200bp的一个原因。PacBio平台的碱基荧光标记在3‘端磷酸键。在DNA合成过程中正确的碱基进入时，在3’端磷酸键的标记是会随磷酸键断裂自动被打断，标记物被弃去，亦即合成的DNA链不带荧光标记，和天然的DNA链合成产物一致，可以达到很长的读长。关键点之三：时空段概念合成过程中，每次进入一个碱基，原始数据会实时地产生一个脉冲峰，每两个相邻的脉冲峰之间有一定的距离，也就是有一个时间段的概念。距离与模板上碱基是否存在修饰有关，如果有碱基修饰，就像开车经过路障时，通过速度会减慢，导致两个相邻峰之间距离加大。根据这个距离的变化，可以判断模板相应位点是否出现碱基修饰，并且结果是实时的。甲基化就是一种主要的碱基修饰，PacBio技术不仅可以提供序列信息，还可提供实时信息了解模板修饰的情况，用于甲基化等碱基修饰研究。二、测序流程和策略配件：SMRTcellchip（小拇指指甲盖大小）。一条strip可以放8个SMRTcell，仪器一次可运行2条strip，共16个SMRTcell文库构建试剂盒，测序试剂盒流程和策略1.文库制备材料：全基因组DNA，或者cDNA，或者目标扩增产物片段化：全基因组太大需要片段化，因为测序读长很长，可以做很大的片段文库（3-10kb）连接：先把片段粘末端变成平端，两端分别连接环状单链：单链两端分别与双链正负链连接上，得到一个类似哑铃（“套马环”）的结构，称为SMRTBell。连接半小时内完成。（问题：片段化用什么方法？两端的环状单链是同一序列吗？如何确定单链方向？如果两端一样，如何分辨正负链？如何排除其他连接产物？连接效率有多高？如何纯化去掉酶？）关于以上文库制备问题跟NGS类似，比如用片段化仪进行片段化，加接头等等。通过优化的实验protocol进行各步骤的优化。如此，文库制备完成，简单快速。无需扩增。没有扩增偏向性，高或低GC含量区域覆盖均匀，尤其不会湮没稀有突变。2引物退火+聚合酶结合当引物与模板的单链环部位退火后，这个双链部位就可以结合到已固定在ZWM底部的聚合酶上（问题：大分子DNA进入小孔的扩散速度？是否会存在有的ZMW没有模板进入的情况？SMRTCell中样本和测序反应体系的配置都是在测序仪中程序化自动完成的，简单快捷，标准化。会，目前的通量基于目前的进入效率，因此这方面还有提高的空间）。3.测序策略万事俱备，一旦向反应中加入正常的离子，DNA聚合反应开始了。模板双链打开成环形，先合成正链，单链区，跟着合成负链。聚合酶每合成一圈，对于定向目标序列，就相当于2x覆盖度。由于合成产物和天然产物一致，聚合酶可以持续合成很长很长的产物，亦即循环合成很多圈（重复多次），对于定向单分子目标序列来说就可以得到很高的覆盖度，即获得很多subread，这就意味着可以对非常低的频率的片段获得很高的准确度，这称为环形一致序列（circleconsensus）模式，该模式适用于稀有突变及需要高精确度的测序。这也是单分子测序能比NGS灵敏度更高地，高准确度地检测到稀有突变的原理。除了特有的环形一致序列（circleconsensus）模式外，也可以通过增加同一序列的覆盖度（在不同ZMW中）获取高的一致性准确度。单分子覆盖度和获取序列一致性准确度的关系QV10代表90%准确度，20代表99%准确度，30代表99.9%准确度，40代表99.99%准确度，50代表99.999%准确度。由图可见，5个单分子叠加可以得到99%准确度，10个单分子叠加可以得到99.9%准确度，15个单分子叠加可以得到99.99%，20个单分子叠加可以得到5个9的准确度。。。类推。而对于因此可以看出，利用环形一致序列模式这个策略，对同一单分子就可以得到非常非常高的准确度。三、Q&A1.关于准确度差的说法如何解释？回答补充于此：单分子测序1ｘ覆盖度的精确度为87.5％，这是由于在测序过程中单个分子信号弱，偶尔会出现信号难于分辨的情况。出错几率是随机的，和序列长度、序列组成无关。要提高准确率，只需要提高循环次数，提高单分子覆盖度即可，15个单分子叠加可以得到99.99％的精确度。（问题：是否就是相当于200bp长度目标序列，15个循环？用PCR扩增结果测序是否能通过提高重复拷贝数而提高覆盖度，从而同时达到长片段和高度精确的目的？是，可以通过提高重复拷贝数或对同一单分子环形测序两种方式，或二者结合，达到要求的覆盖度及准确度。）一代和二代测序的每一个反应，本来就是N个分子同时叠加反应所得到的平均信号。如果需要很长的读取，策略是构建3kb-10kb的文库，就可以获得长的读长，这就是continuouslongread模式。这种模式，很长的读长适合做全基因组序列组装骨架。读长分布图。平均读长3.1kb，top5%读长大于8kb，最长读长14.7kb。（问题：按照每分钟100bp速度，平均30分钟内完成测序，最长需要2个多小时？如何平衡时间？读最长的酶有何不同？为何能读这么长？是序列变化，还是构象变化，还是固定的问题？目前有标准的protocol，长片段测序推荐为90min，实时上酶反应速度非常快，100bp，读长主要跟酶的活性保持有关，主要受激光对它的损伤的影响，当然其它如序列本身，构象也会有一定影响。厂家还在不断优化聚合酶的性能，比如给聚合酶加上免受激光影响的保护基团等，进一步地提高读长，提高测序质量和通量）。四、技术应用一种新技术的应用，通常倚借其技术特长的优势。PacBio单分子测序的技术特征超长的读长——denovo测序中完整基因组的组装；Target测序中多个突变位点的单倍体型检测，复杂的多个重复片段的准确测定，长转录本及可变剪切体测定等等超高测序准确度及单分子分辨率——特定序列的SNP检测，稀有突变及其频率测定动态信息——可获得甲基化等多种碱基修饰信息1.超长的读长二代测序的短处在于读长太短。就像拼图游戏，越碎的碎片就越难拼接。虽然提供海量的数据，但是依然不足以完成全基因组拼接。去年在Nature上发表的一篇综述文章指出，二代测序读长太短是其技术的内有问题（fundamentaldataproperties），数学模式所不能解决的。算法已经很成熟，算法再好，也不足以解决这个问题。PacBio的超长读长，可实现以相对较低的覆盖度达到很好的序列组装。有助于产生较少的重叠群，帮助全基因组组装。还可以获得复杂的DNA重组信息，比如由于断裂造成的融合基因的Breakpoint，cDNA里包含的剪切，内外显子间的关系，都需要很长的读长帮助组装跨越的区域。因此，对于全基因组denovo测序来说，更适宜用组合的方法，将第三代和第二代测序方式结合。冷泉港去年宣布研发一个软件，能将PacBio结果和二代测序结果结合。举例：美国能源部对一个微生物进行测序，用二代测序最好的结果可以组装得到58个重叠群contig.，而用PacBio可以直接得到一个contig，一步完成全基因组组装。转录本剪切变异体：可检测出一个基因的13个剪切变异体，原因在于读长大，跨度大。美国农业部对羊体内微生物进行测序。用二代测序没能组装起全基因组，最少也有18个contig。用PacBio，用6K长度21x覆盖度，可以组装成单个contig。这说明长序列测序确实可以帮助组装。另外一个重要问题，GC%对测序覆盖度的影响：对于二代测序技术，GC含量高的地方覆盖度低，即使再提高全基因组覆盖度，但富含GC的区域覆盖度还是难以提高，无法填补。这就造成用二代测序很难完成一些物种的全基因组测序的原因，或者有的全基因组测序结果存在不少洞的原因。单分子测序平台很适合困难基因组的测序，比如GC含量很高，AT含量很高，多碱基串联重复（如CGG重复），普通测序技术很难获得结果。这个平台对这类很难测序的区域都能平稳的测序。单分子测序结果显示这种技术覆盖度不随GC含量变化而变化，曲线平稳。均一的覆盖度对全基因组测序的完成非常重要。举例，全长cDNA测序结果。5’端转录本开始，4号外显子，5号外显子，3‘UTR，polyA区。polyA区域100多个A的测序峰非常清晰。然后到套马环区，然后到PolyT区。。。能测长PolyA对研究RNA的代谢有重要意义，RNA的半衰期和PolyA长度有关，对其稳定性很有意义。中心粒测序：中心粒的一段序列有很高重复，用Sanger和二代测序都很难得到结果，用PacBio能够完成。脆性X综合症的大量重复的CGG序列都可以测序。2.动态信息——可获得甲基化等修饰信息的例子PacBio提供实时的测序，一能提供测序结果，即碱基的排列组合，二是可以提供基因修饰的信息（PacBio技术对甲基化的检测可参考NatureMethod发表的一篇文章）——其原理在于，当聚合酶合成每一个碱基，都有一个时间段，两个相邻的脉冲峰之间的距离和参考序列的距离可以算一个比值，称为IPD。当模板碱基带有修饰时，聚合酶会慢下来，就像行车过程中遇到路障。两个相邻的脉冲峰之间的距离就会延长。当看到某个碱基IPD比例明显大于1时，就可以推断这个位置有修饰。德国致命性大肠杆菌爆发事件由于食物污染了致命性大肠杆菌而导致数千人出现了肠出血性急性腹泻，导致50人死亡。3个研究小组分别对该事件中的爆发性大肠杆菌进行测序，来分析其基因型。德国小组采用二代测序，2个样本，参照序列比对测序，聚类分析结果得出是EHEC亚型。PacBio与哈佛大学合作，对2711爆发株进行的denovo测序组装。证实是EAEC亚型，结果发表在同一期的新英格兰杂志。测序结果也发现基因组出现了一个外源嗜菌体带入的一段基因，上面有志贺毒素基因。PacBio小组邀请NewEnglandBiolabs公司协助对该大肠杆菌株测序结果进行甲基化方面的生物信息学分析。结果表明该基因组上确实有很多甲基化出现（约45000个）。通过排除法，发现爆发株里有CTGCAGmotif特有的甲基化，还发现插入的外源序列中还有一段序列类似甲基化酶，可专门对CTGCAG的序列进行甲基化。对CTGCAG甲基化