基因测序技术原理及进展•基因测序满足高通量、高效率、高覆盖度(序列组成)•基因检测精准、明确的目标片段、个体差异(功能解释)测序与检测1975/19771985/19871990/2003测序技术发展时间轴测序技术的历史进程•第1代测序技术——荧光标记Sanger法•第2代测序技术——循环阵列合成测序法•第3代测序技术——单分子测序法代次第一代第二代第三代版本1.11.22.12.22.33.13.2Sanger法ABIABI/GenoMeMSCompleteGenomicsSBS合成法测序IlluminaSBL连接法测序ABI/PolonatorG.007SBP焦磷酸测序RocheSM-SBSFDHelicosFEPacificBioscience/VisiGen纳米OxfordNanopore测序技术发展路线化学裂解法双脱氧链终止法荧光自动测序法杂交测序法第1代测序技术——荧光标记Sanger法G1.1化学裂解法对待测DNA5’末端进行放射性标记利用化学试剂在原DNA链某一种或某一类碱基处进行专一性切割。设计4组相互独立的化学反应分别得到部分降解产物。通过聚丙烯酰胺凝胶电泳进行分离,放射自显影检测获取核苷酸序列。G1.2双脱氧链终止法放射性标记的4种dNTP混合底物中的一种每次将一种2′3′-双脱氧核苷酸(ddNTP)掺入到底物混合反应液中参与DNA链的合成设计4组相互独立的聚合反应分别得到不同末端终止的合成片段产物通过聚丙烯酰胺凝胶电泳进行分离,放射自显影检测获取核苷酸序列。读出模板互补序列dNTP凝胶电泳较大片段较小片段ddGTPddATPddCTPddTTP反应混合物Klenow酶未知序列的单链DNA读出待测序列CTGACTTCGACAAACAA5´3´ACTGddGddGddGddGGACTGAAGCTGTT3´5´CTGACTTCGACAA5´3´•在1985年,Smith等采用激光激发标记的荧光,并用CCD检测•20世纪80年代初Jorgenson和Lukacs提出了毛细管电泳技术•1992年美国的Mathies实验室首先提出阵列毛细管电泳(capillaryarrayelectrophoresis)新方法,并采用激光聚焦荧光扫描检测装置,25只毛细管并列电泳,每只毛细管在1.5h内可读出350bp,DNA序列分析效率可达6000bp/h。G1.3荧光自动测序技术•目前,应用最广泛的应用生物系统公司(appliedbiosystems,ABI)3730系列自动测序仪即是基于毛细管电泳和荧光标记技术的DNA测序仪,用CCD检测系统识别,并直接翻译DNA序列。310型全自动遗传分析仪其他DNA全自动分析仪:ABIPrism®3100遗传分析仪3700型全自动遗传分析仪ABI3500测序仪G1.4杂交测序技术•20世纪80年代末出现,利用DNA杂交原理,将一系列已知序列的单链寡核苷酸片段固定在基片上,把待测的DNA样品片段变性后与其杂交,根据杂交情况排列出样品的序列信息。•优点:检测速度快,检测成本低,具有部分第二代测序技术的特点。•缺点:误差较大,且不能重复测定。第一代总结•通过几十年的逐步改进,第1代测序仪的读长可以超过1000bp,原始数据的准确率可以高达99.999%,测定每千碱基序列的成本是0.5美元,每天的数据通量可以达到600,000碱基.•由于其对电泳分离技术的依赖,使其难以进一步提升分析的速度和提高并行化程度,并且难以通过微型化降低测序成本.因此,需要开发全新的技术来突破这些局限.第2代测序技术——循环阵列合成测序法•第二代测序技术都采用了大规模矩阵结构的微阵列分析技术——阵列上的DNA样本可以被同时并行分析.此外,测序是利用DNA聚合酶或连接酶以及引物对模板进行一系列的延伸,通过显微设备观察并记录连续测序循环中的光学信号实现的.第2代测序技术工作流程测序仪品牌技术原理开发商Roche454焦磷酸测序RocheIlluminaSolexa边合成边测序IlluminaABISOLiD基于磁珠的大规模并行连接测序ABI第二代测序技术的关键特点:第一,通过有序或者无序的阵列配置实现大规模的并行化,以提供高程度的信息密度;第二,不采用电泳设备易于微型化.相对于第1代测序技术,样本和试剂的消耗量得以降低.G2.1焦磷酸测序核心技术:“微乳粒PCR”——油包水结构乳粒酶化学发光反应•原理:利用微乳滴PCR(emulsionPCR,emPCR)来生成扩增产物.利用水溶液与油混合形成油包水结构乳滴进行后续PCR反应的微型化学反应.碱基测定采用边合成边测序,利用焦磷酸法产生的光学信号来进行检测.在三磷酸核苷结合到DNA链上的时候释放焦磷酸,通过ATP硫酰化酶和荧光素酶产生一系列级联反应,导致生物化学发光放出光信号.•优点:焦磷酸测序的主要优势是它的速度和读长(将近500碱基)。除了DNA聚合酶反应所需化合物,焦磷酸测序法并不需要额外的化合物用于DNA链的延长,降低了化学反应出现意外的几率。•缺点:这一技术平台主要的错误类型来自于同聚物,即相同碱基的延伸,另一个缺点是由于它依赖于包含一系列酶的焦磷酸检测,与其他二代测序技术相比,其试剂价格相对较高。ATGATTTTTGATTTTTTG焦磷酸测序BaseCallingRoche454GenomeSequencer•JonathanRothberg博士是454的创始人。•2005年底,454公司推出GenomeSequencer20System(GS20),开创了边合成边测序的先河。•2008又推出了性能更优GenomeSequencerFLXSystem(GSFLX),使读长、准确性进一步提升。核心技术:“DNA簇”—桥式PCR“可逆性末端终止子”合成法测序•原理:使用荧光标记的核苷酸以及可逆的终止子。在每一轮测序循环中,标记不同荧光基团的4种核苷酸以及DNA聚合酶同时加入流通池通道中,按照碱基互补配对的原则进行DNA链的延伸。每个核苷酸的3′羟基是被封闭起来,以防止额外的延伸。采集荧光图像,碱基特异的荧光标记揭示了这一轮中新加入核苷酸是什么,也就获得模板中这一位置的DNA序列。然后,打开3′端,继续进行下一轮反应。这一过程重复多次,到50个循环,产生50个碱基的DNA序列。~1000moleculesper~1µmcluster~1000clustersper100µmsquare~40millionclustersperexperimentPrepareDNAfragmentsLigateadaptersAttachsinglemoleculestosurfaceAmplifytoformclusters20micronsSequence5’GTCAGTCAGTCAGT3’5’CAGTCATCACCTAGCGTAFirstbaseincorporatedCycle1:AddsequencingreagentsRemoveunincorporatedbasesDetectsignalCycle2-n:Addsequencingreagentsandrepeat1、每轮测序反应加入四种带有荧光标记的dNTP,末端带有可以被去除的阻断基团2、每轮反应只能整合一个核苷酸,仪器读取相应的荧光信号3、信号读取结束,用化学方法去除阻断基团,进行下一轮测序反应123789456TTTTTTTGT…TGCTACGAT…Theidentityofeachbaseofaclusterisreadofffromsequentialimages根据每个点每轮反应读取的荧光信号序列,转换成相应的DNA序列Basecallingfromtherawdata•优点:可扩展的超高通量,需要样品量少(低至100ng),运行成本较低,性价比高。成本低廉:每测量100万个碱基对所需成本3美元;可精确读取18个的连续重复碱基如AAAAAAAAAAAAAAAAAA,TTTTTTT。•缺点:其主要的缺点是由于光信号衰减和移相的原因使得序列读长较短(荧光标记、封闭基团)。IlluminaGenomeAnalyzer•Illumina公司于2007年促成GenomeAnalyzer的商品化。•荷兰科学家利用它首次绘出女性的基因组图谱。此外第一个亚洲人图谱,第一个癌症病人图谱和第一个非洲人图谱全是依赖GenomeAnalyzer完成的。•Illumina估计占有60%左右的测序市场连接法测序核心技术:荧光标记的8核苷酸探针双碱基编码策略原理:与454情况相同也采用了微乳滴PCR与微球相结合的策略来扩增DNA模板。连接反应的底物是8碱基单链荧光探针混合物,按照碱基互补规则与单链DNA模板链配对。SOLiD利用探针的连接反应读取模板的DNA序列下图的双碱基编码矩阵规定了该编码区16种碱基对和4种探针颜色的对应关系主要步骤:•2·3·1文库准备SOLiD系统能支持两种测序模板:片段文库(fragmentlibrary)或配对末端文库(mate-pairedlibrary)。片段文库就是将基因组DNA打断,两头加上接头,制成文库。该文库适用于转录组测序、RNA定量、miRNA研究、重测序、甲基化分析及ChIP测序等。配对末端文库是将基因组DNA打断后,与中间接头连接,环化,然后用EcoP15酶切,使中间接头两端各有27bp的碱基,最后加上两端的接头,形成文库。该文库适用于全基因组测序、SNP分析、结构重排及拷贝数分析等。•2·3·2扩增SOLiD用的是与454技术类似的乳液PCR对要测序的片段进行扩增。在微反应器中加入测序模板、PCR反应元件、微珠和引物,进行乳液PCR(emulsionPCR)。PCR反应结束后,磁珠表面就固定有拷贝数目巨大的同一DNA模板的扩增产物。•2·3·3微珠与玻片连接乳液PCR完成之后,变性模板,富集带有延伸模板的微珠,微珠上的模板经过3′修饰,可以与玻片共价结合。SOLiD系统最大的优点就是每张玻片能容纳更高密度的微珠,在同一系统中轻松实现更高的通量。含有DNA模板的磁珠共价结合在SOLiD玻片表面,SOLiD测序反应就在SOLiD玻片表面进行。每个磁珠经SOLiD测序后得到一条序列。每个探针进行检测的两个碱基后面有三个匹配碱基,因此一条测序引物读取的序列是不完整的测序引物与adapter退火探针连接,检测荧光切除荧光基团第二轮探针连接,检测荧光切除荧光基团测序引物沿着Adapter移动5次,确保每个位点都被检测(二)(三)0位置是Adapter的最后一个碱基,因此只检测一次,该碱基是进行解码所必须的。•优点:SOLiD系统原始碱基数据的准确度大于99.94%,是目前新一代基因分析技术中准确度最高的。就通量而言,SOLiD3系统是革命性的,超高通量是该系统最突出的特点,目前SOLiD3单次运行可产生50GB的序列数据,相当于17倍的人类基因组覆盖度。•缺点:该技术主要的缺点是序列读长相对较短(30-35bp).这也是由于同一簇扩增产物中存在移相造成的。(3)LifeTechnologiesSOLiDSystem•2005年,在454推出了GS20焦磷酸测序平台,ABI迅速收购了一家测序公司,并在2007年底推出了SOLiD新一代测序平台。•以四色荧光标记寡核苷酸的连续连接合成为基础,取代了传统的聚合酶连接反应。测序技术454IlluminaSOLiD上市时间200520072007价格(万美元2007年)504559单次反映数据量(G)0.42050读长(bp)40050×250优势长读长低序列成本,高性价比高通量,高准确度三种第二代测序技术对比454sequencing•读取长度大,400bp•可以对未知基因组进行从头测序denovosequencing•当遇到polymer时,如AAA