DNA测序技术DNASequencing三峡大学医学院盛德乔shengdq@ctgu.edu.cn人类基因组计划(Humangenomeproject,HGP)用了大约10年的时间,各国政府相继投入了几十亿美元,才完成了人类个体全基因组序列的测序工作。而2005年以来,出现的新一代测序技术,却可在1个月内,花费十几万美元就可完成一个人类个体全基因组序列的测序工作。现在,美国、欧洲等各大生物技术公司、大型生物医药研究机构等投入大量的人力物力开始了新一轮的下一代测序技术的技术竞赛,力争实现1000美元完成一个人的全基因组序列的测序,加速个人基因组时代的到来。一、DNA测序技术概述DNA测序——核酸DNA分子一级结构的测定,是现代分子生物学一项重要的技术。核苷酸的排列顺序碱基的排列顺序1963年,Sanger和Thompson等人第一次完成胰岛素51个氨基酸的序列测定。70年代后期,Sanger和Maxam----Gilbert等人又建立了核酸序列测定的方法,Sanger双脱氧末端终止法和Maxam----Gilbert化学裂解法将核酸序列测定技术推进到“直读”阶段,使核酸序列测定变得远比蛋白质氨基酸序列测定容易,这样人们可以通过核酸序列和遗传密码推导出蛋白质氨基酸的序列。测序技术的发展历史双脱氧末端终止法(Sanger测序法)1970s同位素标记,手工1980s荧光标记,自动1990s毛细管电泳合成测序法(第二代测序)焦磷酸测序(Pyrosequencing,Roche/454)合成测序(Sequencing-By-Synthesis,Illumina/Solexa)连接测序(Sequencing-By-Ligation,ABI/SOLiD)单分子测序技术(第三代测序)HelicosPacificBiosciencesOxfordNanopore代数测序技术特点代表仪器第一代Sanger测序法低通量,高成本ABI3730XL第二代循环芯片技术高通量高效率成本底IlluminaGAROCH-454ABI-SOLID第三代单分子测序试剂用量少,成本更低HeliScope二、第一代测序方法1、末端终止法2、化学裂解法3、DNA测序自动化使用特异性引物与单链模板DNA退火,在DNA聚合酶作用下进行延伸反应,用ddNTP终止,用PAGE区分长度仅相差1个核苷酸的ssDNA,从而完成测序的方法。用化学试剂在A、G、C、T处特定的裂解DNA片段,产生一簇各种长度的短链,经过PAGE放射自显影可直读DNA顺序。类似末端终止法,所不同的是用荧光染料标记,计算机自动读出。优点简便、迅速、应用广泛。不需酶促反应,可以对寡核苷酸测序。1、高负荷,1块胶可测16个样品;2、机读不需放射自显影;3、安全不用同位素;4、简单迅速8-10h。测序的基本过程1.制备待测DNA序列模板;2.酶促或化学反应将其转变“等差数列”(n=1);3.电泳PAGE;4.读序。第一代测序computeranalysis凝胶中DNA移动方向样品槽激光器输入光学系统成象透镜聚焦透镜高灵敏度相机旋光镜/棱镜组件Maxam-Gilbert化学裂解法化学裂解是Maxam和Gilbert等人1977年创建的,用来测定DNA序列。化学法是用化学试剂在A、G、C、T处特定地裂解DNA片段,产生一簇各种长度的短链(等差数列n=1),经过PAGE和放射自显影后,可以直接读出DNA的顺序。某些试剂能修饰或破坏DNA链上特定核苷酸的碱基进而使N-糖苷键断裂,暴露出的糖环以β-消除反应,在3’和5’位上断裂磷酸二酯键。使戊糖脱落,用于嘌呤环的试剂是硫酸二甲酯,而联氨可用于肼解嘧啶环。4种核苷酸的特异裂解和鉴别方法如下:反应体系碱基修饰试剂碱基修饰反应主链断裂试剂断裂点GDMSG甲基化六氢吡啶GG+A甲酸脱嘌呤六氢吡啶GorAC+T肼嘧啶开环六氢吡啶CorTC肼(加盐)胞嘧啶开环六氢吡啶C原理1.用放射性核素标记待测DNA一侧末端2.将标记DNA分为G、A+G、C+T、C4个反应体系3.用不同的化学试剂处理不同反应体系,随机断裂DNA片段某种碱基中的任何一个,产生一组一端为放射线标记的末端,另一端为不同大小的DNA片段的混合物4.电泳分离,放射自显影得到互相错落的梯形图谱,即可读出DNA序列反应产物电泳放射自显影阅读Sanger双脱氧末端终止法原理DNA链的合成反应,只不过反应体系中加入了四种双脱氧核糖核苷酸(ddNTP)中的一种。在DNA链合成过程中ddNTP会代替部分dNTP作为底物进行DNA合成反应。一旦ddNTP掺入到合成DNA链中,正在延伸的DNA链将终止。经电泳分离,放射自显影,直接读出DNA的核苷酸序列反应体系引物模板:纯单链DNA和经过热变性或碱变性的双链DNADNA聚合酶:Klenow大片段放射性同位素标记的dNTP:32P-dNTP、α-32S-dNTPddNTP用于测序的变性凝胶电泳:胶长40cmddNTP读出模板互补序列dNTP凝胶电泳较大片段较小片段ddGTPddATPddCTPddTTP反应混合物Klenow酶未知序列的单链DNA读出待测序列CTGACTTCGACAAAGAA5´3´ACTGddGddGddGddGGACTGAAGCTGTT3´5´CTGACTTCGACAA5´3´Sanger双脱氧末端终止法化学降解法程序复杂后来逐渐被Sanger法代替这2种方法都需要放射性同位素标记操作繁琐不能自动化不能满足大规模测序的要求。到了20世纪80年代末研究人员逐渐利用荧光标记代替同位素标记测序产物,经过平板电泳分离荧光分子在激光的激发下可以发射出不同波长的荧光,根据荧光信号可以确定DNA序列。目前所用自动测序技术的改进同位素标记到荧光标记,平板电泳到毛细管电泳多色荧光标记毛细管电泳单色荧光标记平板电泳同位素标记平板电泳ACGTACGT测序图谱TATTGCATTGTCTGCATTGTCT毛细管电泳基本原理:与链终止法测序原理相同,只是用不同的荧光色彩标记ddNTP,如ddATP标记红色荧光,,ddTTP标记绿色荧光,ddCTP标记蓝色荧光,ddGTP标记黄色荧光,由于每种ddNTP带有各自特定的荧光颜色,而简化为由1个泳道同时判读4种碱基。DNA自动测序结果举例目前商品化生产的测序仪ABI3730测序仪,最长可以测1200个碱基DNA测序技术的应用1.分析基因组核苷酸排列序列2.寻找致病基因3.基因定点诱变的基础4.基础研究(基因表达、突变)5.临床应用(基因诊断、基因治疗)目前所用测序技术的缺点1.测序的原理是DNA链终止法,这注定了一个反应所测序列不可能太长,目前为1000个核苷酸左右。2.测序反应费时费力科学家们完成第一个人类基因组测序整整花了13年的时间,耗费了30亿美元的费用。3.测序准确度不高DNA聚合酶造成的碱基错配,DNA序列判读错误。4.测序基于PCR反应,需要引物,并且有些些结构复杂的难于进行PCR反应的片段不能测序。三、第二代测序技术第二代测序技术——循环阵列合成测序法新一代测序技术(NextGenerationGequencing,NGS)代表技术为罗氏公司(Roche)的454测序仪(RocheGSFLXsequencer)(2005)Illumina公司的Solexa基因组分析仪(IlluminaGenomeAnalyzer)ABI的SOLiD测序仪(ABISOLiDsequencer)(2007)Next-generationsequencingtechnology200520062007BirthdayPrinciplePyrosequencingSequencing-by-SynthesisSequencing-by-Ligation1.ROCH-454的优势454平台的突出优势是读长。目前454系统的序列读长已超过400bp。虽然454平台的测序成本比其他平台要高很多,不过对于那些需要长读长的应用,如从头拼接和环境微生物组学,它仍是最理想的选择。2.IlluminaGA的特性1.可扩展的超高通量GenomeAnalyzer系统目前每次运行后可获得超过20GB的高品质过滤数据。经优化后通量还有望上升到95GB,相当于人类基因组的30倍覆盖度。2.需要样品量少GenomeAnalyzer系统需要的样品量低至100ng,能应用在很多样品有限的实验(比如免疫沉淀、显微切割等)中。3.简单、快速、自动化GenomeAnalyzer系统提供了最简单和简洁的工作流程。制备样品文库可以在几小时内完成,一个星期内就能得到高精确度的数据。自动化的流程不减少了手工操作误差和污染可能性,也不需要机器人操作或洁净室。3.ABISOLID的特性无以伦比的通量目前SOLiD3系统单次运行能产生50GB的人基因组序列数据,相当于基因组的17倍覆盖度,这显然是其他任一台新一代测序系统都无法达到的准确性新的超精确检测模块(ECC模块)将提供高达99.99%的精确性;多达98%的可定位碱基的质量值高于45;更多标签以提高灵敏度和动态范围;高准确性的原始读序,支持无参考序列的数据分析。第二代测序技术最显著的特征是高通量,一次能对几十万到几百万条DNA分子进行序列测序,使得对一个物种的转录组测序或基因组深度测序变得方便易行。共同特点:1.成了生物医学、计算机、微电子学、光学、材料科学和精密加工等多学科技术。例如,RocheGSFLXsequencer的图像采集技术就借鉴现代天文望远镜的光学系统技术,即超高分辨率的CCD集成光纤束技术。2.测序策略主要基于循环芯片测序法(Cyclic-arraysequencing),即制备DNA文库,单分子扩增,在固相载体上形成DNA簇阵列,并行地利用DNA聚合酶或者连接酶进行酶促反应(模板变性、引物退火杂交、延伸或连接),同时读取反应产生的特异性荧光信号,最终得到超大量的DNA序列信息。3.高通量并行测序。例如,RocheGSFLXsequencer一次就可对上百万条DNA分子同时进行序列测定,一次运行通量达到400Mb以上,而传统测序(一代测序)一轮测序的通量仅为80Kb左右。第二代测序技术的应用1.从头测序(de-novosequencing)对于基因组未被测序过的生物,其基因组测序需要从头测序。2.重测序3.SNP(SingleNucleotidePolymorphism)研究4.转录组及表达谱分析5.RNA测序(miRNA)6.转录调控研究(ChIP-Seq)厂商RocheIlluminaABI技术454SolexaGASOLiD测序仪GS20FLXTiIIIIIx123序列数目(百万)0.50.51.252810025040115320单末端测序(Single-end)读长(bp)1002004003550100253550运行时间(天)0.250.30.4335658通量(Gb)0.050.10.515251416配对末端测序(Paired-end)读长(bp)2004002×352×502×1002×252×352×50库序列长度(kb)3.53.50.20.20.2332运行时间(天)0.30.461010121016通量(Gb)0.10.529502832Solexa和SOLiD配对末端测序所需时间和产出是单末端的两倍,454的配对末端和单末端差异在于建库方法,所需时间和测序量不变。ABISOLiD包含两张芯片,这里的数据是一张芯片的量。目前使用最广泛的三大第二代测序平台测序能力统计信息(2010年年初数据)个水稻基因组/天12个水稻基因组/天10个水稻基因组/天第二代测序技术采用了高通量测序技术,使测序通量大大提高,从Sanger测序法一次读取一条序列到毛细管测序的一次读取96条序列再到现在的一次读取几百万条序列的实现,不得不说这是对第一代测序技术的一次革命性的变