第一代测序技术•Sanger测序1977年,桑格测定了第一个基因组序列,是噬菌体X174的,全长5375个碱基•Sanger法核心原理是:由于ddNTP的2’和3’都不含羟基,其在DNA的合成过程中不能形成磷酸二酯键,因此可以用来中断DNA合成反应,在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP(分为:ddATP,ddCTP,ddGTP和ddTTP),通过凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA序列新一代测序介绍•三大测序平台的前世今生LynxMPSSSolexaABISOLiD454IonTorrentHelicosSMRTIlluminaSolexaRoche454PolonySeqABIIonTorrentPacificBiosciencesRoche-454•454公司可谓新一代测序技术的奠基人。2005年底,454公司推出了革命性的基于焦磷酸测序法的超高通量基因组测序系统——GenomeSequencer20System,被《Nature》杂志以里程碑事件报道,开创了边合成边测序(sequencing-by-synthesis)的先河。之后,454公司被罗氏诊断公司以1.55亿美元收购。•454测序原理测序实验流程:•1、文库制备:根据样品的种类和实验目的,将基因组DNA/cDNA片段化处理至400-800bp间,经末端修复与特异性接头连接等修饰后变性处理回收单链的DNA(sstDNA);然后和两个44个碱基长的衔接子(adaptor)A、B进行平端连接。A、B衔接子各自含有20个碱基的PCR引物序列、20个碱基的测序引物序列和4个碱基的对照序列(TACG),除此之外,B衔接子的5’端还标记有一个生物素基团,供后续的分离合适的测序模板使用。测序实验流程:•2、EmulsionPCR:特定比例的单链DNA文库被固定在特别设计的DNA捕获磁珠上,使大部分磁珠磁珠携带了一个独特的单链DNA片断。磁珠结合的文库被扩增试剂乳化,形成油包水的混合物,每个独特的片断在自己的微反应器里进行独立的扩增,而不受其他的竞争性或者污染性序列的影响。整个片段文库的扩增平行进行。扩增后产生了几百万个相同的拷贝。随后,乳液混合物被打破,扩增后仍结合在磁珠上的片段既可被回收纯化用于后续的测序实验;测序实验流程:•3、测序反应:携带DNA的珠子与其他反应物混合物,随后放入PTP板中进行后继的测序。PTP孔的直径(29um)只能容纳一个珠子(20um)。然后将PTP板放置在GSFLX中,测序开始。每一个与模板链互补的核苷酸的添加都会产生化学发光的信号,并被CCD照相机所捕获;测序实验流程:•4、数据分析:GSFLX系统在10小时的运行当中可获得100多万个读长,读取超过4-6亿个碱基信息,通过GSFLX系统提供两种不同的生物信息学工具对测序数据进行分析。454Pyrosequencing454的特点与主要应用•读长较长,400-600bp•通量较低,1Run1M序列,400-600Mb•相对成本较高•主要应用:denovo测序Illuminasolexa•Solexa测序原理IlluminasolexaIlluminaSolexa桥式PCRdioldiol1stcycledenaturation1stcycleannealingdioldioln=35total1stcycleextensiondioldioldioldiol2ndcycledenaturation2ndcycleannealingdioldioldioldioldioldiol2ndcycleextensionIlluminaSolexaBaseCalling123789456TTTTTTTGT…TGCTACGAT…Solexa的特点与主要应用•读长较短,100-150bp•通量高,25G每天,120-150G每Run•主要应用:RNA测序、表观遗传学研究ABISOLiD•SOLiDSequencingbyOligoLigation/Detection•Oligo连接测序:通过连接酶连接,再对oligo上荧光基团进行检测SOLiD5500xlABISOLiD测序前期制备A样品片段化磁珠连接B乳化PCR3‘末端修饰C磁珠富集转到测序玻片ABISOLiD测序原理ABISOLiD荧光结合和结果示例@SRR029969.1VAB_5551_12_381_F3length=35T11.0203.3.1113211010332111302330201+SRR029969.1VAB_5551_12_381_F3length=35!36!8/8:!:!462@6=(88.;2:*9748078@SRR029969.2VAB_5551_13_468_F3length=35T202312302.3333130131131322113203131+SRR029969.2VAB_5551_13_468_F3length=35!9),4/3)&$!(&(573(96,'7&91)43),(95,A.SOLiDOligo荧光基团模式图B.SOLiD测序结果示例(ColorSpace)SOLiD的特点与主要应用•读长较短,50-75bp•精度高,可达Q40•通量高,20-30G每天,1Run可达120G•主要应用:基因组重测序、SNP检测等IontorrentIonTorrent测序原理精度•Examples:•• 90%confidence(10%errorrate)=Q10•• 99%confidence(1%errorrate)=Q20•• 99.9%confidence(.1%errorrate)=Q30三种平台的技术差异平台454SolexaSOLiDPCR磁珠乳化PCR桥式PCR磁珠乳化PCR测序载体磁珠玻片玻片测序方式焦磷酸、荧光可逆终止物、荧光连接酶、荧光结果序列FastQFastQCSFastQ三种平台的效能参数差异平台读长通量周期精度SolexaHiSeq2000Single-end:1x35bpPaired-end:2x50bpPaired-end:2x100bp25Gb/d~1.5d~4d~8d•50bp85%以上Q30•100bp80%以上Q30SOLiD5500xlSingle-end:75bpPaired-end:75x35bpMate-pair:60x60bp20–30Gb/d1d/1lane7d/12lane7d/12laneQ40454GSFLX400-600bp400–600Mb/Run10hQ20转录组测序测序流程全转录组总RNApolyT富集mRNA去除rRNANon-codingRNA转录组mRNARNA片段化、纯化、检测产量连接两端接头序列逆转录生成cDNA选择适当长度cDNA进行扩增纯化扩增产物,评估产量上机进行高通量测序转录组主要分析内容无参考序列转录组分析内容有参考序列转录组分析内容1测序数据产量统计,数据成分和质量评估;2Contig及Scaffold长度分布3Unigene的长度分布和功能注释,GO分类,Pathway分析,差异表达分析4蛋白功能预测与分类,差异表达基因GO富集和Pathway富集分析。1基本数据统计,比对参考序列2序列在基因组上在分布3测序深度分析、随机性评估和基因差异表达分析4新基因预测,基因可变剪接鉴定和基因融合鉴定等。小RNA测序果蝇三种组织中MiRNA表达情况MiRNA表达模式分析新miRNA预测miRNA编辑情况分析与统计分析软件介绍•质量控制软件(QualityControl)•定位软件(Mappingthereads)•已知基因(差异)表达评估软件(DifferentialExpression)•新基因鉴定软件(Newgeneidentification)•可视化展示软件(Virsulization)•基因功能注释软件(GOtermorKEGGpathwayanalysis)数据格式示例Fastq格式ColorSpace格式Phredscore质量控制利用galaxy进行原始数据处理://main.g2.bx.psu.edu/u/jjv5/h/unnamed-history-1