高通量测序应用与进展作者:徐相•报告纲要•高通量测序简介•高通量测序平台的介绍•高通量测序的应用范围及案例分析•相关生物信息学分析软件介绍•高通量测序简介•高通量测序:一次性对几百万到十亿条DNA分子进行并行测序,又称为下一代测序技术,其使得可对一个物种的转录组和基因组进行深入、细致、全貌的分析,所以又被称为深度测序。•High-throughputSequencing•NextGenerationSequencing•DeepSequencing3•高通量测序流程文库扩增低通量ASanger测序B高通量测序并行测序高通量无需建立文库,两端加测序接头PCR扩增•报告纲要•高通量测序简介•高通量测序平台的介绍•高通量测序的应用范围及案例分析•相关生物信息学分析软件介绍•高通量测序技术的起源与发展•1992年LynxTherapeuticsMPSS•2003年PolonySequencing(哈佛)•2005年454Pyrosequencing•2006年SolexaSequencing-by-Synthesis•2007年ABISOLiD•2008年HelicostSMSSequencing•2010年IontorrentSemiconductorSequensing•2011年PacificBiosciencesSMRTSequensing6•高通量测序技术的传承关系图LynxMPSSSolexaABISOLiD454IonTorrentHelicosSMRTIlluminaSolexaRoche454PolonySeqABIIonTorrent•现有主要高通量测序仪开发商测序仪品牌技术原理开发商Roche454焦磷酸测序RocheIlluminaSolexa边合成边测序IlluminaABISOLiD基于磁珠的大规模并行连接测序ABIHelicos单分子荧光测序HelicosIonTorrent半导体测序ABISMRT单分子实时测序PacificBio•454Pyrosequencing•基于磁珠的焦磷酸测序:A磁珠制备设备B454测序仪C454测序原理•454测序流程•454测序流程与BaseCalling•454的特点与主要应用•读长较长,400-600bp•通量较低,1Run1M序列,400-600Mb•相对成本较高•主要应用:denovo测序•IlluminaSolexa简介•桥式PCR•边合成边测序•可逆终止物HiSeq2000•IlluminaSolexa测序流程•IlluminaSolexa桥式PCRdioldiol1stcycledenaturation1stcycleannealingdioldioln=35total1stcycleextensiondioldioldioldiol2ndcycledenaturation2ndcycleannealingdioldioldioldioldioldiol2ndcycleextension•IlluminaSolexaBaseCalling123789456TTTTTTTGT…TGCTACGAT…•Solexa的特点与主要应用•读长较短,100-150bp•通量高,25G每天,120-150G每Run•主要应用:RNA测序、表观遗传学研究•ABISOLiD简介•SOLiDSequencingbyOligoLigation/Detection•Oligo连接测序:通过连接酶连接,再对oligo上荧光基团进行检测SOLiD5500xl•ABISOLiD测序前期制备A样品片段化磁珠连接B乳化PCR3‘末端修饰C磁珠富集转到测序玻片•ABISOLiD测序原理•ABISOLiD荧光结合和结果示例@SRR029969.1VAB_5551_12_381_F3length=35T11.0203.3.1113211010332111302330201+SRR029969.1VAB_5551_12_381_F3length=35!36!8/8:!:!462@6=(88.;2:*9748078@SRR029969.2VAB_5551_13_468_F3length=35T202312302.3333130131131322113203131+SRR029969.2VAB_5551_13_468_F3length=35!9),4/3)&$!(&(573(96,'7&91)43),(95,A.SOLiDOligo荧光基团模式图B.SOLiD测序结果示例(ColorSpace)•SOLiD的特点与主要应用•读长较短,50-75bp•精度高,可达Q40•通量高,20-30G每天,1Run可达120G•主要应用:基因组重测序、SNP检测等•三种平台的技术差异平台454SolexaSOLiDPCR磁珠乳化PCR桥式PCR磁珠乳化PCR测序载体磁珠玻片玻片测序方式焦磷酸、荧光可逆终止物、荧光连接酶、荧光结果序列FastQFastQCSFastQ•三种平台的效能参数差异平台读长通量周期精度SolexaHiSeq2000Single-end:1x35bpPaired-end:2x50bpPaired-end:2x100bp25Gb/d~1.5d~4d~8d•50bp85%以上Q30•100bp80%以上Q30SOLiD5500xlSingle-end:75bpPaired-end:75x35bpMate-pair:60x60bp20–30Gb/d1d/1lane7d/12lane7d/12laneQ40454GSFLX400-600bp400–600Mb/Run10hQ20•报告纲要•高通量测序简介•高通量测序平台的介绍•高通量测序的应用范围及案例分析•相关生物信息学分析软件介绍•高通量测序应用范围•DNA测序全基因组denovo测序基因组重测序宏基因组测序人类外显子组捕获测序•RNA测序转录组测序小RNA测序电子表达谱测序•表观基因组研究ChIP-SeqDNA甲基化测序•基因组测序•基因组测序是对物种的基因组DNA打断后进行高通量测序,根据是否有已知基因组数据主要分为denovo全基因组测序和基因组重测序。•Denovo基因组测序是对未知基因组序列的物种进行基因组从头测序,利用生物信息学分析手段对序列进行拼接、组装,从而获得该物种的基因组图谱。•全基因组重测序是对已知基因组序列的物种进行不同个体的基因组测序,并在此基础上对个体或群体进行差异性分析。•基因组测序策略Paired-EndMate-End基因组测序流程-两种测序策略•Paired-end原理29100bps100bps3000bps•Paired-end基因组重排分析•Paired-end和测序深度对测序效果的影响JunWang,etal.Nature456,60-65(6November2008)•基因组测序的生物信息学分析•数据产出处理:图像识别与BaseCalling\去除接头序列、检测与去除污染序列等;•基因组组装:原始数据统计、测序深度分析、组装结果统计等;•基因组注释:CodingGene注释、RNA分类注释、重复序列注释等;•基因功能注释:GO功能分类、Interpro功能分类等;•比较基因组及分子进化分析:SNP/InDel/CNV检测等。•References•1、ErinD.Pleasance,PhilipJ.Stephens,SarahO’Meara,etal..Asmall-celllungcancergenomewithcomplexsignaturesoftobaccoexposure.Nature,2010,463:184-190.•2、MichaelJamesClark,NilsHomer,BrainD.O’Connor,etal..U87MGDecoded:TheGenomicSequenceofaCytogeneticallyAberrantHumanCancerCellLine.PloSGenetics,2010,6(1):e1000832.•3、WeiChen,ReinhardUllmann,ClaudiaLangnick,etal..Breakpointanalysisofbalancedchromosomerearrangementsbynext-generationpaired-endsequencing.EuropeanJournalofHumanGenetics,2010,18:539-543.•4、VanTassellCP,SmithTP,MatukumalliLK,TaylorJF,SchnabelRd,etal.Whole-genomesequencingandvariantdiscoveryinC.elegans.NatMethods,2008,5(2):183-188.•5、JunWang,WeiWang,RuiqiangLi,etal..ThediploidgenomesequenceofanAsianindividual.Nature456,60-65(6November2008)•6、HuangSW,LiRQ,WangJ,etal.TheGenomeoftheCucumber(CucumissativusLinnaeus).NatureGenetics2009;doi:10.1038/ng.475•7、DavidHernandez,etal.Denovobacterialgenomesequencing:Millionsofveryshortreadsassembledonadesktopcomputer.GenomeRes.2008.18:802-80933•基因组重测序案例分析•ErinD.Pleasance,etal.Thecompendiumofsomaticmutationsinasmall-celllungcancergenome.Nature,2010,463:184-190.•此研究用高通量测序对一个小细胞肺癌细胞系NCI-H209基因组进行重测序,以探讨吸烟引发该细胞系基因组中特定碱基及其周围序列的突变及细胞损伤修复原理。肺癌基因组变异情况统计图•基因组重排和CNV分析•从头基因组测序案例•DavidHernandez,etal.Denovobacterialgenomesequencing:Millionsofveryshortreadsassembledonadesktopcomputer.GenomeRes.2008.18:802-809•此研究对StaphylococcusaureusstrainMW2和HelicobacteracinonychisstrainSheeba两种细菌基因组进行从头测序,并比较了几种拼接方法的效果。•多种拼接软件拼接结果比较•多种拼接软件拼接结果比较五种拼接方法的拼接结果比对•宏基因组测序•宏基因组测序是对某一特定环境,如肠道、土壤、海水等中的所有微生物进行基因组测序。通过此方法可对该环境中的微生物种类和优势物种进行检测,揭示微生物群落多样性、种群结构、进化关系、功能活性、相互协作关系及与环境之间的关系。自然环境中很多微生物无法分离培养,而此方法无需对微生物进行分离培养。•宏基因组测序方法现在有全基因组的宏基因组测序和16S/18SrRNA宏基因组测序。•全基因组的宏基因组测序•通过高通量测序技术,对环境样品的总DNA直接进行全基因组的宏基因组测序,能够实现微生物群落的物种分类研究、群落结构、系统进化、功能注释以及物种间的代谢网络研究,挖掘具有应用价值的基因资源,开发新的微生物活性物质。与传统的Sanger法相比,速度快,性价比高,周期短,单个样品的测序量可以接近饱和。•宏基因组测序信息分析主要内容•拼接组装•物种分类组成分析•基因预测和功能注释•生成Profilingtable•主成分分析(PCA)•筛选与样品分组显著相关的因子•多样品间比较分析•16S/18SrRNA宏基因组测序•16