基因组序列组装的理论与方法(简介)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

基因组序列组装--理论与方法北京大学生物信息中心科学院北京基因组研究所李松岗lsg@pku.eud.cn010-62756803两种测序策略•分级鸟枪法(BACTOBAC)基因组DNA切成大片段构建BAC文库挑选构建小片段shotgun文库测序组装BAC序列组装基因组序列•全基因组鸟枪法基因组DNA构建不同长度shotgun文库测序组装基因组序列基因组测序与组装示意图基于BAC方法的优缺点•优点:组装被局限在BAC的范围内,受重复序列影响小,对计算能力要求不高;•缺点:需要大量前期生物学研究工作,效率低,成本高。全基因组鸟枪法优缺点•优点:不需要生物学前期准备,速度快,成本低;•缺点:组装是在全基因组范围内进行,数据量大,易产生错拼;对计算机软硬件要求均高。对拼接软件的要求•能充分利用正反向测序的配对信息,避免重复序列造成的错误拼接•能处理数以百万甚至千万计的数据程序并行化高效率比对能够采用全基因组鸟枪法的关键技术进步:毛细管测序仪的普遍使用计算机能力的迅速提高HierarchicalShotgun(HS)WholeGenomeShotgun(WGS)…thesequencingofthehumangenomeislikelytobetheonlylargesequencingprojectcarriedtocompletionbythemethodsdescribedinthisissue.MaynardV.Olson,Themaps:Clonebyclonebyclone,Nature409,816-818(2001)Shotgun法序列拼接ConsensusSequenceGapLowBaseQualitySingleStrandedRegionMis-Assembly(Inverted)术语鸟枪法测序数据的组装鸟枪法文库:目标基因组一定长度随机片段克隆的集合。正反向测序对:从同一个克隆片段两端分别测序所得到的一对序列。.插入片段长度:克隆载体中插入的外源DNA片段长度。片段连接群(contig):用识别互相重叠的方法对测序数据进行拼接的结果。.Scaffold:用正反向测序对连接的非重叠片段连接群。LW-洞:由于没有测序数据覆盖而在组装结果中留下的洞。重复序列分析覆盖度:基因组被测序数据覆盖的次数。重复数:一段DNA序列在基因组中出现的次数。深度:一段DNA序列在鸟枪法测序数据集中出现次数。例如一个转座子在基因组中出现N次,测序数据集的覆盖度为C,则这个转座子的平均深度为NC。20-mer重复序列:任何深度超过为该数据集确定的重复序列标准的20-bpDNA片段。是数学定义的重复序列。重复序列洞:由于屏蔽重复序列而在组装结果中留下的洞。组装结果的评价标准N50大小:把组装出的contigs或scaffolds从大到小排列,当其累计长度刚刚超过全部组装序列总长度一半时,最后一个contig或scaffold的大小。单碱基错误率:与参考序列比较后发现的小尺度上的不同所占的比例。所谓小尺度,在这里通常指小于标准测序长度,即500bp。实际上常常只是几个碱基。错误组装的Contig:测序数据组装中出现的错误。由定义,它涉及的片段一般大于500-bp。包括与参考序列相比,插入、删除,以及在方向和次序上不同的片段。错误组装的Scaffold:把非重叠contig连接在一起时出现的错误。包括嵌套,错误的方向和顺序等。R=3segmentsw/repeat-termination“overlap-layout-consensus”algorithmexploresR!=exponentialnumberofpossiblesolutionsoneEulerPathsolutiongenomesequenceofsizeG,with4repeatsO(G2)pair-wisecomparisonshotgunlibraryconstructionShotgunSequencingAssemblerConceptsRePS:全基因组鸟枪法测序数据组装软件包特点:通过屏蔽在鸟枪法测序数据中发现的重复序列来完成组装。RePS的流程图contigA:plasmidendpairB:BACendpairD:sequenceoverlapC:combineindicaandjaponicacontigsjoincontigswithmorethantwoAjoincontigswithmorethantwoBjoincontigswithmorethananytwooftheA,B,CandDindicasuper-scaffoldjaponicasuper-scaffoldcombineindicaandjaponicawgstojoinsmallcontigsandextendthesuper-scaffoldsequencealignmentofindica&japonicascaffoldconstructsuper-scaffoldconstructaddcontigstosuper-scaffoldwithanyoftheA,B,CandDindicasuper-scaffoldjaponicasuper-scaffoldRePS2的新流程图识别重复序列的数学模型))(exp()()1()()1()()1(P0ki,1))((GkNLGLCGLGLCGLGLCYYkkNkNGLLGkkNkNkkNikik其它,个点的覆盖深度为第))(log()log()1())1(exp()())(exp()()()(111YENLNLGGNLNLYEGkNLGLCGYEYEkkNGiikk特别地,重复序列识别:若repeat有m个拷贝,且已知随机序列覆盖深度为0,1,2……的概率:g0,g1,g2,……,则一次抽样repeat覆盖深度为0,1,2,……的概率P0,P1,P2,……为:11010312021122303133102120212210111001jjmmmmmmmmmmmmmPPPPggCgggCCggCPggCggCPggCPgPn次抽样,其中i次以上深度在j以上的概率Pij•设一次抽样深度在j以上和以下的概率分别为:Pj-,Pj+;111)1(22223111211injijinjiijnjjnjjnjjnjjnjjPPCPPPPCPPPPCPPPPn次抽样,其中i次以上深度在j以上则认为是repeat,此时犯两类错误的概率为:•设repeat在基因组中的比例为b,出现概率为P,非repeat出现概率为P*,则:,*)1(1ijijijijPbPbPbPTradeoffbetweencontigsizeandaccuracyofassembly重复序列识别效率MDR(数学定义的重复序列)与BDR(生物定义的重复序列)BDR’(~25%)BDR(~50%?)MDR(42.2%)重复序列的检测与处理插入片段大小引起的错误组装Human4xHuman4x+2xRice4.2xTargetregion[Mb]11.911.9430Maskedsequence17.2%17.2%42.2%#ofcontigsbyLW201846259512Human4xHuman4x+2xRice4.2xUn-maskedPhrapMaxmemoryuse[Gb]3.085xxComputertime[hrs]48xxNumberofcontigs2703xxN50contigsize[Kb]7.05xxPhraperrorestimate0.099%(0.086%)xxBACdiscrepancies0.066%(0.063%)xxContigmis-assembly5.77%xxHuman4xHuman4x+2xRice4.2xRepeat-maskedPhrapMaxmemoryuse[Gb]0.6141.04050Computertime[hrs]1.83.479Numberofcontigs35362219167975N50contigsize[Kb]5.3511.123.41Phraperrorestimate0.091%(0.130%)0.043%(0.096%)0.129%(0.145%)BACdiscrepancies0.077%(0.076%)0.044%(0.059%)0.52%(0.78%)Contigmis-assembly0.51%0.68%0.71%人与水稻基因组中重复序列分布的差别Contigs:127,550(N50=6,688bp)Scaffolds:102,444(N50=11,764bp)Quality:546bpatQ2093-11(indica)basicshotgundataest.genomesize[Mb]464numberofreads3,565,386Q20readlengths[bp]546shotguncoverage4.2exact20-merrepeatsfractionmasked,bysize42.2%fully-maskedreads18.7%sequenceassemblytotalcontigsize[Mb]359N50contigsize[Kb]6.69totalscaffoldsize[Mb]360N50scaffoldsize[Kb]11.76un-assembleddatafully-maskedreads[Mb]78ALLotherreads[Mb]26NumbersTestedCoverageSTS284592.4%UniGene2327992.1%cDNA90790.8%SequencegeneratedMethodologycDNAsMis-assembliesFly(D.melanogaster)120Mb13xwhole-genome18891.1%Thalecress(A.thaliana)115Mbclone-by-clone48040.2%Rice(O.sativa93-11)359Mb4.2xwhole-genome9071.1%插入片段长度的搭配一般情况下,可采用如下设计:插入片段长度(Kb)0.5382050合计插入片段覆盖度1.310101010折合成功测序覆盖度1.33.331.250.500.206.6CAP3(1999)•特点:–删去read两端低质量部分;–利用质量数据,识别重叠序列;进行多序列比对,得到一致序列;–利用正反向数据纠正组装错误,构建scaffold。•使用情况:仅使用数个BAC进行了测试。果蝇组装软件(2000)•特点:–组装前数据预处理;–用数据库屏蔽重复序列;–采用类似BLAST的方法找出重叠部分;–选择不冲突的重叠构建contigs,识别重复序列边界;–用正反向信息构建scaffolds,填洞。•使用情况:–用于果蝇基因组组装。用于人类基因组组装时的改进(2001)•构建contigs后,利用一个统计模型识别低拷贝重复序列;•采用两种方式利用已公布的人类基因组计划数据,即1.把人类基因组计划数据分解成“人工reads”,进行组装;2.利用人类基因组计划数据的定位对shotgun数据进行分组,然后组装。ARACHNE(2002)•特点:–组装前通过多序列比对纠正测序错误;–考虑质量数据,对每对重叠reads打分;–通过分析reads重叠情况识别重复序列的边界,组装的contigs避免越过边界;–识别重复序列contigs;–构建scaffolds,填补空洞。•使用情况:使用数个物种,包括人21、22染色体数据进行了检验。ThePhusionAssembler(2003)•特点:–输入数据包括正

1 / 48
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功