复旦基因组学课件04基因组测序与组装

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第4章基因组测序与组装1)基因组测序的策略2)基因组测序的方法3)高通量自动化测序4)序列组装基因组测序的策略1)随机测序2)限定测序随机测序1)基因组文库构建2)两端测序3)为何要两端测序随机测序原理基因组测序的方法1)测序的DNA多聚酶;2)测序标记;3)电泳装置;4)测序难点.测序的DNA多聚酶目前普遍采用的测序酶为Sequenase,来自T7噬菌体荧光标记电泳测序同位素标记电泳测序Sanger测序法:毛细管电泳测序毛细管第一代和第二代DNA测序-中断测序连续测序焦磷酸测序技术pyrosequencing焦磷酸测序技术是一种新的实时DNA测序技术。它在DNA聚合酶、三磷酸腺苷硫酸化酶、荧光素酶和三磷酸腺苷双磷酸酶4种酶的协同作用下,使引物延伸聚合脱氧核糖核酸.dNTP释放焦磷酸盐PPi、PPi转换为三磷酸腺苷(ATP)、ATP产生荧光信号与dNTP和ATP的降解等化学反应偶联起来,检测结果准确可靠。循环阵列测序--滚环扩增建库cyclic-arraysequencing测序文库构建滚环复制拷贝扩增循环阵列测序-PCR建库Polymerasecolony,orpolony,technologiesperformmultiplexamplificationwhilemaintainingspatialclusteringofidenticalamplicons.InemulsionPCR(ePCR),awaterin-oilemulsionpermitsmillionsofnoninteractingamplificationswithinamilliliter-scalevolume.Amplificationproductsofindividualcompartmentsarecapturedviainclusionof1-mmparamagneticbeadsbearingoneofthePCRprimers.Anysinglebeadbearsthousandsofsingle-strandedcopiesofthesamePCRproduct,whereasdifferentbeadsbeartheproductsofdifferentcompartmentalizedPCRreactions.ThebeadsgeneratedbyePCRhavehighlydesirablecharacteristics:highsignaldensity,geometricuniformity,strongfeatureseparation,andasizethatissmallbutstillresolvablebyinexpensiveoptics.循环阵列测序-富集与测序芯片制作循环阵列测序—焦磷酸测序循环阵列测序—碱基读取几种不同生物基因组的测序1)大肠杆菌基因组测序----图位法2)流感嗜血杆菌基因组测序---鸟枪法3)果蝇基因组测序---鸟枪法4)人类基因组测序---图位法和鸟枪法4)拟南芥基因组测序—图位法5)水稻基因组测序---图位法和鸟枪法大肠杆菌基因组测序(1)大肠杆菌基因组(C区)测序大肠杆菌C区测序采取了分割染色体DNA的技术,将切离的一段染色体DNA与人工插入的复制载体整合,获得可独立扩增的克隆片段用于鸟枪法测序.LoxP-Cre重组系统大肠杆菌基因组C区测序步骤(1)大肠杆菌基因组C区测序步骤(2)线虫基因组测序策略---图位法注:线虫为单性(X或Y)或雌雄同体(XX),Y染色体未测序.流感嗜血杆菌基因组鸟枪法测序流程用于测序的流感嗜血杆菌基因组文库构建了两套基因组文库:1)1.6-2kb大小插入子基因组文库.2kb大小插入子可减少扩增时的变异率.此外,2kb大小降低了克隆片段含有完整基因的可能性,有些完整基因的表达产物对宿主菌是有害的.2)15-20kb大小插入子文库,用于支架搭建.上述两套基因组文库的克隆测序均为两端测序.流感嗜血杆菌基因组鸟枪法测序结果预测1)流感嗜血杆菌基因组总长:1.8Mb2)测序覆盖率计算,P定义为丢失的概率.P0=e-m,m为覆盖面,即当量数若m=1P0=e-1=0.37若m=5P0=e-5=0.0067=0.67%若m=10P0=e-10=4.5x10-5=0.000045=0.0045%3)两端测序,每次有效的可读顺序为460bp,每个克隆为920bp.4)随机挑选质粒载体克隆9600个,λ载体克隆500个.两端测序共获得测序总长为8.84x106,覆盖面约5,P0=e-5=0.67%.5)预计丢失的顺序为Lxe-m=1.8Mbx0.0067=1.25x104bp.6)空隙长度为:L/n=1.8Mb/(9600x2)(L为基因组总长,n为测序数)=100bp.7)空隙数为:1.25x104bp/100bp=128测序结果略高于预计结果,即42个物理间隙和98个顺序间隙.间隙的类型测序后将DNA顺序进行组装,会发现存在不连续的区段.它们产生于:1)因覆盖率的原因而留下的未能测序的顺序,仍存在于克隆文库中,这类间隙称为顺序间隙.2)因克隆载体自身的限制或DNA顺序特殊的组成等原因造成某些顺序丢失或未能克隆,这类间隙称为物理间隙.顺序间隙缝合物理间隙缝合流感嗜血杆菌基因组测序结果1)两端测序的结果称为读序(read),每个读序长约400bp.2)在DNA顺序组装前,由自动测序仪给出的每个读序都必须经PhredII软件处理,以确定给出的顺序质量与可靠性.这一步为顺序认可(callingfor).3)流感嗜血杆菌基因组测序共组装了24304个片段,建立了140个重叠群(contig).根据某些克隆跨越不同的contig,再合并为42个支架(scaffold).4)整个组装的基因组顺序存在42个物理间隙,98个顺序间隙.基因组全长1830137bp(1.8Mb).基因组顺序组装的概念定义1)BAC末端顺序(BAC-endsequenced)一个BAC克隆插入片段两端的已测序的顺序,不包括内部顺序.可用于确定BAC的排列方向以及重叠群(contig)在支架(scaffold)中的排列方向.2)叠连群(contig)一群相互重叠的克隆或DNA顺序,可以是草图顺序或精确顺序(finished),包括连续的(内部无间隙)或不连续的(内部含间隙)DNA顺序.3)草图顺序(draftsequence)人类基因组测序计划定义为经PhredQ20软件认可覆盖测序克隆片段3-4倍的DNA顺序.含间隙或无间隙,排列方向和位置未定.4)完成顺序(finishedsequence)顺序差错率(错误碱基数)低于0.01%的DNA序列,排列方向确定,内部不含间隙,一般测序覆盖率在8-10个当量.5)支架(scaffold)一组已锚定在染色体上的叠连群,内部含间隙或不含间隙.引自NCBI,RevisedNovember6,2003大型基因组的测序1)以BAC克隆重叠群为基础的测序2)全基因组鸟枪法测序以BAC克隆重叠群为基础的测序克隆重叠群测序与组装全基因组鸟枪法测序鸟枪法顺序组装流程图1)由自动测序仪记录的测序顺序经PhredQ20软件判断采用.1)筛查过滤重复顺序:如rRNA基因,转座子等2)重叠顺序组装:两段顺序重叠的认可标准为,至少40bp的重叠,差异率小于6%.3)Unitigger(重叠单元)建立:一组彼此重叠的DNA顺序,其中不存在争议的或不确定的重叠关系,为独立的重叠群.4)支架(scaffold)搭建:由一组Unitigger相互叠合以及由BAC克隆末端顺序指认彼此相邻的重叠群,内部可能有间隙.利用长度不同插入子克隆两端测序搭建支架果蝇基因组测序---染色体组成果蝇基因组测序---主要结果1)方法:鸟枪法2)测序载体插入子(kb)测序次数可读长度(bp)覆盖面----------------------------------------------------------------------------------质粒(高拷贝)2.019034685707.3x质粒(低拷贝)10.012783865675.4xBAC130.0197385000.07x------------------------------------------------------------------------------------注:测序总长1.2x1010,组装后草图为116.2Mb.3)果蝇基因组总长180Mb,草图顺序占其2/3.其余顺序为异染色质区,约60Mb.因异染色质区重复顺序大多,不能有效克隆或组装.4)果蝇基因组草图仍有1000个间隙.5)草图顺序包含97.5%基因.鸟枪法测序的问题水稻基因组鸟枪法测序的优缺点优点:1)覆盖面大,有些作图法丢失的顺序在鸟枪法中可发现.2)水稻基因的平均长度约5kb,组装的顺序不会对基因的预测产生重要影响.缺点:1)留下了13万个间隙,支架的长度很有限,平均约10-15kb.存在大量的嵌合顺序.2)没进行大克隆(50kb,150kb)的两端测序,很难建立大跨度支架.不能确定组装顺序的方向和准确的排列位置,无法独立锚定到染色体上.人类基因组鸟枪法测序的疑问-PNAS99:4143-4144,2002人类基因组鸟枪法测序是一个神化?1)丢失了20%的基因组顺序,含有116000个间隙,平均长2.3kb.2)利用了大量公开发表的人类基因组顺序作为组装的支点,这是一些极其关键的顺序.3)耗费:作图法的费用为,10%用于BAC作图与亚克隆,50-60%用于亚克隆测序,覆盖率为5-6个当量,30-40%用于完成精确顺序测序.鸟枪法费用为,利用了发表的BAC物理图,节省了10%的费用.由于避免顺序丢失,随机克隆的覆盖面达到15个基因组当量.此外利用了公共数据库中BAC的两端顺序,减少了这部分的测序量.总的费用实际远超过作图法测序.4)鸟枪法并未在真正意义上加速人类基因组计划的进程,人类基因组测序计划组织在过去7-8年中积累的物理图数据被鸟枪法大量利用是其成功的主要因素之一.关于基因组测序顺序的概念1)Bermudastandard,百慕大標準2)草图顺序:draftsequence3)完成顺序:finishedsequenceBermudaStandardsWorldstandardsforsequencefidelity(knownastheBermudaStandards)wereestablishedatthemeetingofHGPprincipalinvestigatorsin1997.().Thesestandardsstatedthatfinishedsequenceshouldcontainlessthanoneerrorper10,000DNAbases(99.99%accuracy),andthatthesequenceshouldbecontiguous(withoutgaps).Nature429,365-368(27May2004)草图顺序1)达到普通质量但尚未完成的基因组DNA顺序,其精确度高于90%.所处染色体位置已知,一般长度约10kb.2)草图顺序可分为3个等级:Phase0:测序覆盖顺序一次的DNA序列;Phase1:测序覆盖顺序4-10次的BAC克隆,BAC及内部片段的位置和排列方向未定.Phase2:测序覆盖顺序4-10次的BAC克隆,BAC及内部片段的位置和排列方向已定.完成顺序1)完成顺序系指已测序的,每10000个碱基中出现一个差错,且内部不存在间隙的DNA顺序.2)完成顺序也称为Phase3期顺序.人类基因组鸟枪法测序情况1)样品2)方法3)结果人类基因组测序样品人类基因组鸟枪法测序组装利用的成对顺序人类基因组草图顺序1)国际联合体的测序结果:总长:2692Mb基因数:263832)CerelaGenomics

1 / 69
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功