基因组测序基础知识㈠DeNovo测序也叫从头测序,是首次对一个物种的基因组进行测序,用生物信息学的分析方法对测序所得序列进行组装,从而获得该物种的基因组序列图谱。目前国际上通用的基因组DeNovo测序方法有三种:1.用IlluminaSolexaGAIIx测序仪直接测序;2.用RocheGSFLXTitanium直接完成全基因组测序;3.用ABI3730或RocheGSFLXTitanium测序,搭建骨架,再用IlluminaSolexaGAIIx进行深度测序,完成基因组拼接。采用DeNovo测序有助于研究者了解未知物种的个体全基因组序列、鉴定新基因组中全部的结构和功能元件,并且将这些信息在基因组水平上进行集成和展示、可以预测新的功能基因及进行比较基因组学研究,为后续的相关研究奠定基础。实验流程:公司服务内容1.基本服务:DNA样品检测;测序文库构建;高通量测序;数据基本分析(Basecalling,去接头,去污染);序列组装达到精细图标准2.定制服务:基因组注释及功能注释;比较基因组及分子进化分析,数据库搭建;基因组信息展示平台搭建1.基因组DeNovo测序对DNA样品有什么要求?-1-(1)对于细菌真菌,样品来源一定要单一菌落无污染,否则会严重影响测序结果的质量。基因组完整无降解(23kb以上),OD值在1.8~2.0之间;样品浓度大于30ng/μl;每次样品制备需要10μg样品,如果需要多次制备样品,则需要样品总量=制备样品次数*10μg。(2)对于植物,样品来源要求是黑暗无菌条件下培养的黄化苗或组培样品,昀好为纯合或单倍体。基因组完整无降解(23kb以上),OD值在1.8~2.0之间;样品浓度大于30ng/μl;样品总量不小于500μg,详细要求参见项目合同附件。(3)对于动物,样品来源应选用肌肉,血等脂肪含量少的部位,同一个体取样,昀好为纯合。基因组完整无降解(23kb以上),OD值在1.8~2.0之间;样品浓度大于30ng/μl;样品总量不小于500μg,详细要求参见项目合同附件。(4)基因组DeNovo组装完毕后需要构建BAC或Fosmid文库进行测序验证,用于BAC或Fosmid文库构建的样品需要保证跟DeNovo测序样本同一来源。2.DeNovo有几种测序方式目前3种测序技术Roche454,Solexa和ABISOLID均有单端测序和双端测序两种方式。在基因组DeNovo测序过程中,Roche454的单端测序读长可以达到400bp,经常用于基因组骨架的组装,而Solexa和ABISOLID双端测序可以用于组装scaffolds和填补gap。下面以solexa为例,对单端测序(Single-read)和双端测序(Paired-end和Mate-pair)进行介绍。Single-read、Paired-end和Mate-pair主要区别在测序文库的构建方法上。单端测序(Single-read)首先将DNA样本进行片段化处理形成200-500bp的片段,引物序列连接到DNA片段的一端,然后末端加上接头,将片段固定在flowcell上生成DNA簇,上机测序单端读取序列(图1)。Paired-end方法是指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点,在第一轮测序完成后,去除第一轮测序的模板链,用对读测序模块(Paired-EndModule)引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序(图2)。图1Single-read文库构建方法图2Paired-end文库构建方法-2-Mate-pair文库制备旨在生成一些短的DNA片段,这些片段包含基因组中较大跨度(2-10kb)片段两端的序列,更具体地说:首先将基因组DNA随机打断到特定大小(2-10kb范围可选);然后经末端修复,生物素标记和环化等实验步骤后,再把环化后的DNA分子打断成400-600bp的片段并通过带有链亲和霉素的磁珠把那些带有生物素标记的片段捕获。这些捕获的片段再经末端修饰和加上特定接头后建成mate-pair文库,然后上机测序(图3)。图3Matepair文库构建方法3.基因组DeNovo测序的策略?由于不同物种的基因组大小和复杂程度可能千差万别,因此全基因组测序可以根据经费预算和基因组预分析结果,灵活选择不同的测序平台或平台组合。(1)在基因组较小的物种测序计划中可以选择Roche454或Solexa测序平台。(2)对于复杂的植物大基因组可以选择两种或以上的测序平台测序,通常利用Roche454的鸟枪法测序完成基因组的初步组装,产生454contigs,然后利用Solexa或ABISOLiD的双末端测序数据确定454contigs之间的顺序和方向,形成scaffolds。昀后利用Solexa或ABISOLiD数据填充部分contigs之间的空隙,是一个比较合理和经济的测序策略。(3)另外,由于Solexa的读长已经升级到150bp,也可以直接利用Solexa的paired-end和mate-pair两种测序方式结合测序,完成较大物种的基因组拼接。4.制定测序策略前,如何估算新物种的重复序列结构?一般来说,基因组DeNovo采用多种长度的插入片段文库进行拼接,主要是为了跨越不同长度的重复序列,因此,了解基因组中的重复系列结构有助于实验方案的设计。由于不同物种基因组的重复序列结构分布不同,如人基因组中的重复片段较多,也较长,而果蝇基因组中的重-3-复片段较少,也较短,因此二者采用的拼接策略也略有不用。新物种的重复序列结构的估计一般是基于近缘物种基因中的重复序列结构,认为系统发育相近的物种,它们的重复序列结构相近。用一定长度的k-mer为框,连续截取基因组,从而得到一系列的uniquecluster和repeatcluster,画出这些cluster的分布图,估算这种长度重复序列的分布,如下图所示,人类基因组中长度在10K以上的重复序列占了很多,而果蝇基因组中则主要集中在100bp~10K范围之内,所以用短序列DeNovo组装人类基因组的时候,需要增加插入片段长度为10K的mate-pair数据。5.如何选择不同的插入片段组合达到昀佳?文库构建过程中插入片段的长度选择应考虑以下几个因素:(1)一般来说短的插入片段用来拼接contigs,而长的插入片段用来搭建骨架(scaffold);(2)选择不同的插入片段组合的策略主要是为了跨越不同长度的重复序列区。不同的生物重复片段分布不一样,举例说明,人基因组中长的重复片段较多、果蝇基因组中短的重复片段较多。要跨越片段长度较长重复序列,必须选取更大的插入片段双端测序文库,但是长的插入片段文库的偏差较大,不能准确的定位较短重复序列的问题,因此,一般长插入片段和短的插入片段的文库都是需要。但是,插入片段越长,割胶回收时片段的分布越广。2k的插入片段至少有1%的偏差,即200bp的偏差。如下图所示,短插入片段文库基本符合预期,但是长插入片段文库中发现有5%的插入片段在0~500bp的读段,将有可能增加DeNovo拼接的错误率。因此,长插入片段文库的测序深度不建议太大。(3)由于没有基因组信息,需要调查近缘物种的重复序列分布,能够帮助实验设计。详情见问题4-4-6.基因组DeNovo需要多大的覆盖率?基因组的覆盖率是指测序得到的碱基总量(bp)与基因组大小(Genome)的比值,它是评价测序量的指标之一。测序深度与基因组覆盖度之间是一个正相关的关系,测序带来的错误率或假阳性结果会随着测序深度的提升而下降。基因组DeNovo测序覆盖率的选择需要考虑测序所采用的策略。由于物种基因组的大小相差比较大,如细菌、真菌等微生物,其基因组一般比较小,可以单独采用Roche454(20-30x)或Solexa采用高覆盖率(60×左右)的策略进行测序。而对于一些基因组比较大(100M以上)的物种(如植物),会采用一些技术平台组合的方法进行测序。考虑到平台间的成本差异及各平台的优势,为更经济有效的完成基因组DeNovo测序,各种平台的覆盖率选择也不同。如由于Roche454测序成本较Solexa和ABISOLID4要高,一般在采用Roche454搭建骨架时覆盖率选择比较低(10×),然后再用Solexa和ABISOLID4进行高覆盖率的测序组装scaffolds和填补gap。另外,覆盖率的选择还要考虑所选择的测序方式,不同测序方式插入片段的长度有所差异,一般来讲长插入片段文库测序深度不能太大,会影响测序准确度(详见问题5)。图1测序量与测序覆盖度的关系图2覆盖度与contigN50值的关系7哪些因素会影响测序结果的质量?-5-(1)个体的杂合度:个体的杂合度越高,拼接难度越大,甚至可能导致序列无法拼接。(2)物种基因组的多态性:由于一些物种的个体太小,单个个体提取的基因组DNA的量可能难以满足测序的要求(如一些寄生虫),如此便需要混合多个个体进行基因组DNA抽提以用于测序。对于这类情况,需要评估该物种基因组的多态性,如果基因组的多态性太高,会影响后续基因组的拼接。(3)DNA样本的质量:对于细菌与真菌而言,样品来源一定要单一菌落无污染,动植物样本也要尽量纯合,且无污染,否则会严重影响测序结果的质量。另外制备基因组不能小于23Kb,如果片段过小,在基因组片段化(Fragment)的过程中容易造成小片段丢失,导致构建的测序文库不能完整的覆盖全基因组,对测序结果产生重大的影响。(4)另外如果基因组的某些区域的GC含量过高(GC%≥65%)会使测序过程中出现偏向性,导致某些区域的覆盖率太低,从而影响后续的拼接和注释。(5)对于重复序列过多的物种,大量重复序列的存在会产生许多错误的重叠,造成拼接产生的contigs过短,从而导致结果的严重偏差。8.全基因组DeNovo测序的拼接标准怎样?全基因组DeNovo测序拼接国际标准:基因框架图基因组精细图基因组覆盖率90%基因组覆盖率95%基因区覆盖率95%基因区覆盖率98%ContigN505kbContigN5020kbScaffoldN5020kbScaffoldN50300kb单碱基错误率0.01%单碱基错误率0.01%N50即覆盖50%所有核苷酸的昀大序列重叠群长度,把contig或scaffold从大到小排序,并对其长度进行累加,当累加长度达到全部contig或scaffold长度一半时,昀后一个contig或scaffold长度。9.如何检验基因组组装的准确性?组装的准确度对于新物种基因组组装是至关重要的,一般有下面几种方法来检验组装的准确度:(1)构建BAC或Fosmid文库,并用Sanger法测序得到序列,将BAC序列与所拼接出来的contigs做比对来查看基因组组装的准确率。如,熊猫基因组拼接后,构建了9条BACs,每条BAC都map到唯一的一条scafflold上,而98%的BAC都和拼接好的contigs很好的比对上。(2)将已知的基因序列与拼接出来的scaffolds做比对,如果两者序列结果相吻合的话,说明基因组组装较好。而且已知的基因序列越多,评价结果越可靠。-6-(3)估计组装后基因组的单碱基准确度,利用新一代测序技术,如果95%以上的基因组单碱基覆盖度超过20X,则认为该基因组的单碱基准确度较高。全基因组重测序㈡全基因组重测序是对已知基因组序列的物种进行不同个体的基因组测序,然后运用生物信息学分析手段对序列进行拼接,组装,从而获得该个体的基因组图谱;或者对不同组织(如肿瘤)进行测序,分析体细胞突变。目前3种测序技术RocheGSFLXTitanium、IlluminaSolexaGAIIx和ABISOLID4均可以满足重测序的需求;其中IlluminaSolexaGAIIx和ABSOLID4的数据读取量大,成本比RocheGSFLXTitanium要低,在基因组重测序中广泛应用。基因组的重测序可以帮助客户在全基因组水平上扫描并检测与重要性状相关的基因序列差异和结构变异,实现遗传进化分析及