基因测序及分析基因测序及分析人类基因组线粒体基因组(16.6kb) 核基因组(3200Mb) 基因外序列基因和基因有关序列约10% 约90% 专一或中等重复序列 Noncoding DNA 假基因内含子基因片段 10% 90% 专一的或低拷贝数序列中度至高度重复序列 20~30% 70~80% 分散重复序列串联重复序列/ 成簇重复序列约60% 约40% 蛋白编码基因 rRNA 基因 tRNA 基因 Coding DNA序列测定的技术Ø杂交测序法Ø质谱法Ø单分子测序法Ø原子探针显微镜测序法ØDNA 芯片法经典方法: Sanger双脱氧链终止法(Sanger,1977) MaxamGilbert DNA化学降解法(Maxam &Gilbert,1977) 新技术方法:• 与 PCR反应类似。 • 反应体系中包含:模板 DNA, Taq酶, dNTPs, ddNTPs和测序引物; • 反应过程:变性-复性-延伸-终止 Sanger双脱氧终止法Dideoxynucleotides (双脱氧核苷酸) • ddNTPs 是反应终止剂可以当作正常碱基参与复制,一旦链入DNA中,其后就不能再继续连接。 • 反应体系中dNTPs的浓度远高于 ddNTPs(一般1:3~4)。* 少一个-OH 少一个-OH 脱氧核甘酸与双脱氧核甘酸结构比较Sanger第一步:加入复制终止剂荧光检测探头电泳,看谁跑得快ddNTPs参与下的DNA复制Sanger法测序产物的平均链长取决于ddNTP:dNTP的比例,比例高时,得到较短的产物; “标记/终止法”测序产物的平均长度可通过标记反应中dNTP浓度(高浓度能得到长的产物)或终止反应的ddNTP:dNTP来调整。Sanger第二步:荧光检测Gel Electrophoresis DNA Fragment Size Determination • DNA带负电 • DNA在电泳胶中的迁移率与其片段大小有关Analyzed Raw Data • 除核苷酸序列文本文件外,全自动测序仪还提供曲线图。 • Trace diagrams are analyzed by base calling programs that use dynamic programming to match predicted and occurring peak intensity and peak location. • Base calling programs predict nucleotide locations in sequencing reads where data anomalies occur. Such as multiple peaks at one nucleotide location, spread out peaks, low intensity peaks.Maxam-Gilbert法一个末端标记的DNA片段在几组互相独立的的化学反应分别得到部分降解,其中每一组反应特异地针对某一种或某一类碱基。因此生成一系列放射性标记的分子,从共同起点(放射性标记末端)延续到发生化学降解的位点。每组混合物中均含有长短不一的DNA分子,其长度取决于该组反应所针对的碱基在原DNA全片段上的位置。此后,各组均通过聚丙烯酰胺凝胶电泳进行分离,再通过放射自显影来检测末端标记的分子。碱基特异性化学切割反应: • 硫酸二甲酯(DMS ):使DNA分子中鸟嘌呤(G)上的N 7 原子甲基化。 • 肼:使DNA分子中胸腺嘧啶(T)和胞嘧啶(C)的嘧啶环断裂;但高盐条件下,只C断裂,而不与T反应。 • 哌啶:从修饰甲基处断裂核苷酸链。在不同的酸、碱、高盐和低盐条件下,三种化学试剂按不同组合可以特异地切割核苷酸序列中特定的碱基。• G反应:DMS使G在中性和高温条件下脱落。 • G+A反应:酸性条件(如甲酸)可使A和 G嘌呤环上的N原子质子化,利用哌啶使 A、G脱落。 • T+C反应:肼(低盐) • C反应:肼(高盐)测定DNA长度~250bp。化学裂解法测定DNA的核苷酸序列杂交法SBH(Sequencingbyhybridization) • 用特定长度的具有所有可能碱基序列的寡核苷酸探针与未知序列的DNA片段杂交。根据某些探针形成的完全双链,推知目的DNA的碱基序列。基因组测序在大规模DNA测序中,目标DNA分子的长度可达上百万个bp。现在还不能直接测定整个分子的序列,然而,可以得到待测序列的一系列序列片段。序列片段是DNA双螺旋中的一条链的子序列(或子串)。这些序列片段覆盖待测序列,并且序列片段之间也存在着相互覆盖或者重叠。在一般情况下,对于一个特定的片段,我们不知道它是属于正向链还是属于反向链,也不知道该片段相对于起点的位置。另外,这样的序列片段中还可能隐含错误的信息。序列片段的长度范围300-1000bp,而目标序列的长度范围是3~100万bp,总的片段数目可达上千个。DNA序列片段组装(sequenceassembly),又称序列拼接)的任务就是根据这些序列片段,重建目标DNA序列。如果能够得到DNA一条链的序列,那么根据互补原则,另一条链的序列也就得到了。• DNA测序不能从染色体进行,首先必须克隆化,构建基因组的物理图谱。 • 先构建片段DNA克隆(以YAC或BAC为载体),并把克隆依染色体排序,这就是“染色体的克隆图”。依片段DNA克隆在染色体上所在的位置排序,可以得到相互重叠的一系列克隆,叫做“克隆重叠群”(contig)。选取有关的克隆进行DNA测序,就可以“拼装”出整个染色体或基因组的DNA序列。如果克隆片段太大仍不便于直接测序,则需通过亚克隆,构建更小的片段。 • 另外一种方法是对所有相互重叠的亚克隆进行测序,然后直接通过计算机程序根据其重叠部分进行 “拼装”。完整基因组的测序过程一般包括三个步骤:(1)建立克隆的物理图谱:如酵母人工染色体YAC(YeastArtificialChromosome)克隆、细菌人工染色体BAC(BacterialArtificialChromosome)克隆等;(2)利用鸟枪法(ShotgunStrategy)测定每个克隆的序列;(3)序列拼装和注释:当得到一段DNA序列之后,可以利用序列分析工具,进行序列的拼接;继而通过与数据库序列的比较,得到与该序列相关的信息,如基因、调控元件、重复区域等,进而对序列的生物学特性进行注释。鸟枪测序法(shotgunsequencing)大分子DNA被随机地“敲碎”成许多小片段,收集这些随机小片段并将它们全部连接到合适的测序载体(如M13噬菌体);小片段测序完成后,根据重叠区计算机将小片段整合出大分子DNA序列。这就是所谓的鸟枪测序法。将DNA大片段切割成小片段的三种方法:限制性内切酶超声波处理DNA酶I降解(加Mn2+)在这三种方法处理前,DNA的纯化非常重要,要去除载体DNA或仅由载体DNA产生的片段。DNA全序列切成小段小段和载体结合结合后进行测序Map fragments Sequence overlapping fragments Assembled sequence 基因组DNA序列测定示意图通过随机剪切得到的大分子DNA片段克隆到载体上。绘制出这些重叠片段的图谱,并对重叠片段进行测序,通过 “拼装”得到基因组序列。另一种方法不是根据片段的染色体位置,而是根据其重叠部分进行“拼装”。 Sequence all fragments and assemble鸟枪法测序的缺点 • 随着所测基因组总量增大,所需测序的片段大量增加,造成重复测定,也易丢失某些序列,且数据处理分析工作量大。 • 高等真核生物(如人类)基因组中有大量重复序列,导致判断失误。引物步移策略将待测DNA片断克隆在质粒载体上,利用引物步移延伸,从DNA片断的一端开始逐步进行序列测定,直至另一端为止。克服了鸟枪法的盲目性,并省去亚克隆制备步骤,也减轻了数据分析工作量。但由于测定下一段序列前要预先知道上游序列的碱基顺序,才能合成适当的引物进行测序。定向缺失克隆策略、染色体步查法等。