施剑北京基因组研究所版权所有,侵权必究!第一章大规模基因组测序的原理与方法1、基因组学是要揭示下述四种整合体系的相互关系:(1)基因组作为信息载体(碱基对、重复序列的整体守恒与局部不平衡的关系)(2)基因组作为遗传物质的整合体(基因作为功能和结构单位与遗传学机制的关系)(3)基因组作为生物化学分子的整合体(基因产物作为功能分子与分子、细胞机制的关系)(4)物种进化的整合体(物种在地理与大气环境中的自然选择)2、为什么说基因组学是一门大科学?(1)“界门纲目科属种”,地球上现存物种近亿,所有生生灭灭的生物,无一例外,都有个基因组。(2)基因组作为信息载体,它所储存的信息是最基本的生物学信息之一;既是生命本质研究的出发点之一,又是生物信息的归宿。(3)基因组学研究包括对基因产物(转录子组和蛋白质组)的系统生物学研究。(4)基因多态性的规模化研究就是基因组多态性的研究。(5)基因组学的研究必然要上升到细胞机制、分子机制和系统生物学的水平。(6)基因组的起源与进化和物种的起源与进化一样是一个新的科学领域。(7)基因组信息正在以天文数字计算,规模化地积累,它的深入研究必将形成一个崭新的学科。(8)基因组的信息是用来发现和解释具有普遍意义的生命现象和它们的变化、内在规律、和相互关系。(9)基因组的信息含量高。基因组学的研究又在于基因组间的比较。(10)基因组学的复杂性必然导致多学科的引进和介入(各生物学科、医学、药学、计算机科学、化学、数学、物理学、电子工程学、考古学等)。(11)基因组学研究的手段和技术已经走在生命科学研究的最前沿。(12)基因组信息来自于高效率和规模化所产生的实验数据。(13)人类基因组计划证明了基因组研究的迫切性和可行性。3、大规模基因组测序的几个支撑技术是什么?(1)Sanger双脱氧末端终止法双脱氧终止法,即sanger测序法,是根据DNA在某一固定的点开始,随机在某一个特定的碱基处终止,并且在每个碱基后面进行荧光标记,产生以A、T、C、G结束的四组不同长度的一系列DNA片段,然后在尿素变性的PAGE胶上电泳进行检测,从而获得可见的DNA碱基序列。通俗点说,就是通过电泳的方法将一系列DNA片段从小到大排列起来,由于每条片段末尾都含有荧光标记的碱基,通过放射性自显影,即可读出这些碱基的种类,这些碱基的排列顺序,就是待测DNA的序列。(2)PCR技术聚合酶链式反应(PCR)是体外酶促合成特异DNA片段的一种方法,由高温变性、低温退火(复性)及适温延伸等几步反应组成一个周期,循环进行,使目的DNA得以迅速扩增,具有特异性强、灵敏度高、操作简便、省时等特点。它不仅可用于基因分离、克隆和核酸序列分析等基础研究,还可用于疾病的诊断或任何有DNA,RNA的地方.聚合酶链式反应(PolymeraseChainReaction,简称PCR)又称无细胞分子克隆或特异性DNA序列体外引物定向酶促扩增技术。(3)DNA自动测序仪的发展DNA序列测定分手工测序和自动测序,手工测序包括sanger双脱氧链终止法和maxam-gilbert化学降解法。自动化测序实际上已成为当今dna序列分析的主流。美国peabi公司已生产出373型、377型、310型、3700和3100型等dna测序仪,其中310型是临床检测实验室中使用最多的一种型号。本实验介绍的是abiprism310型dna测序仪的测序原理和操作规程。(4)生物信息学分析软件硬件设备施剑北京基因组研究所版权所有,侵权必究!4、大规模基因组测序的两种策略是什么?二者有何区别?(1)逐步克隆法(ClonebyClone)(2)全基因组霰弹法(WholeGenomeShot-gun)(3)二者的比较:项目策略全基因组霰弹法逐步克隆法遗传背景不需要需要(需构建精确的物理图谱)速度快慢费用低高计算机性能高(以全基因组为单位进行拼接)低(以BAC为单位进行拼接)适用范围工作框架图精细图代表测序物种果蝇、水稻人、线虫5、人类基因组计划所构建的四张图是什么?(1)遗传图谱:又称为连锁图谱(linkagemap),指基因或DNA标志在染色体上的相对位置与遗传距离。(2)物理图谱:以定位的DNA标记序列如STS作为路标,以DNA实际长度即bp、kb、Mb为图距的基因组图谱。(3)转录图谱:利用EST(expressedsequencetags表达序列标签)作为标记所构建的分子遗传图谱。(4)序列图谱:通过基因组测序得到的,以A、T、G、C为标记单位的基因组DNA序列。6、STS的定义,原理、要满足的条件及其来源。(1)序列标记位点(STS)是一段短的DNA序列,通常长度在100到500bp,易于识别,仅存在于待研究的染色体或基因组中。作一套STS图谱需要收集来自单条染色体或一个完整基因组的重叠的DNA片段。在图1中,从单条染色体中制备一组DNA片段,使染色体上每一点平均有5条片段对应。收集作图必需的数据时,须排列每一STS,了解哪些片段包含有哪些STS。这可以通过杂交分析来完成,但通常使用PCR方法,因为PCR更快捷,更易于自动化,两个STS共存于同—个片段的机率依赖于它们在基因组中的相近程度。如果它们相当接近、它们存在于同一片段的机会就相当大;而如果它们位置相对分开,有时它们会在同一片段上,有时则不会(图1)。因此,这些资料可用来计算两个标记间的距离,其方式与计算连锁分析中计算图距的方式相同;在连锁分析中,两个标记间的图距是根据它们的交换频率来计算的。STS作图与其相比、不同之处仅在于两个标记间的图距是根据分离频率来计算的。(2)这些片段覆盖染色体的全长,染色体上每一点平均有五条片段相对应,染色体图谱上两个接近的标记共同存在于一条片段的可能性就高,相隔较远的标记位于同一条片段中的可能性就较小。(3)一个DNA序列要成为STS,须满足两个前提。首先它的序列必须是己知的,以便于用PCR方法检测STS在不同DNA片段中存在与否。第二个要求是STS必须在待研究的染色体上有唯一的定位,或当DNA片段群覆盖全基因组时,STS在整个基因组中具有唯一的定位位点。如果STS序列具有多个定位点,那么作图数据将会模糊不清。因此需要确保STS不包含重复DNA的序列。施剑北京基因组研究所版权所有,侵权必究!(4)上述两个前提易于满足,因此可以通过多种途径获得STS,最常见的来源是:①表达序列标记:表达序列际记(expressedscquencetag,E5T)是通过互补DNA(cDNA)克隆分析获得的短序列。制备互补DNA是将mRNA转化成双链DNA.由于细胞中mRNA来自于编码蛋白的基因,故此cDNA代表了mRNA来源的细胞中表达的基因序列。EST被看做获得重要基因序列的快捷途径。即使其序列不完整,也仍然有价值。如果EST来自于单一序列DNA,不是基因家族中的某一成员,它也可以被用作STS。而所谓基因家族是指一组具有相同或相近序列的基因。②遗传标记序列:如微卫星标记。③随机基因组序列可以通过对克隆的基因组DNA的随机小片段进行测序或在数据库中搜寻贮存序列获得。7、逐步克隆法包括哪几个步骤?(1)物理图谱的构建——序列标签位点作图①确定各STS序列及其在基因组中的位置;②大插入片段基因组文库的构建;(BAC文库的构建P25)③以特定STS为标记筛选并定位克隆;④含有STS的克隆在基因组中的排序。经过这几个步骤,以定位的DNA标记序列(STS)作为路标,以DNA实际长度即bp、kb、Mb为图距的基因组图谱便构建完成了。此时我们仍然不知道具体的序列信息。只知道STS的序列和位置,以及STS间的距离。(2)大片段克隆的筛选(P36;STS-PCR反应池方案P27)该步骤包括BAC克隆的筛选和延伸克隆的筛选。前者可使相互间具有重叠片段的BAC克隆根据STS信息组装成contig,并定位与基因组上。后者主要是补充基因组中未被BAC文库覆盖的克隆序列,常用方法有指纹图谱法和末端序列步行法。经过这一步,我们得到了覆盖整个基因组全序列的克隆,以备测序。(3)霰弹法测序与“工作框架图”的构建用霰弹法对筛选到的BAC克隆进行测序,得到大量随机片段。组装这些片段,可能会出现如下问题:低碱基质量区、单链区、序列缺口、未组装区。通过重测序等手段对这些区域进行补充,即所说的Finishing,便可得到高质量的全序列。(4)序列的全组装与“完成图”构建对测序后的BAC克隆序列进行拼接,完成该基因组的序列图谱。8、全基因组霰弹法的测序流程?全基因组霰弹法测序的整个流程如下图所示(1)从头组装流程:SolexaPart&454Part(P31)(2)ReadsProcess流程:Solexaand454(P31-32)(3)Hybridassembly和基于EST的组装(4)粗测序reads的预处理P32①意义和目的;②流程;③图像分析和碱基读出;④质量控制(5)数据评价P33①Read质量分布;②文库插入大小;③MappingRate;④二聚体评价(6)用Kmer估计基因组大小(7)基因组混合拼接验证及结构变异检测流程(8)重复序列注释流程(9)基因结构及功能注释技术路线(GeneOntologyandKEGG)施剑北京基因组研究所版权所有,侵权必究!9、Kmer介绍(1)定义:就是一个长度为K的DNA序列,K通常取17。(2)用途:纠正测序错误,估计基因组大小、杂合率、重复序列的含量。(3)K-mer分布图,同样数据量的情况下,峰位决定基因组大小,峰位越靠左,基因组越大。峰值表示大部分K-mer都出现在这个深度。(4)峰位高低的影响因素:a、错误率,错误率越高,起始峰位越高,主峰相对越低;b、重复序列,重复序列越多,主峰下降越慢。(5)杂合率越高,则杂合峰越高,杂合峰出现在主峰的一半处,按照杂合峰大小估计基因组大小,基因组大小等于二倍杂合峰。(6)假设一条reads长45bp,K=17,则每个Reads产生的K-mer数=45-17+1若测序深度为10×,则K-mer实际覆盖深度=10*(45-17+1)/45(7)基因组大小:若在主峰顶端对应的K-mer次数为15,实际测序量为100G,则基因组大小=100*(45-17+1)/45/15(8)不能直接根据杂合峰和主峰的高度估计基因组的杂合率大小,只能通过模拟数据,再用实际数据与模拟数据进行比较,找出最接近的一个,来推测基因组的杂合率大小。(9)测序深度越低,杂合峰与主峰越接近y轴,随着测序深度的增加,会将杂合峰和主峰展开,容易看出杂合峰与主峰的关系。(10)纯下降的K-mer图,原因可以能是数据量不够;若开始下降后来有峰的K-mer图,前面下降的地方可能是测序错误。(11)当数据量超过K-mer最高值(255M)时,则无峰。第二章新一代测序技术一、第一代测序技术简介※Sanger测序法(双脱氧核糖核苷酸末端终止法)的原理?Sanger法是根据核苷酸在某一固定的点开始,随机在某一个特定的碱基处终止,并且在每个碱基后面进行荧光标记,产生以A、T、C、G结束的四组不同长度的一系列核苷酸,然后在尿素变性的PAGE胶上电泳进行检测,从而获得可见的DNA碱基序列。Sanger法测序的原理就是,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP)使之扩增,并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)使之终止。由于ddNTP缺乏延伸所需要的3‘-OH基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终止,终止点由反应中相应的双脱氧而定。每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几个至千以上个,相差一个碱基一系列片断。它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。二、第二代测序技术1.概述DNA测序(DNAsequencing)作为一种重要的实验技术,在生物学研究中有着广泛的应用。早在DNA双螺旋结构(WatsonandCrick,1953)被发现后不久就有人报道过DNA测