DNA第2代测序技术与遗传学发展•一.DNA第2代测序技术•二.遗传学的发展•三.第2代测序技术对遗传学发展的影响1.1什么是DNA第2代测序技术•第2代测序技术(next-generationsequencing)是对传统Sanger法测序的一次革命性的改变,是一次可对几十万到几百万条DNA分子进行序列测定的高通量的测序技术,同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能,所以又被称为深度测序(deepsequencing)。一.DNA第2代测序技术1.2为什么要发展第2代测序技术•快速和准确地获取生物体的遗传信息对于生命科学研究一直具有十分重要的意义。对于每个生物体来说,基因组包含了整个生物体的遗传信息。测序技术能够真实地反映基因组DNA上的遗传信息,进而比较全面地揭示基因组的复杂性和多样性,因而在生命科学研究中扮演了十分重要的角色。•1977年Sanger等发明的双脱氧核苷酸末端终止法和Gilbert等发明的化学降解法,标志着第一代测序技术的诞生。•尽管第一代测序技术已经帮助人们完成了从噬菌体基因组到人类基因组草图等大量的测序工作,但由于其存在成本高、速度慢等方面的不足,并不是最理想的测序方法。经过不断的开发和测试,进入21世纪后,以Roche公司的454技术、Illumina公司的Solexa技术和ABI公司的SOLiD技术为标志的第二代测序技术诞生了。1.3第2代测序技术的特点•速度快•准确度高•成本低•覆盖度深•产出巨大1.4第2代测序技术的原理•第2代测序技术包括Roche公司的454技术、Illumina公司的Solexa技术和ABI公司的SOLiD技术。•下面对三种第二代测序技术的原理和特点分别进行具体介绍。图1.454测序技术流程•454技术的主要缺点是无法准确测量同聚物(homopolymer)的长度。例如当待测序列中出现Poly(A)的情况下,测序反应中会一次加上多个T,而加入T的数目只能从荧光信号的强度来推测,有可能造成结果不准确。也正是因为这个原因,454技术主要的错误不是来自核苷酸的替换,而是来自插入或缺失。•454技术最大的优势在于较长的读取长度,使得后继的序列拼接工作更加高效、准确。图2.Solexa测序技术流程•Solexa技术的读取长度可以达到2×75bp,相比454技术,其后续的序列拼接工作的计算量和难度均大大增加。Solexa技术主要的错误来源是核苷酸的替换,而不是插入或缺失,目前它的错误率大约在1-1.5%之间。•Solexa技术每个循环能获得20.5-25Gb的测序结果,耗时约9.5天。•Solexa技术在合成中每次只能添加一个dNTP,因此很好地解决了同聚物长度的准确测量问题。图3.SOLiD测序技术流程•SOLiD技术与Solexa技术类似,后续的序列拼接工作也比较复杂。•SOLiD技术每个循环的数据产出量为10-15Gb,耗时约为6-7天。•SOLiD技术每个循环可以测两个上样玻片,读取长度可达2×50bp,而且由于采用两碱基测序,该技术的准确率能达到99.94%以上。1.5第2代测序技术的应用高通量测序可以帮助研究者跨过文库构建这一实验步骤,避免了亚克隆过程中引入的偏差。依靠后期强大的生物信息学分析能力,对照一个参比基因组(referencegenome)高通量测序技术可以非常轻松完成基因组重测序(re-sequence)。•2007年VanOrsouw等人结合改进的AFLP技术和454测序技术对玉米基因组进行了重测序,所发现的超过75%的SNP位点能够用SNPWave技术验证,提供了一条对复杂基因组特别是含有高度重复序列的植物基因组进行多态性分析的技术路线。•2008年Hillier对线虫CB4858品系进行Solexa重测序,寻找线虫基因组中的SNP位点和单位点的缺失或扩增。•2008年Mortazavi等人对小鼠的大脑、肝脏和骨骼肌进行了RNA深度测序。分析测得的序列,有大于90%的数据显示落在已知的外显子中,而那些在已知序列之外的信息通过数据分析展示的是从未被报道过的RNA剪切形式、3’端非翻译区、变动的启动子区域以及潜在的小RNA前体。而这些信息无论使用芯片技术还是SAGE文库测序都是无法被发现的。高通量测序技术在全基因组mRNA表达谱,microRNA表达谱,ChIP-chip以及DNA甲基化等方面的应用。•高通量测序另一个被广泛应用的领域是小分子RNA或非编码RNA(ncRNA)研究。测序方法能轻易的解决芯片技术在检测小分子时遇到的技术难题(短序列,高度同源),而且小分子RNA的短序列正好配合了高通量测序的长度,使得数据“不浪费”,同时测序方法还能在实验中发现新的小分子RNA。在衣藻、斑马鱼、果蝇、线虫、人和黑猩猩中都已经成功地找到了新的小分子RNA。在线虫中获得了40万个序列,通过分析发现了18个新的小RNA分子和一类全新的小分子RNA。•在DNA—蛋白质相互作用的研究上,染色质免疫沉淀—深度测序(ChIP-seq)实验也展示了其非常大的潜力。染色质免疫沉淀以后的DNA直接进行测序,对比refseq可以直接获得蛋白与DNA结合的位点信息,相比ChIP-chip,ChIP-seq可以检测更小的结合区段、未知的结合位点、结合位点内的突变情况和蛋白亲合力较低的区段。1.6第2代测序技术的前景•大多分析家都无法相信新一代测序技术能完全取代目前的芯片测序技术。•新一代测序仪推广困难可能由其价格昂贵导致。•但是,基因芯片也有其自身的缺点,就在于它是一个“封闭系统”,它只能检测人们已知序列的特征(或有限的变异)。而高通量测序的强项,就在于它是一个“开放系统”,它的发现能力和寻找新的信息的能力,从本质上高于芯片技术。•新一代测序技术相对传统芯片测序技术的优势,最终还得依靠广告和市场营销手段的推广才能获得大众的认可。•近期出现的Helicos公司的Heliscope单分子测序仪、PacificBiosciences公司的SMRT技术和OxfordNanoporeTechnologies公司正在研究的纳米孔单分子技术,被认为是第三代测序技术。•与前两代技术相比,第三代测序技术最大的特点是单分子测序。二.遗传学的发展•遗传学(genetics)是研究生物遗传与变异的科学;是研究基因的结构、功能及其变异、传递和表达规律的学科。•新石器时代人类就已经驯养动物和栽培植物,而后人们逐渐学会了改良动植物品种的方法。•改良品种的活动从那时以后从未中断。但是,直到18世纪下半叶和19世纪下半叶,才由拉马克和达尔文对生物界遗传和变异进行了系统的研究。•真正系统研究生物的遗传和变异是从孟德尔开始的。•孟德尔于1866年发表了论文《植物杂交试验》,首次提出分离和独立分配两个遗传规律,并认为性状遗传是受细胞里的遗传因子控制的。•但是,孟德尔的这一重要理论当时未能收到重视,直到1900年,狄·弗利斯﹑柴马克和柯伦斯三人才同时发现。•1900年孟德尔遗传规律的重新发现,被公认为遗传学建立和发展的一年,并于1906年将遗传学作为一个学科的名称。•大致是1910~1940年,这一时期通过对遗传学规律和染色体行为的研究确立了遗传的染色体学说。这一时期中虽然由美国遗传学家马勒和斯塔德勒分别在动植物中发现了X射线的诱变作用,可是对于基因突变机制的研究并没有进展。基因作用机制研究的重要成果则几乎只限于动植物色素的遗传研究方面。从1910年到现在,遗传学的发展大致可以分为三个时期:细胞遗传学时期、微生物遗传学时期和分子遗传学时期。细胞遗传学时期•大致是1940~1960年,在这一时期中,采用微生物作为材料研究基因的原初作用、精细结构、化学本质、突变机制以及细菌的基因重组、基因调控等,取得了已往在高等动植物研究中难以取得的成果,从而丰富了遗传学的基础理论。微生物遗传学时期•这一时期从1963年沃森和克里克提出DNA的双螺旋模型开始,但是50年代只在DNA分子结构和复制方面取得了一些成就,而遗传密码、mRNA、tRNA、核糖体的功能等则几乎都是60年代才得以初步阐明。•20世纪70年代初,建立了遗传工程这一新的研究领域。遗传工程是在细菌质粒和噬苗体以及限制性内切酶研究的基础上发展起来的,它不但可以应用于工、农、医各个方面,而且还进一步推进分子遗传学和其他遗传学分支学科的研究。分子遗传学时期•20世纪90年代初美国率先实施的“人类基因组计划”,旨在测定人类基因组全部约32亿个核苷酸对的排列顺序,构建控制人类生长发育的约3.5万个基因的遗传和物理图谱,确定人类基因组编码的遗传信息。•21世纪,遗传学的发展进入“后基因组时代”。三.第2代测序技术对遗传学发展的影响•DNA测序技术是遗传学研究中发展起来的一个最基本的技术,它使得研究者可以确定DNA片段的核苷酸序列。•测序技术可以运用于肿瘤学、遗传学、免疫学、病原学、微生物学、寄生虫学、药学等多学科。•昂贵的费用是阻碍个体基因组测序普及的最大障碍,而随着新的高通量测序技术的发展将使得测序变得更加廉价,而且在计算机技术的辅助下,可以将大量不同片断的序列信息连接起来(这一过程被称为“基因组组装”),因此更多生物的基因组测序将完成。•许多研究者希望能够将测定一个人的基因组信息的价格降到一千美元以内,从而使大众测序成为可能。•第三代测序技术的目标是实现全人基因组3min的测序时间及5000美元的测序价格。•THEEND!•THANKYOU!