1DNA测序与基因芯片一、背景介绍20世纪70年代,弗雷德·桑格尔(FrederickSanger)发明基因测序技术,并因此获得诺贝尔奖。1990年10月,在全球范围内引起巨大反响的“人类基因组计划”(Humangenomeproject,HGP)正式启动,至2003年,中、美、日、德、法、英等6国科学家联合宣布人类基因组序列图绘制成功,历时13年,耗资额近30亿美元。基因组计划是人类为了探索自身奥秘所迈出的重要一步,是继曼哈顿计划和阿波罗登月计划之后,人类科学史上的又一伟大工程。就像了解人类身体构造对于目前医学发展的贡献,对人类基因组的了解对医学和其他健康科学提供必不可少的支持,可以达到从根本上认识生命的起源、种间、个体间的差异的原因,疾病产生的机制,以及长寿、衰老等困扰着人类的最基本的生命现象。此后,基因测序技术突飞猛进,测序时间明显缩短,且成本也有大幅下降。但是,随着越来越多的基因组序列得以测定,基因序列数据也正以前所未有的速度迅速增长。建立一种方法去研究如此众多基因在生命过程中所担负的功能,就大量的遗传信息进行高效、快速的检测、分析就显得格外重要,而基因芯片的出现为解决此类问题提供了光辉的前景。基因测序和基因芯片是两种重要的基因组学研究方法,是解开包括癌症在内的很多疾病与基因之间紧密联系必不可少的工具,在生命科学研究领域有着极其广泛的应用前景二、主要技术路线1.基因测序测序技术最早可以追溯到20世纪50年代,早在1954年就已经出现了关于早期测序技术的报导,即Whitfeld等用化学降解的方法测定多聚核糖核苷酸序列。直至1977年Sanger等发明的双脱氧核苷酸末端终止法和Gilbert等发明的化学降解法,标志着第一代测序技术的诞生。此后三十几年的发展中陆续产生了第二代测序技术,这些技术都采用了合成测序法,只是在DNA阵列的排布、DNA簇扩增,以及基于酶的测序生化反应方面存在差异。最近,Helicos公司的单分子测序技术和OxfordNanopareTechnologies公司正在研究的纳米孔单分子测序技术被认为是第三代测序技术。测序技术正向着高通量、低成本、长读取长度的方向发展。2(1)第一代测序技术Sanger测序法,又称末端终止法测序技术,其基本原理是利用一种DNA聚合酶来延伸结合在待定序列模板上的引物,直到掺入一种链终止核苷酸为止。每一次序列测定由一套四个独立的反应构成,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP),并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH基团,使延长的寡聚核苷酸选择性的在四种脱氧核苷酸三磷酸(G、A、T或C)处终止,终止点由反应中相应的双脱氧而定。每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几至几千碱基的链终止物。它们有共同的起点,但是终止在不同的核苷酸上,因此长度各有不同,通过凝胶电泳将这些DNA片段进行分离,同时借助自显影、非同位素标记或其它方法等进行检测。Sanger测序法经历了从最初的手工测序到半自动化、全自动化的发展。目前,最先进的一代测序设备是AppliedBiosystem3730XL测序仪。它采用毛细管电泳代替平板电泳分离技术,可以提供高质量、高通量的片段读取和序列分析,应用灵活而广泛,同时可分析96或384个样品,不间断24小时运行,自动灌胶、上样、电泳分离、检测及数据分析。如今,测定每千个碱基序列的成本是0.5美元,每天的数据通量可以达到600000个碱基,原始数据的准确率可以高达99.999%。然而,由于其对电泳分离技术的依赖,第一代测序技术在速度和成本方面都已达到了极限,使其很难有进一步提升分析速度和提高并行化程度的空间,并且很难通过微型化降低测序成本。因此,需要开发全新的技术来突破这些局限。尽管如此,第一代测序技术不会很快消失,它将于新的若干测序平台并存。其久经考验的方法可靠、准确,且已形成规模化,特别是在PCR产物测序、质粒和细菌人工染色体的末端测序、以及STR基因分型方面,将继续发挥重要作用。(2)第二代测序技术第二代测序技术作为对传统测序一次革命性的改变,是最近几年建立的高通量技术,其特点是一次测序反应可以产生千万到亿万条序列,而测序的成本大大降低,因此又称下一次测序技术(NextGenerationSequence,NGS)。所有下一代测序平台的核心思想都是边合成边测序(SequencingbySynthesis),即通过捕捉新合成的末端的标记来确定DNA序列。目前为止,3种广泛使用的商业化平台技术是Roche公司的454FLX技术、Illumina公司的Solexa技术和ABI公司的SOLiD技术。它们基本都是在20世纪90年代末被发明和开发出来,在2005年前后商业化,通过几年的发展,每种平台都有不同程度的升级。这三个技术平台各有优点,454FLX的测序片段比较长,高质量的读长能达到400bp;Solexa测序性价比最高,不仅机器的售价比其他两种低,而且运行成本也低,在数据量3相同的情况下,成本只有454测序的1/10;SOLiD测序的准确度高,原始碱基数据的准确度大于99.94%,而在15X覆盖率时的准确度可以达到99.999%,是目前第二代测序技术中准确度最高的。但是,所有的这些平台都遵循了类似的工作流程,尽管从模板文库制备、片段扩增到测序,这些方法所采用的技术与生物化学相当多样,但是都采用了大规模矩阵结构的微阵列分析技术,阵列上的DNA样本可以被同时并行分析。首先,构建DNA模板库。通过随机打断基因组DNA获得长度为数十到数百碱基的的DNA文库片段,或者构建控制距离分布的配对末端片段。接着,在双链片段的两端连上接头序列,然后变性得到单链模板文库,并固定在固体表面上,固体表面可以是平面或是微球的表面。克隆的扩增通过以下几种方式之一进行,如桥式PCR、微乳滴PCR或原位成簇。随后,对在芯片上的DNA簇或扩增微球,利用聚合酶或者连接酶进行一系列循环的反应操作,通过显微检测系统监控每个循环生化反应中产生的光学事件,用CCD相机将图像采集并记录下来,对产生的阵列图像进行时序分析,获得DNA片段的序列。最后,按照一定的计算机方法将这些片段组装成更长的重叠群。在一般性描述中,下一代测序技术的特点显而易见:第一,通过有序或者无序的阵列配置可以实现大规模的并行化,以提供高程度的信息密度。不同的测序平台一次实验可以读取40万到400万条序列,读取长度从25bp到450bp,读取的碱基数从1G到14G不等,这样庞大的测序能力是传统测序仪所不能比拟的。第二,不采用电泳,设备易于微型化。相对于第一代测序技术,第二代测序的样本和试剂消耗量得以降低,但是第二代测序仪的推广可能因为其价格昂贵有些困难,只有当实验室的测序工作量非常大时才会考虑购买。目前,一些模式生物的全基因组测序、非模式生物的全基因组测序以及一些生物的转录组测序都采用了第二代测序技术。(3)第三代测序技术尽管第二代测序技术已显示出巨大的潜力,但是因为科学的不断进步,在给测序技术提出新的要求时,也给这项技术带来了新的增长点。2008年4月HelicoBioScience公司的Timothy等人在Science上报道了他们开发的真正的单分子测序技术,也被成为第三代测序技术。这项技术完全跨过了第二代测序技术依赖基于PCR扩增的信号放大过程,真正达到了读取单个荧光分子的能力,向100美元测定一个人类基因组的目标迈进了一大步。第三代测序技术实现了DNA聚合酶内在自身的反应速度,一秒可以测10个碱基,测序速度是化学法测序的2万倍;它还实现了DNA酶内在的延续性,一次反应就可以测长达几千个碱基的序列,这为基因组的重复序列的拼接提供了4非常好的条件;而其还有两个应用是第二代测序所不具备的,即可以直接测RNA的序列和可以直接测甲基化的DNA序列。目前来看,这种第三代测序仪将主要用于使用第一和第二代测序仪无法解决的人类基因组片段的测序以及表观遗传学研究领域。在不远的将来,如果他们能和二代测序一样集成100万个纳米微孔,那么一台仪器15分钟就能够准确地测出一个人的基因组。2.基因芯片基因芯片(GeneChip)的原型是80年代中期提出的,系指将大量探针分子固定于支持物上后与标记的样品分子进行杂交,通过检测每个探针分子的杂交信号强度进而获取样品分子的数量和序列信息。它将生命科学研究中所涉及的不连续的分析过程(如样品制备、化学反应和分析检测),利用微电子、微机械、化学、物理技术、计算机技术在固体芯片表面构建的微流体分析单元和系统,使之连续化、集成化、微型化。该技术的发展直接得益于探针固相原位合成技术和照相平板印刷技术的有机结合以及激光共聚焦显微技术的引入,它使得合成、固定高密度的数以万计的探针分子切实可行,而且可以对杂交信号进行实时、灵敏、准确的检测和分析,因此又称DNA微阵列(DNAMicroarray)。基因芯片技术主要包括四个基本要点:芯片方阵的构建、样品的制备、生物分子反应和信号的检测。目前DNA探针列阵的构建方法主要有两种策略:即直接在芯片上进行的寡聚核苷酸探针原位合成(InSituSynthesis)和芯片外(Off-chip)的探针合成两种方法,通过这些方法可以将寡聚核苷酸或短肽固定到诸如玻璃片、硅片、聚丙烯膜、硝酸纤维素膜、尼龙膜等经过特殊处理的固相支持物上。然后将待测样品用荧光或其它方法标记后作为靶分子与基因芯片上的探针阵列杂交,由于在基因芯片阵列中某一特定位置上的核苷酸序列是已知的,所以对微阵列每一位点的信号进行检测,即可对样品的遗传信息进行定性定量分析。而检测和分析测定方法主要为荧光法,其重复性好,不足之处是灵敏度仍较低。同时,质谱法、化学发光法、光导纤维法也正在逐步发展。罗氏(Roche)、安捷伦(Agilent)、昂飞(Affymetrix)、Illumina等多家公司都针对不同的研究需求推出了多种芯片,包括了表达谱芯片、SNP芯片、比较基因组杂交(CGH)芯片、microRNA芯片、DNA甲基化芯片、染色质免疫共沉淀(Chip-on-chip)芯片等各种基因芯片产品。1998年底美国科学促进会将基因芯片技术列为年度自然科学领域十大进展之一,足见其在科学史上的意义。在实际应用方面,基因芯片这一时代的宠儿已被应用到生物科学众多的领域之中,包括疾病诊断和治疗、药物筛选、农作物的优育优选、司法鉴定、食品卫生监督、环境检测、国防、航天等许多领域。它将为人类认识生命的起源、遗传、5发育与进化、为人类疾病的诊断、治疗和防治开辟全新的途径,为生物大分子的全新设计和药物开发中先导化合物的快速筛选和药物基因组学研究提供技术支撑平台。在疾病诊断方面,与传统的检测方法相比,它可以在一张芯片上,同时对多个病人进行多种疾病的检测,还可以从分子水平上了解疾病,使医务人员能在短时间内掌握大量的疾病诊断信息,找到正确的治疗措施,指导临床用药。三、应用领域将测序技术与生物芯片技术相结合,使其成为广泛使用的常规实验手段,可以协助广大科研工作者以更低廉的价格,更全面、更深入地分析基因组、转录组及蛋白质组的各项数据,快速和准确地获取生物体的遗传信息,这对于生命科学的研究具有十分重要的意义。1.疾病研究与诊断大多数人类常见疾病,如糖尿病、高血压、冠心病、银屑病、精神分裂症、阿兹海默症等,因具有患病率高,发病机理复杂,难以治愈等特点,也只是困扰医学界的难题。这些疾病都是由多个微效基因的累加效应结合环境因素共同作用所导致,也被成为多基因遗传病。对于这类疾病的研究主要集中在寻找和定位疾病易感基因方面。例如,利用全基因组关联分析(Genome-WideAssociationStudies,,GWAS),通过分析标签单核甘酸多态性(SingleNucleotidePolymorphisms,SNPs)检测人类基因组中大多数常见的SNPs,识别人类基因组中可能与复杂疾病相关联的变异。这种方法最近几年在人类医学领域中发展迅速,在过去五年中,研究人员利用GWAS对100多种复杂疾