14芯片基因组技术在突变分析和微生物检测中的应用周集中DorothaeK.Thompson张晓君译朱晨光初校,张晓君校14.1前言DNA和寡核苷酸芯片为复杂核酸的检测提供了强有力的工具。芯片应用的两个主要方面是基因表达谱(例如,DeRisi等,1997;Wodicka等,1997)和遗传突变分析(Hacia,1999)。芯片基因表达谱产生整个基因组的数据,这在十年前是不可能的。以芯片进行遗传突变分析仍处于完善阶段,因此还没有很多文献报道。尽管还有很多困难,在遗传突变中,单核苷酸多态性(SNP)最适合于做芯片的靶(Broude等,2001)。而用芯片技术分析多点突变、插入、缺失和重排时遇到很大问题。最近,芯片基因组技术已被扩展到检测自然环境中的微生物(见Zhou和Thompson,2002;Zhou,2003的综述)。尽管DNA芯片技术已在纯培养物的基因表达分析中得到成功的应用,但它在复杂环境样品中的应用还没有被深入地测试和评价。理论上,芯片基因组技术具有对复杂环境样品进行全面的定量化描述的优势。然而,改进的芯片杂交用于环境研究仍在专一性、灵敏度和定量化方面面临挑战(Zhou和Thompson,2002;Zhou,2003)。本章简述芯片技术的原理以及芯片技术分析遗传突变和检测自然环境中的微生物的最新进展。介绍了以芯片分析突变的各种方法,并描述了各类可用于分析环境样品的微生物群落结构的芯片。14.2寡核苷酸芯片用于突变分析SNP是人类和其它自然或实验生物的基因组中最常见的一种类型的变异。据估计,每一千个染色体拷贝就有一个核苷酸的差异(Landegren等,1998)。SNP是突变分析的重要标记,因为它们往往位于我们感兴趣的位点附近或就位于其中,并且许多SNP或直接影响蛋白质的结构或影响基因的表达水平。另外,SNP的遗传很稳定。适当样品中的大量SNP的基因分型有助于理解疾病易感性和抗性、复杂遗传特性的差异以及人类进化的遗传变异基础(Hacia,1999)。由SNP引起的序列差异的定位、鉴定和分类是正常和疾病状态下遗传变异和表型变异的首要工作。然而,这项研究需要对数千样本的成千上万的SNP位点进行快速廉价大规模的序列分析。已经建立和使用了很多种传统方法对SNP分型,如微测序、分子信标、寡核苷酸连接和5’核酸内切酶测定(Landegren等,1998;Hirschhorn等,2000)。尽管这些方法已成功地应用于小数目的SNP的分型,它们难以满足高通量、大规模的序列比较和突变分析。为有效地进行大规模的遗传研究,需要有高通量基因分型的方法。已经建立并测试了可以对大量的SNP分型的基于芯片的实验策略,即等位基因专一性的寡核苷酸探针差异杂交和芯片引物延伸测定(Hacia,1999)。本节简要描述每个实验策略的原理及其应用。14.2.1等位基因专一性寡核苷酸芯片杂交测定用于检测基因组SNP的好方法的主要要求是能够在二倍体基因组中准确地区分纯合体与杂合体等位变异。以等位专一的寡核苷酸(ASO)探针进行差异杂交被广泛地用于芯片测定中(Yershov等,1996;Wang等,1998;Hacia,1999)。这种杂交测定依赖于短寡核苷酸与完全匹配或有错配的靶序列突变体杂交的稳定性的差异。然而,ASO分型的专一性强烈依赖探针特性与杂交条件。探针的设计对于获得专一的检测至关重要。探针与矩阵设计对完全匹配和单碱基错配DNA二倍体的杂交的区分依赖于稳定性的差异,而稳定性受探针特性与杂交条件的影响。对于大规模分析,最理想的是确定一套杂交条件能够对所有感兴趣的SNP进行有效的区分。这可以通过选择合适的ASO探针使之具有相近的解链温度,解链温度受控于探针长度、碱基组成和错配碱基在ASO中的位置。探针长度是影响双链稳定性的关键因素。一般地,要获得最大分辨力,希望探针序列要短并具有较低的双链稳定性。而长探针形成更稳定的双链,它们由于错配序列的百分比降低而使分辨力降低。另外,靶样品的单链DNA的二级结构也影响探针长度的选择。在高盐条件下,单链DNA可在链内形成二级结构。如果这个结构的稳定性高于靶DNA和ASO探针之间形成的双链的稳定性,靶DNA的单链的杂交区就不能与芯片上探针杂交。这个问题可以通过选择较长的探针序列得到部分消除,长探针可以使杂交在较高的温度下进行。较高温度下进行杂交可以使靶DNA的单链内部二级结构解链。考虑所有这些因子,ASO探针需要设计成15到25个碱基长度(Guo等,1994;Hacia和Collins,1999)。用12、15和20碱基的ASO探针测定了探针长度对专一性的影响(Guo等,1994)。所有探针产生大致相当的信号,而15碱基ASO探针获得最好的单碱基区分效果。12碱基ASO由于解链温度低而难以应用,20碱基ASO探针不能得到重复的结果。尽管G+C含量对双链稳定性具有显著的影响,由于探针序列的限制在探针设计时并不能做太多的选择。研究表明探针的G+C含量低于50%时具有很好的单碱基分辨率。含65%的G+C的探针也可获得较好的单核苷酸分辨率。错配碱基的位点也对双链稳定性有明显的影响。当错配的碱基位于探针序列的中间部位时可以对错配进行最好的区分(Pease等1994;Haria,1999)。因此,错配碱基应该放在ASO探针序列靠近中心的部位以获得最大的分辨率。许多前人的研究已证明芯片杂交方法可以对单核苷酸进行区分。为检测所有可能的单核苷酸替换,设计了分析基因型的芯片,以4个为一组的探针组来考察感兴趣的靶序列的每个核苷酸位点。其中每组的一个探针(PM)设计成与靶序列的短片段完全匹配,而其它三个探针(MM)除在特定位点被另三个碱基替换外与PM探针一样(图14.1)。例如,PM探针在中心位置有一个T,MM探针在PM的T碱基处分别为A、C和G碱基。一般对一个核苷酸位点要设计两套探针以分别与靶序列的正链和反义链互补。因此,要检测具有N个碱基对的靶序列共需要8N个探针(Hacia,1999)。这种方法被称为标准的Tiling设计。要发现两条链上所有的缺失和插入则需要更多的探针。因此以现在的技术要检测大量的缺失和插入就不大可能(Hacia,1999;Lipshutz等,1999)。用冗余探针设计的芯片的优势在于可获得高专一性和灵敏度,而大量探针的使用使随机的错误源和杂交信号的波动降到最低程度。信号增益方法Gain-of-signal)这一方法是比较与突变体(试样)和野生型(对照)序列完全匹配的探针的杂交信号(图14.2)。当一个杂合子突变体样本用荧光染料(如Cy5)标记并与基因分型芯片杂交,与突变序列完全匹配的寡核苷酸探针可观察到杂交信号。这样,相对野生型样本,突变专一的探针杂交信号将获得增益。通过分析杂交信号增益模式即可以确定待测杂合子突变样本的序列变异。然而,以此方法只能测定与芯片上已有的探针互补的突变。另外,信号增益法由于野生型序列与突变体匹配的探针较强的交互杂交,对大片段的缺失和单碱基的插入不敏感。尽管突变探针的杂交可被用于确定序列变化的性质,有时却难获得明确的结果,因此需要能使用另外独立的方法来对序列加以确认(Hacia和Collins,1999)。信号衰减方法(Loss-of-signal)这一方法通过定量比较试样与野生型PM探针杂交信号相对于对照样品的杂交信号的衰减来检测序列的变异(图14.2)。理想状态下,完全匹配于野生型序列的探针信号最强,序列改变的杂合子有50%的信号衰减,而突变的纯合子信号将完全消失。带内标的双色测定已被用于测定野生型PM探针的相对信号衰减(Hacia等,1999,1998)。这项工作中,已知的对照序列和未知的试样序列首次被两种染料标记,如荧光素(绿色)和生物素(红色),并与基因分型芯片共杂交。接下来把两种染料的信号强度标准化,计算对照序列(绿色)和试样序列(红色)与野生型PM探针杂交的信号强度的比值,最后将这些比值以野生型对照的核酸位点作图来展示序列变异的存在(图14.3)。在相同序列的区域它们的比值应该接近1.0,在有序列变化的区域会观察到一个以突变位点为中心的峰(Hacia等,1996)。理想条件下,杂合子突变会产生一个比值为2.0的峰,因为对照样本中有两个野生型的等位基因而杂合子突变试样中只有一个。由于突变的等位基因与完全匹配于野生型对照序列的探针的交互杂交,它们的比值要低于2.0。实际上,1.2是评价序列变异的合适的极值(Hacia等,1996)。对于纯合子变化,由于突变体中野生型基因的缺失,理论上的峰高为无穷大。然而,实际上,由于交互杂交峰值通常为10(Hacia等,1996)。信号衰减方法的缺点在于不能直接观察到突变。检测到的序列变化需要通过其它方法进行验证,也可以用信号增益法验证可疑的杂交信号图的衰减。由于信号增益法和信号衰减法是互补的,将二者结合起来有利于突变的检测。例如,Hacia及其同事(1996)介绍了一种用寡核苷酸芯片分析突变的双级(two-tiered)策略。第一级分析是用信号衰减法寻找可能存在的序列变异区域,野生型对照和试样可以与野生型探针以及常用的多态性探针进行芯片杂交和信号增益分析。如果用信号衰减法发现了假定的突变,则可以用信号增益法在该位点进行确认。第二级分析以信号增益法用另一个更复杂的包含碱基替换、缺失和插入的芯片确认未解释的待定的突变体。这种双级测定的方法将会是更有效和廉价的方法。应用信号增益法和信号衰减法被分别或同时用于分析序列变异(Kozal等,1996;Chee等,1996;Gingeras等,1998;Hacia等,1996,1998,1999;Wang等,1998)。展示DNA芯片用于分型的可行性和效用的最具有代表性的研究之一是对遗传性乳腺癌和卵巢癌基因BRCA1的3.43kb的11外显子的研究(Hacia等,1996,1998)。他们设计了一个由超过96000个探针组成的寡核苷酸芯片分析所有的单碱基替代、单核苷酸插入和1到5个碱基的缺失。以该芯片杂交准确地识别了15个杂合子突变中的14个。这一研究的结果表明单碱基替代一般产生比小的插入和缺失更明显的信号增益或信号衰减。同时分析双链的两条链是重要的,因为有些突变在其中一条链更易检测到。另外,信号衰减法比信号增益法更灵敏和专一。由于可能的野生型序列与突变专一探针的交互杂交,信号增益测定对大的缺失和单碱基插入不敏感。此外,该研究说明含单碱基缺失的靶可能会同具有相似序列但由单碱基替换的探针产生交互杂交。因此当用突变专一的探针鉴定特定的序列变化时应该格外小心。以信号增益法用12224个探针组成的寡核苷酸芯片测定了从102个病人分离的167个HIV-1分离物的蛋白酶基因的单碱基改变(Kozal等,1996)。序列以杂交信号评价分析并以DNA测序验证。结果碱基招回中获得了98.3%的精确度。芯片技术进行大规模人类基因组SNP分型的另一个成功的应用是在2.3Mb的人类序列(Wang等,1998)。以149个各包含150000到300000个探针的芯片通过信号增益和信号衰减法鉴定了共3241个假定的SNP。研制了一个单独的芯片可以同时鉴定500个SNP。该研究显示了芯片用于大规模SNP基因分型的可能性。最近,使用平板照相技术的寡核苷酸芯片被用于检测在有些淋巴瘤形成中发现的ATM基因(9.45kb编码区,62个外显子)的突变(Fang等,2003)。这个芯片有大于250000个25bp的探针,以这些探针在62个编码区及其连接区的双链上寻找可能的序列变异。有些探针设计成互补于可能的单碱基替代、插入和单或双碱基缺失。用双色的信号衰减法检测120个病人样本的所有可能杂合子序列变化。芯片分析表明在斗篷细胞亚型中存在很高的缺失和无义突变。该研究显示寡核苷酸芯片杂交测定可用于在野生型等位基因存在的情况下检查肿瘤样品中的突变。然而,要检测肿瘤和正常细胞的复杂化合物中所有ATM基因的可能突变,尤其是在低丰度等位基因情况下,是很困难的。高通量筛选SNP的主要障碍之一是需要以PCR扩增含SNP的DNA片段以便获得足够的灵敏度和专一性。一般很