高通量测序在临床分子诊断中的应用与展望对于单基因遗传病,以往临床实验室主要借助于Sanger测序、等位基因特异性聚合酶链反应(allele-specificpolymerasechainreaction,AS-PCR)、荧光原位杂交、DNA印记杂交等技术进行检验。NGS技术针对癌症、心血管疾病、肾病、糖尿病等复杂性疾病的遗传学筛查与诊断提供了便捷的途径。另外,NGS技术在病原微生物的快速鉴定、药物的靶向治疗以及产前筛查等多个领域具有潜在的应用优势。1测序技术的发展及性能比较2006年,Illumina公司推出了Solexa测序平台。目前,该公司已经推出了多种型号的测序平台,如MiSeq、HiSeq、NextSeq等系列,其中MiSeq系列适合于小型基因组测序,HiSeq系列适用于大型基因组测序。2007年,美国应用生物系统公司推出SOLiD测序平台。该平台采用五轮测序法以4色荧光标记寡核苷酸的连接合成为基础,测序准确性得以提高。2010年,美国生命科学公司和太平洋生物科学公司分别发布了半导体测序平台和第3代单分子实时(singlemoleculerealtime,SMRT)DNA测序平台。这2种测序技术与以往的基于光学信号的检测技术不同,半导体测序平台通过半导体芯片直接感应在序列合成过程中磷酸二酯键3'OH基团释放的质子;第3代测序仪通过纳米孔技术记录单个聚合酶在不受干扰情况下连续合成,其中PacBioRSII每次运行能够产生60000×16条序列,每条序列的平均长度达8500bp。一般来说,以上每种测序仪在序列读段长度、准确性、测序通量、价格等多个方面存在一定的差异。焦磷酸测序平台测序读段较长,测序通量较低,成本相对较高;Illumina系列平台产生的读段相对较短,测序费用相对较低,应用比较广泛;SOLiD测序平台在通量和准确性方面相对以上2种类型的测序平台有明显改善,但是测序长度更短;半导体测序平台以及SMRT测序平台相比其他测序平台运行时间较短,另外单分子测序平台减少了测序前的扩增准备工作,测序读段较长,但是测序成本和错误率都相对较高[8-10]。一些常用的测序仪的测序原理和性能见表1。表1部分常用NGS平台的测序原理和性能概述与第1代测序技术相比,NGS技术具有以下几方面的优势:(1)通量高。以HiSeqXTen为例,每年完成人类全基因组测序的量可达到18000个左右;(2)速度快。特别是半导体测序仪,每次运行所需时间仅数小时;(3)测序成本低。应用IonTorrent检测平台对数十个基因的测序成本与应用Sanger技术对单个基因的测序成本大致相当;(4)敏感性高。特别是对于取样不均一的样本,NGS能稳定检测>1%的突变信息,对于检测异质性相对较高的肿瘤样本特别重要;(5)所需样本量少。对DNA样本的要求仅为ng数量级。总之,NGS技术能够一次性对多个靶基因进行准确检测,具有所需样本量小、敏感性高、检测成本低、耗时短等优点。2NGS技术在临床诊断中的应用在NGS技术快速发展的同时也加速了该技术在临床分子诊断中的广泛应用。根据检测目的不同,NGS技术在临床中的应用主要分为以下2种策略:(1)针对已知病因的疾病设计合适的芯片,直接对多个已知的致病基因进行靶向基因组测序;(2)针对未知病因的疾病对外显子组或全基因组进行测序。在临床应用中以上2种测序方式各有优缺点。靶向基因组测序的优点在于具有较高的测序深度、较低的检测成本,同时减轻了临床医生对高通量数据分析的压力,具有较好的应用前景,特别适合于复杂性疾病的临床分子诊断。缺点是当临床患者实际需要检测的基因数<芯片中包含的基因数量时,会导致资源浪费和检测成本升高。另外,当需要将新的基因添加到芯片中时,需要重新设计芯片并再次通过临床质量验证。而外显子组或全基因组测序技术的优点在于能够发现新的致病基因,但是测序成本相对较高。对于检测到的一些突变信息,有时还需要对患者进行跟踪随访,根据随访信息再确定突变位点是否具有临床应用价值。目前,靶向基因组测序在临床诊断中最广泛的应用是针对癌症亚型的临床诊断与治疗。如针对遗传性癌症的风险评估,利亚德基因公司针对25个癌基因中的突变位点开发了“MyRiskpanel”芯片,专门针对乳腺癌、大肠癌、卵巢癌、子宫内膜癌、胰腺癌、前列腺癌、胃癌及黑色素瘤等8种癌型并结合家系信息进行遗传风险评估和健康管理。针对美国食品与药品监督管理局(U.S.FoodandDrugAdministration,FDA)批准的临床药物,llumina公司针对26个基因的突变位点开发了“TruSightTumorpanel”芯片,根据实际检测结果针对肺癌、结肠癌、胃癌、宫颈癌进行靶向治疗[12]。另外还有“AmpliSeqCancerPanelV1”芯片、“TruseqAmpliconcancerpanel”芯片[14]等。除此之外,NGS还广泛应用于肾病、糖尿病、心血管疾病等其他复杂疾病的临床诊断中。而外显子组和全基因组测序在临床上广泛应用于筛查潜在致病基因、病原微生物的快速鉴定、产前筛查等方面。因此,测序成本已不再是影响全基因组测序应用于临床的主要障碍,重点在于如何对得到的遗传信息进行有效地解读和实际应用。尽管以上2种测序方式在临床上具有广泛的应用前景,但是在测序过程中产生的错误依然不容忽视。产生错误的原因有文库的制备、人工操作、测序数据质量控制、测序平台存在的偏好性等。因此,严格的数据分析方法和验证方法对避免产生错误的结果至关重要。在当前的临床分子诊断中,针对单个位点的遗传学变异,Sanger测序仍然被认为是分子诊断的金标准。美国医学遗传学会也建议NGS技术与Sanger测序技术二者相结合共同服务于临床遗传学诊断。3NGS检测序列变异的数据分析流程对DNA或RNA的NGS流程主要分为测序前文库制备→样本上机→测序后数据分析3个步骤。对于测序前的准备工作,靶向基因组测序或全外显子测序还需要对特定的基因序列进行纯化富集。富集方法按照原理的不同分为基于寡核苷酸杂交的富集方法和基于多重PCR的富集方法。方法的选择由多种因素决定,包括测序平台的通量、样本类型(新鲜组织、冰冻组织、石蜡包埋组织)及质量等。石蜡包埋的组织样本包含的DNA质量相对较低,因此选择多重PCR的富集方法比较合适。而血液样本、骨髓样本以及新鲜的组织样本包含的DNA质量相对较高,应用2种富集方法都能得到很好的效果。对于全外显子组测序,由于涉及到的基因的数量太多,只能应用基于寡核苷酸杂交的富集方法。测序工作完成后,如何对得到的高通量数据进行有效分析是临床实验室的又一个工作重点。一般来讲,NGS的数据分析流程主要分为以下几个步骤。3.1碱基识别测序过程经碱基识别将信号转化成FASTA或FASTQ等格式的原始序列数据,随后应用FastQC软件检测数据质量,并去除接头序列和低质量序列,一般认为质量分值<Q20的序列为低质量序列,>Q30的为高质量序列。对于多个样本混合的情况,还需要应用FastqMultx或Fastx-toolkit对读段序列进行重新分类。3.2序列比对选择合适的序列比对工具,如BWA、Bowtie、SOAP2等将得到的序列信息比对到相应的基因组参考序列上,按照SAM格式(序列比对/定位)输出比对结果。这种格式可以被多种变异检测工具处理,提供的信息包括序列读段、序列质量、在参考基因组上的位置、序列读段与参考序列之间的差异。3.3识别序列变异应用GATK等软件识别序列变异,包括单核苷酸变异和插入缺失。运行过程包括序列的局部比对→量分值的重新校准→别变异→列变异过滤等过程。3.4变异注释通过ANNOVAR或VEP等注释工具对检测到的变异进行数据库注释,注释信息包括变异类型、区域信息、在不同群体中的发生频率以及与已知疾病的确切关系等。临床实验室需要结合检测目的选择适当的注释数据库。常用的注释数据库信息见表2。根据美国医学学会的标准[42],实验室需要结合序列是否在OMIM/HGMD中有注释、变异频率、变异类型、既往报道等信息将变异主要分成以下4类:(1)已报道的致病位点;(2)新发现并预测为致病的变异位点;(3)新发现但致病性不明确的变异位点;(4)报道与临床表型相关而致病性不明确的变异位点。最后还需要结合疾病的遗传模式以及患者的实际临床表现进行综合判断。表2常用基因组注释数据库信息目前,NGS的数据分析方法已向着便捷化、智能化的方向发现。一些测序公司针对测序数据预处理及变异检测已形成较为成熟的生物信息分析流程和软件包,如美国生命科学公司的IonTorrentPGM平台随机携带的分析软件包TorrentSuite和变异识别插件TorrentVariantCaller。另外,一些互联网服务公司还形成了云服务等便捷的数据分析方式。这些分析软件和互联网技术的快速发展也将进一步加速NGS技术在临床的广泛应用。4问题与展望NGS技术的不断发展正在推动当前的医疗模式向新的精准医学模式迈进。究其主要原因在于NGS技术的发展深化了人们对遗传性疾病分子特征的认识,同时加速了该技术在临床分子诊断中的应用。目前,尽管NGS技术的临床应用具有广泛的应用前景,但尚处于起步阶段,国内测序技术的临床应用标准尚不完善,需要加速建立更加完善的行业标准。对临床科室而言,随着越来越多的潜在遗传学标志物的出现,有待临床医生提出新的个体化治疗方案,使更多的患者从精准医学中获益。另外,越来越多的NGS数据的出现,对临床实验室也提出了新的要求:临床实验室在能有效处理和分析高通量数据的同时,还应该能对获得的高通量数据进行有效的存储,方便将来再次结合临床数据进行整合分析,从中挖掘更有效的信息以适用于临床诊断。总之,随着NGS技术的持续发展和对高通量数据处理能力的不断提高,必将为临床遗传性疾病的诊断与治疗带来变革。