SCIENCECHINALifeSciencesDecember2011Vol.54No.12:1121–1128doi:10.1007/s11427-011-4255-xOverviewofavailablemethodsfordiverseRNA-SeqdataanalysesCHENGeng,WANGCharles&SHITieLiu这是发在《中国科学*生命科学辑(英文版)》的一篇综述文章。摘要比较简练:“RNA-seq技术正广泛用于各种转录组研究;然而,分析和解释RNA-seq数据面临着严峻挑战。随着高通量测序技术的发展,测序成本随着测序通量急剧增加而大幅度下降。但是测序reads仍然长度很短并包含着各种测序错误。同时,错综复杂的转录组总是比我们预期的更复杂。这些挑战都急需有效地生物信息学算法来高效处理大量转录组测序数据和进行相关研究。本文概述了一些转录组测序的常规应用及其相关分析策略,包括短reads映射,外显子剪接位点检测,基因或亚型表达定量,差异表达分析和转录组重构。”开头是一些常见的背景介绍:“RNA-seq是转录组研究的一种强有力的技术。它使我们能研究在不同组织不同阶段以及不同条件下生物体的基因活性。相比于微阵列技术,RNA-seq能捕获理论上一个细胞的快照中几乎所有表达的转录本,而微阵列依赖于先验信息、不能检测新剪接体、新基因和新转录本。此外,RNA-seq具有很低的背景噪音和很高的灵敏度,所需RNA样本更少,正随着技术的快速进步变得更划算。RNA-seq的这些优点使我们能更全面地说明转录组的复杂性并生成关于各物种的一个空前的转录组全景图。迄今为止,RNA-seq已经用于大量物种的各类研究,如推断可变剪接、定量基因和转录本的表达、检测基因融合、揭示lncRNAs和表达的外显子中的SNVs。尽管RNA-seq对这些研究有很大助益,但它仍面临很多来自测序技术自身和数据的生物信息学分析的挑战。具体来说,RNA-seq有文库构建的偏倚,链特异性文库仍然不太容易生产但对决定转录本定向很重要。而且,RNA-seq产生了大量数据,read长度通常较短而且存在测序错误。这些方面对有效处理大量RNA-seq数据的相应方法和算法构成挑战。参考基因组序列对于准确地进行各种RNA-seq研究是至关重要的,因为它提供了reads映射的模板。参考序列上的相关注释能够指导算法来优化对结果的分析。由于目前的测序技术主要用于模式生物和研究中涉及的一般物种,很多其他生物仍待测序、缺乏可用的参考基因组。此外,尽管一些生物的基因组被测过序,但是其参考基因组仍有空隙没有补全或者其参考基因组没有被很好地注释。对于这些有相对完整和高质量基因组的生物来说,我们能直接映射RNA-seqreads到参考序列上并进行各种转录组研究。但是,对于那些没有参考基因组或者其参考基因组不完整的生物来说,需要其他方法来完成相关研究。在本综述中,我们提供了对目前进行各种转录组研究的可用方法的一个概述,这些方法可利用转录组测序数据,包括短read映射、外显子剪接位点检测、基因或亚型表达定量、差异表达分析和转录组重构。考虑到一些物种有建好的参考基因组,而大多数其它物种仍没有相应的可用参考序列,,所以我们还提供了为达到相应研究目标的不同策略的相关建议。”1、RNA-seq的应用将摘要所说的几点应用领域展开,依逻辑顺序,首先是短read映射:“转录组测序reads通常首先映射到基因组或转录组序列上,而reads比对对基于首先映射的分析方法来说是一个基础和关键的步骤。基因组序列的复杂性对于短reads的映射准确度有直接影响。原核基因组较小而且其基因组序列不像真核的那么复杂。但是,哺乳类基因组通常很大、包含很多重复性和同源性序列。这些高度的序列相似是短reads映射的巨大挑战。而且,来自剪接位点的reads需要劈成片段以跨过内含子然后映射到参考基因组序列上。然而外显子和内含子长度差别很大,这些差别造成了开发性能优良的跨基因组映射算法的困难。假设内含子过短或过长,就要花更多的计算时间来搜索其真正边界和正确地映射这些片段。如果外显子比read长度更短,则带有这些外显子的read在映射时就需要劈成多个片段,这会进一步使过程复杂化。此外,对于35-400bp长的reads来说,其中的测序错误和reads的大量性也增加了比对的困难度和含糊不清。于是,快速精确地映射这些短read序列对于有效处理RNA-seq数据和完成各种分析人物来说是至关重要的。RNA-seq的短read映射器可分成拼接型和不拼接型。不拼接型read映射器适合于比对read到已知转录本数据库来定量基因或亚型的表达。拼接型映射器通常用于比对read到参考基因组,考虑到内含子而允许大空隙。这些拼接型read比对器首先使用不拼接型比对器将read比对到参考基因组,然后把未映射的read劈成更短的片段并独立地映射它们以跨过可能的内含子。它们通常用于推断外显子剪接位点,下一节将会介绍。目前,两种经典的方法广泛用于不拼接短短read映射器:HashLook-upTable算法和基于Burrows-WheelerTransform的方法。基于散列的实现(如Maq,ZOOM,RMAP,SeqMap和SOAP)可根据内存消耗进一步分成两类。一类的内存使用依赖于reads的长度和数目,另一类依赖于基因组大小和种子长度。BWT方法能显著地减少所需内存并显著地加快映射速度(如Bowtie、SOAP2和BWA)。基于散列和BWT的方法都可用于处理短reads,但由于其比对短reads的方式不同而呈现出性能上的差异。这些差异包括内存消耗、耗时(或速度)、read读长支持、映射reads数目以及比对准确度。实践中,使用BWT方法来索引参考基因组能减少内存使用并获得更高的映射速度,而基于散列的方法能达到更好的映射灵敏度和准确度。当映射短reads到参考序列时,要考虑很多因素。由于测序错误,reads中的一些核苷酸可能是错误的并会影响reads映射。需要一个预处理来去除低质量碱基或reads。尽管很多短reads比对器允许错配,但只有少数几个支持有空隙的比对(对于考虑插入缺失是很重要的)。此外,一些软件在reads比对时考虑了碱基质量而另一些则没有。另一个大的挑战是同源基因家族、重复序列和同一基因的可变剪接亚型之间高度的序列相似性会引起映射的歧义性,并导致一些reads映射到多个位置。这些因子会影响下一步的分析,如可变剪接检测、基因或亚型表达定量。因此,解决这些read映射难题对于首先映射的相关研究是至关重要的。为处理多映射reads也提出了一些方法,如按唯一比对reads数目的比例分配,利用生成性统计模型和相关推断方法来解决reads映射不确定性的计算问题。”其次是外显子剪接位点检测:“可变剪接在真核基因转炉过程中非常普遍,对于基因组产生各种RNAs来确保相关机体功能正常非常重要。目前只有少数模式生物具有相对良好注释过的外显子剪接位点,大多数物种的基因组尚未测序或很好地注释。然而,即使对于那些很好注释过的模式生物,其参考基因组的基因注释也是不完整的。Trapnell等通过分析小鼠肌细胞系的RNA-seq数据,检测到数千个先前未注释到的转录本。Guttman等从小鼠胚干细胞的转录组数据研究揭示了超过一千个大间区ncRNAs。此外,检测到的外显子剪接位点对于进一步推断基因亚型和定量基因或亚型的表达是至关重要的。因此,精确检测外显子剪接位点对于进一步分析极其重要。RNA剪接造成了正确映射reads到参考基因组的主要挑战。为鉴定外显子剪接位点,软件必须支持reads的拼接映射,因为跨剪接位点的reads需要劈成更小的片段,以映射到被可能的内含子分开的不同外显子上。已经开发了一些检测剪接位点的软件。TopHat用bowtie比对RNA-seqreads到基因组上,然后根据映射结果预测剪接位点。由于大多数内含子具有GT-AG模式,为保证准确性并节省时间,TopHat只报告跨GT-AG型内含子短于75bp的reads比对。TopHat将会支持用更长的reads搜索GC-AG和AT-AC型内含子。SpliceMap不依赖于基因结构的现有注释,能高度准确地检测新剪接位点。MapSplice是另一款有效的软件,可以快速检测高敏感性和特异性的剪接位点,它不依赖于剪接位点特征或内含子长度。最近SOAPsplice也开发出来了,可稳健地检测剪接位点而无需已知剪接位点的信息。该软件可用于从头预测剪接位点,来研究可变剪接机制。因为这些策略都需要首先映射RNA-seqreads到参考基因组,所以只适用于那些具有可用参考序列的物种。”第三是基因和亚型表达定量“RNA-seq技术之前,微阵列是研究基因表达谱的主流技术。但是在定量基因表达时,微阵列局限于基因水平。相反,RNA-seq对基因和亚型水平的基因表达都能估计。很多多外显子基因在表达时会产生多种亚型,不同亚型有不同作用。为了全面理解复杂的转录组,必须在亚型水平研究基因。我们先前的工作表明亚型水平的表达研究能使我们更详细地探索可变剪接机制,更全面地解释基因表达的复杂性。而且,RNA-seq可用于任何物种未注释的基因和亚型,而微阵列依赖于先验信息只能定量已知基因。RNA-seq的这些优点使得它对于注释新测序的基因组和检测基因注释不完整的物种的新基因和亚型来说,十分有用。到目前为止,已有很多基于RNA-seq数据的软件可用于基因表达分析。一些为定量已知基因或亚型而设计,另一些无需预先的基因结构注释信息。Cufflinks将比对结果组装成一个较差质量的转录本集合然后基于映射上的reads数目来估计这些转录本的相对丰度。Cufflinks可根据reads映射到参考基因组的结果来预测新基因和亚型。Scripture能够从头重构转录组并定量转录本表达。MISO(MixtureofIsoforms)是一个概率论框架,用推断的reads到亚型的分配来估计这些亚型的丰度。ALEXA-Seq是关于可变表达分析的方法,也可定量亚型的表达。除了这些算法外,还有其他一些软件可用于基因表达分析。用户可根据需要和研究目标来选择对应的软件执行其分析任务。基因或亚型的表达定量精确性很大程度上取决于RNA-seqreads的映射结果。参考基因组序列通常有很多重复性和同源性序列,而这些序列会引起部分reads映射的模糊性。而且,把这些reads跨过剪接位点分配到正确的参考基因组位置上是困难的。考虑到这些方面,精确定量基因或亚型表达的最好方法是直接映射reads到转录组序列上。但是转录组是复杂的,难以为一个物种构建一个绝对的完整的转录本数据库,即使对很好研究过的物种如任何小鼠也是如此。不过,如果我们只想研究已知转录本的表达谱,直接映射转录reads到这些已知的转录本上来定量其表达水平是最好的选择。”第四点就到了差异表达分析“在不同条件下,真核基因会表达出大量不同水平不同种类的亚型来满足机体需求。如果我们想评估两个不同状态或样本之间基因或亚型的表达变化,我们可以进行差异表达分析来检测差异表达基因或亚型。RNA-seq的成本在迅速减少,其相对于微阵列的优势使得它在基因和亚型表达研究中愈发流行。此外,RNA-seq可用于检测差异表达基因和亚型,而微阵列只能检测差异表达基因。因为多外显子基因可编码不同功能的亚型,所以在为研究选择恰当的技术时这是一个重要的考虑因素。尽管测序多个样品相对于微阵列仍然相对较贵,但无容置疑的是RNA-seq终将取代微阵列。对于RNA-seq来说,基因或转录本的表达水平与映射上的reads数有关,而对于微阵列,这反映为杂交过程后获得的荧光水平。如果两个不同实验条件下观测到的一个基因或转录本的read数差异或变化是统计显著的,则这个基因或转录本可认为是RNA-seq数据中差异表达的。但是在进行差异表达分析时,应该考虑到RNA-seq的一些偏倚,如测序深度、样本间计数分布和基因或转录本长度。通常,测序深度越高,计数越高。同时,样本间计数分布也会有差异。