RNA-seq名词解释诺禾致源转录调控研究部2014.03.21基本概念RNA-seq:基于二代测序技术,研究特定细胞在某一功能状态下所有RNA的功能,主要包括mRNA和非编码RNA。能够全面快速地获得某一物种特定组织或器官在某一状态下的几乎所有转录本序列信息,已广泛应用于基础研究、临床诊断和药物研发等领域。Q20,Q30:Phred数值大于20、30的碱基占总体碱基的百分比,其中Phred=-10log10(e).gene:具有编码蛋白质或决定某一性状作用的一段核酸序列。intron:内含子,是真核生物细胞DNA中的间插序列。这些序列被转录在前体RNA中,经过剪接被去除,最终不存在于成熟RNA分子中。术语内含子也指编码相应RNA内含子的DNA中的区域。exon:外显子,是真核生物基因的一部分,它在剪接(Splicing)后仍会被保存下来,并可在蛋白质生物合成过程中被表达为蛋白质。外显子是最后出现在成熟RNA中的基因序列,又称表达序列。既存在于最初的转录产物中,也存在于成熟的RNA分子中的核苷酸序列。术语外显子也指编码相应RNA外显子的DNA中的区域。intergenic:基因间区,指基因与基因之间的间隔序列,不属于基因结构,不直接决定氨基酸,可能通过转录后调控影响性状的区域。UTR:UntranslatedRegions,非翻译区域。是信使RNA(mRNA)分子两端的非编码片段。5'-UTR从mRNA起点的甲基化鸟嘌呤核苷酸帽延伸至AUG起始密码子,3'-UTR从编码区末端的终止密码子延伸至多聚A尾巴(Poly-A)的前端。transcript:转录本,是由一条基因通过转录形成的一种或多种可供编码蛋白质的成熟的mRNA。一条基因通过内含子的不同剪接可构成不同的转录本。isoform:同一个基因经可变剪切或内含子选择机制产生不同的转录本,这些不同转录本即称isoform。reconstruction:重组,由于不同DNA链的断裂和连接而产生DNA片段的交换和重新组合,从而形成新DNA分子。plusstrand/minusstrand:正链/负链。对于一个基因来说,DNA的两条链中有一条链作为RNA合成时的模板,这条链叫负链,另一条叫正链。antisensestrand/sensestrand:无义链/有义链。模板链在双链DNA中,用来转录mRNA的DNA链称为模板链(templatestrand),不用于转录的链则称为非模板链(nontemplatestrand)。根据碱基互补配对原则,转录出的mRNA链的碱基序列与非模板链的碱基序列一致,惟一不同的是,非模板链中的T在mRNA链中全部置换成了U。正是由于非模板链的碱基序列实际上代表了mRNA的碱基序列(只不过在mRNA中T换成了U),因此非模板链又被称为编码链(codingstrand),有义链(sensestrand)和克里克链(crickstrand),而用来转录mRNA的DNA链被称为非编码链(anticodingstrand)或无义链(antisensestrand)或沃森链(watsonstrand)。genefamily:基因家族。真核细胞中,许多相关的基因常按功能成套组合,被称为基因家族。它们来源于同一祖先,由一个基因通过基因重复产生两个或更多的拷贝而构成的一组基因,它们在结构和功能上具有明显的相似性,编码相似的蛋白质产物。gtf/gff:基因结构注释文件。gtf(genetransferformat)指包含基因特征的注释文件,而gff(generalfeatureformat)是指包含基因组特征的注释文件。ORF:openreadingframe,开放阅读框或开放读码框。是结构基因的正常核苷酸序列,从起始密码子到终止密码子的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。referencegenome/reference:参考基因组。RNA-seq有参分析的基础。smallRNA:是长度大约在18-30bp的非编码RNA分子,包括microRNAs、siRNAs和piRNAs,是生命活动重要的调控因子,在基因表达调控、生物个体发育、代谢及疾病的发生等生理过程中起着重要作用。ncRNA:non-codingRNA,非编码RNA。指不编码蛋白质的RNA。其中包括rRNA,tRNA,snRNA,snoRNA和microRNA等多种已知功能的RNA,及未知功能的RNA。其共同特点是都能从基因组上转录而来,不需要翻译成蛋白即可在RNA水平上行使各自的生物学功能。lncRNA:longnoncodingRNA,长链非编码RNA。长度在200-100000nt之间,不具有编码蛋白功能的转录本。根据与编码基因的位置关系可分为:AntisenselncRNA(反义长非编码RNA)、IntroniclncRNA(内含子长非编码RNA)、LongintergenicnoncodingRNA(基因间区长非编码RNA)、SenselncRNA(正义长非编码RNA)、BidirectionallncRNA(双向长非编码RNA)。建库测序相关libraryconstruction:文库构建,高通量测序前准备步骤。针对不同的研究目的建库方法不同。通常包括核酸样品检测、片段化、(扩增)、加接头、片段选择、纯化、浓度检测等步骤。insertsize:插入片段大小,决定测序的长度。adaptor:接头,用于上机测序。建库时引入的接头序列与测序芯片(flowcell)上固定的接头相互识别。strandspecific:链特异性。链特异性建库,可以确定转录本来自正链还是负链。以便更加准确的获得基因的结构以及基因表达信息。并且可以更好的发现新的基因。(研究表明:很多基因组区域具有正负链的转录本,反义转录是真核基因的一个特征,是一种重要的调控方式。对于原核以及低等真核生物的基因组,常常具有重叠基因。)SE:SingleEnd单端。测序策略的一种。PE:PairedEnd双端。测序策略的一种。index:测序的标签,用于测定混合样本,通过每个样本添加的不同标签进行数据区分,鉴别测序样品。Run:一台测序仪运行一个完整周期所产生的所有数据量。flowcell:一种含有接头的芯片,测序仪中使用的器材,通常一台测序仪可放1-2张;测序时将样品、试剂等注入flowcell的通道中,发送测序反应,并可以通过拍照等手段从中捕获测序信号。lane:flowcel中的通道;通常Hiseq2500flowcell中有2个通道,可产生数据约150M/lane,Hiseq2000flowcell中有8个通道,可产生数据约180M/lane;每个通道中只限制数据量,不限制样品数目。fragment:实验中样品totalRNA/DNA随机打断后产生的片段。sequencingdepth:测序深度。测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2M,测序深度为10X,那么获得的总数据量为20M。Illumina/HiSeqMiSeq:Illumina二代测序仪顶级提供商,Hiseq与Miseq为其两款测序仪。Miseq相比于Hiseq每个run测序速度更快,序列更长,但数据量较少。拼接相关assembly:组装/拼接,为得到原始序列,依据重叠关系将段片段融合成长序列的过程N50(或N90):按照长度将拼接得到的转录本从大到小排序,依次累加转录本的长度,到不小于总长50%/90%的拼接转录本的长度就是N50(或N90)。kmer:在reads上逐碱基截取一定长度的序列,得到的每个短序列即为一个kmer。contig:根据reads间重叠关系,拼接成的短DNA片段。singlets:在拼接中,不能与其他reads形成重叠的小片段。scaffold:基因组denovo测序,通过reads拼接获得contigs后,往往还需要构建454Paired-end库或IlluminaMate-pair库,以获得一定大小片段(如3Kb、6Kb、10Kb、20Kb)两端的序列。基于这些序列,可以确定一些contig之间的顺序关系,这些先后顺序已知的contigs组成scaffold。换言之,scaffold是众多contigs拼接的结果,中间一般有间隔(gap)。454(isotig、isogroup):454转录组测序数据,用其专门的软件newbler拼接结果,得到isotig、isogroup这样的序列,分别相当于我们常规意义上讲的isoform、gene。isotig:相当于转录本,来自同一isogroup的不同isotigs可认为是发生了可变剪切。isogroup:相当于基因,是一组isotigs。component:TRINITY软件拼接过程中,由于contig的构造方法,使得各个contig之间不可能共享k个以上序列,因此这些inchwormcontigs不能很好的表征各种可变剪切形式和同源基因等情况,软件中“chrysalis”这一步骤将那些有重叠的contigs聚类,构成components。component就成为一组可变剪切isoform或同源基因可能的表征的集合。deBruijngraph:使用TRINITY软件拼接时,在“chrysalis”步骤中会将component通过overlap关系构建成deBruijn图,便于获取可变剪切的序列。比对相关blast:BasicLocalAlignmentSearchTool,一种序列比对的工具。mapping:reads往参考序列上做比对。(短对长)alignment:比对,通过算法获取两个或多个序列之间的相似性以至于同源性。(长度相似)junctionreads:跨越多个外显子的reads。genomebrowser:基因组浏览器,用于查看mapping结果的工具。例如:IGV,UCSCGenomebrowser。bam/sam:当测序得到的fastq文件map到基因组之后,我们通常会得到一个以sam或者bam为扩展名的文件。其记录了比对率、比对位置等具体信息。SAM的全称是SequenceAlignment/Mapformat。而BAM就是SAM的二进制文件(B取自binary)。表达定量相关TPM:一种表达量归一化方法,主要用于smallRNA分析项目:geneigeneigeneLibsizereadcountTPM/*10)(9)(=TMM:一种标准化方法,具体算法:通常,Mg值30%,Ag值5%。在我们的无重复差异分析过程中,首先计算出TMM标准化常数,然后对数据进行标准化。标准化的方法为:)*/(*106elibrarisizTMMreadcount。RPKM:表达水平的表示方式。根据RNA-seq原理,测序过程实际上是对转录组中各转录本打断后随机采样的过程。因此,当某基因的表达水平较高时,该基因上的读段数就多;当某基因的长度较长时,该基因上的读段数也会较多;另外,基因上的读段数还受到测序深度的影响,即当某次RNA-seq实验测序深度较深时,基因上的读段数也较多。因此,如果要利用读段数这一统计量来估计基因表达水平,就需要将某基因上的读段数xg除以基因的长度lg和总的测序深度w来进行归一化。基于这种思想,Mortazavi等人提出了RPKM(ReadsPerKilo-baseperMillionreads)的概念(Mortazavietal,2008),并成为RNA-seq应用早期估计基因表达水平和外显子表达水平的主要方法。RPKM方法的公式表示为:)*/(*10)()(9)(geneigeneigeneigenelibsizelengthreadcountRPKM=因此,RPKM可以作为一个衡量基因表达水平高低的重要指标。FPKM:FPKM与RPKM的用途有一定的相似之处,都是为了消除技术偏差的表达水平的表示方式。不同的是FPKM观察出双端reads中fragment的差异而RPKM关注的是reads的表达量。FPKM的计算公式为: