北京诺禾致源生物信息科技有限公司1转录组有参考基因组生物信息分析结题报告一、生物信息分析流程获得原始测序序列(SequencedReads)后,并且其相应的基因组参考序列(ReferenceGenome)可以获得的情况下,可以用有参考基因组信息分析流程对数据进行详细的分析,分析流程图如下:北京诺禾致源生物信息科技有限公司2二、结果展示1.原始序列数据高通量测序(如IllunimaHiSeqTM2000/Miseq等测序平台)测序得到的原始图像数据文件经碱基识别(BaseCalling)分析转化为原始测序序列(SequencedReads),我们称之为RawData或RawReads,结果以FASTQ(简称为fq)文件格式存储,其中包含测序序列(reads)的序列信息以及其对应的测序质量信息。测序样品中真实数据随机截取结果如下:@HWI-ST1106:227:D14F6ACXX:1:1101:1202:21881:N:0:GCCAATCGGATGATCTTCTTAATCTCTCCTTGCATAGTTATGAAACAGTCCGTGGACTTGCTGGAAAATCTCTCTTGAAGATGATGAAGAGATGGCCCTCTACAAT+CCCFFFDFFHHHHJJJJJIJIGGGIGICIGIIJEIIJIIJJI@DHEDHECFGGAHGGJGHIICGEEIEHGGGIECEEHH@HEC@EBBE@CCDDCCCDDC@HWI-ST1106:227:D14F6ACXX:1:1101:1237:22171:N:0:GCCAATGAAGGTGAGTCTGAGGAGGCCAAGGAGGGAATGTTTGTGAAAGGATATGTCTACTAAGATATTAGAAAGTATGTACTACTACTACTACTACATGTTTTCA+@@@FDADDFDHFHIIIDHIIJJJGICGGGCGHGFIGHBHEHHGI;BDHHCFGCHIIIIEHGIGHHIJJE7??ACHCDFFFFFEEECCEECACCCDC@@HWI-ST1106:227:D14F6ACXX:1:1101:1382:21951:N:0:GCCAATTTTTGCAACAATGGCTTCCACCATGATGACTACTCTACCACAGTTCAATGGACTCAAACCCCAACCTTTCTCAGCTTCTCCAATTCAAGGCTTGGTGGCA+@@@DD3DDFFFF:CDGI@GIEEDHF49C?EGFBF9?FF?C@BFEFGIII3BDDFFIIG7FFFIIBEFFIFDC3ACBDDDBD@@AAD;;;@@#######@HWI-ST1106:227:D14F6ACXX:1:1101:1255:22391:N:0:GCCAATCGGATTTTCAAGGGCCGCCGGGAGCGCACCGGACACCACGCGACGTGCGGTGCTCTTCCAGCCGCTGGACCCTACCTCCGGCTGAGCCGATTCCAGGGTG+CCCDFFFFHHH?FHIIIJJJJJIGBEHHJJBHBDDCDAC??@@BDBBBBD8BDDCDDACC@A?@BBB@CB?CBAD?9B@(8?395?4:(:@##@HWI-ST1106:227:D14F6ACXX:1:1101:1423:22391:N:0:GCCAATCTTGTATTGCTCTCCCACAACCCCGTTTTCACGGTTTAGGCTGCTCCCATTTCGCTCGCCGCTACTACGGGAATCGCTTTTGCTTTCTTTTCCTCTGGCT+CCCFDFFFHHHHHJJIJJJJJIJJGGIHIIGIIJGIGGIJJGGGJGIJFGIIGHGGBEHBCCBBDDD@BB@@AABDDBCACDCDACDCD@:@C::@C北京诺禾致源生物信息科技有限公司32.测序数据质量评估2.1测序错误率分布检查测序错误率与碱基质量有关,受测序仪本身、测序试剂、样品等多个因素共同影响。通常测序序列(SequencedReads)5’端前几个碱基的错误率相对较高,随着序列的延伸,3’端碱基错误率会不断升高,这是由高通量测序的技术特点决定的。项目结果见图1。图1测序错误率分布图横坐标为reads的碱基位置,纵坐标为单碱基错误率。其中前100个碱基位置为双端测序序列的第一端测序Reads的分布情况,随后100bp是另一端测序reads的分布情况。北京诺禾致源生物信息科技有限公司42.2A/T/G/C含量分布检查对于RNA-seq来说,因随机性打断及G/C和A/T含量分别相等的原则,理论上GC及AT含量每个测序循环上应分别相等,且整个测序过程稳定不变,呈水平线。项目结果见图2。图2GC含量分布图横坐标为reads的碱基位置,纵坐标为单碱基所占的比例。不同颜色代表不同的碱基类型北京诺禾致源生物信息科技有限公司52.3测序数据过滤测序得到的原始测序序列(SequencedReads)或者rawreads,里面含有带接头的、低质量的reads,为了保证信息分析质量,必须对rawreads过滤,得到cleanreads,后续分析都基于cleanreads。项目结果见图3。图3原始数据过滤结果北京诺禾致源生物信息科技有限公司62.4测序数据质量情况汇总样品测序产出数据质量评估情况详见表1。表1数据产出质量情况一览表SampleRawreadsCleanreadsBasesError(%)Q20(%)Q30(%)GC(%)Dup(%)TS-1_148900437488574034.89G0.0398.2494.2243.6979.61TS-1_248900437488574034.89G0.0396.9691.5943.6878.21TS-2_150753113507090695.07G0.0398.2694.343.4179.26TS-2_250753113507090695.07G0.0397.1191.9243.4477.83TR-3_137877095378190803.78G0.0397.4192.2147.7982.78TR-3_237877095378190803.78G0.0495.9189.1847.8181.45TR-5_155854530557911685.58G0.0397.993.3845.5781.97TR-5_255854530557911685.58G0.0396.6690.8345.5480.75RawReads:由测序得到的原始图像数据经basecalling转化而来的原始序列reads。Cleanreads:将RawReads过滤得到的reads。Bases(Cleanbases):过滤得到的数据的总碱基数。Error(Errorrate):指测序错误率,与碱基质量值之间有一定的对应关系。Q20:测序错误率≤1%的碱基数目比例。Q30:测序错误率≤0.1%的碱基数目比例。GCcontent:G+C的数量占总的碱基数量的百分比。Dup(Duplicationlevel):重复的reads数占总reads数的比例。北京诺禾致源生物信息科技有限公司73.参考序列比对分析3.1RNA-Seqreads参考基因组比对统计如果参考基因组选择合适并且相关实验不存在污染的情况下,实验所产生的测序序列的定位的百分比正常情况下会高于70%(TotalMappedReadsorFragments),其中具有多个定位的测序序列(MultipleMappedReadsorFragments)占总体的百分比通常不会超过10%。项目结果见表2。表2参考基因组比对的统计情况一览表SamplenameTS1TS2TR3TR5Totalreads9771480610141813875638160111582336Totalmapped88921431(91%)92225043(90.94%)54554812(72.13%)91773760(82.25%)Multiplemapped961182(0.98%)1053580(1.04%)1422941(1.88%)1481392(1.33%)Uniquelymapped87960249(90.02%)91171463(89.9%)53131871(70.24%)90292368(80.92%)Read-144157413(45.19%)45745753(45.11%)26677577(35.27%)45296200(40.59%)Read-243802836(44.83%)45425710(44.79%)26454294(34.97%)44996168(40.33%)Readsmapto'+'43944185(44.97%)45558208(44.92%)26479698(35.01%)45055089(40.38%)Readsmapto'-'44016064(45.05%)45613255(44.98%)26652173(35.24%)45237279(40.54%)Non-splicereads64211264(65.71%)67345511(66.4%)42758444(56.53%)68211989(61.13%)Splicereads23748985(24.3%)23825952(23.49%)10373427(13.71%)22080379(19.79%)Readsmappedinproperpairs77892308(79.71%)82296934(81.15%)45364262(59.98%)80126002(71.81%)北京诺禾致源生物信息科技有限公司83.2RNA-Seqreads参考基因组比对分布图定位到基因组上的测序序列分布统计,用于检测测序序列基因组上的来源。项目结果见图4。图4RNA-Seq测序得到的reads比对到参考基因组不同区域上的分布情况北京诺禾致源生物信息科技有限公司93.3RNA-Seqreads参考序列密度分布图对定位到基因组上的测序序列完成染色体密度分布统计,用于检测染色体上测序序列分布的异常情况。项目结果见图5。图5RNA-Seq测序得到的reads比对到参考基因组不同染色体上的分布情况横坐标为染色体的长度信息(以百万碱基为单位),纵坐标为log2(reads的密度的中位数)北京诺禾致源生物信息科技有限公司104.可变剪切分析对该物种及其相应的测序样品进行可变剪切事件的统计。项目结果见图6。图6可变剪切类型分析横坐标为可变剪切事件的五种分类缩写,纵坐标为该种事件下可变剪切的数量,不同颜色代表不同的样品组合或者已知的基因模型(1)Skippedexon(SE);外显子跳跃(2)Retainedintron(RI);内含子滞留(3)Alternative5’splicingstie(A5SS);可变5’端剪切(4)Alternative3’splicingsite(A3SS);可变3’端剪切(5)Mutuallyexclusiveexon(MEX);互相排斥的外显子北京诺禾致源生物信息科技有限公司115.SNP分析图7北京诺禾致源生物信息科技有限公司126.新转录本预测对所分析的物种在已知的基因模型的基础上,用所有测序的数据对新转录区域进行预测,并对新转录区域的表达水平进行统计分析,项目结果见图8,9,10。图8新转录本的RPKM累积分布图北京诺禾致源生物信息科技有限公司13图9新转录本的RPKM盒形图北京诺禾致源生物信息科技有限公司14图10新转录本的RPKM密度分布图北京诺禾致源生物信息科技有限公司157.基因表达水平分析在RNA-技术中,RPKM(ReadsPerKilobasesperMillionmappedReads)是一种表示基因表达水平的通用方法,代表每百万reads中来自于某基因每千碱基长度的reads数。项目结果见表3,4,表