单位+单位+lncRNAlncRNA分析网页分析网页版结题报告版结题报告2015/12/292015/12/29目录目录1项目信息1项目信息1.1基本思想1.1基本思想1.2实验流程1.2实验流程1.2.1样本检测1.2.1样本检测1.2.2文库构建和上机测序1.2.2文库构建和上机测序1.3信息分析流程1.3信息分析流程1.4样品信息1.4样品信息2数据过滤2数据过滤2.1原始数据2.1原始数据2.2数据过滤统计2.2数据过滤统计2.3测序质量分布2.3测序质量分布2.4测序碱基分布2.4测序碱基分布3比对分析3比对分析3.1比对率分析3.1比对率分析3.2基因区域分布3.2基因区域分布3.3均一性分析3.3均一性分析3.4比对文件可视化3.4比对文件可视化4表达量分析4表达量分析4.1表达量估计4.1表达量估计4.1.1表达量分布统计4.1.1表达量分布统计4.1.2饱和度分析4.1.2饱和度分析4.1.3样品实验的聚类4.1.3样品实验的聚类4.2差异表达分析4.2差异表达分析4.2.1差异表达分析统计结果4.2.1差异表达分析统计结果4.2.2差异表达基因聚类图4.2.2差异表达基因聚类图4.2.3差异表达基因统计结果注释4.2.3差异表达基因统计结果注释4.3蛋白互作网络4.3蛋白互作网络5功能分析5功能分析5.15.1GOGO功能分析功能分析5.1.1差异表达基因的5.1.1差异表达基因的GOGO统计统计5.1.25.1.2GOGO富集分析富集分析5.25.2GOGO富集富集DAGDAG图图5.35.3KEGGKEGG通路分析通路分析6可变剪接6可变剪接6.1可变剪切分析6.1可变剪切分析6.1.1可变剪切事件分类和数量统计6.1.1可变剪切事件分类和数量统计6.1.2可变剪切事件结构和表达量6.1.2可变剪切事件结构和表达量6.2新转录本预测6.2新转录本预测7变异分析7变异分析8已知8已知lncRNAlncRNA8.1表达量分析8.1表达量分析8.1.1表达量统计8.1.1表达量统计8.1.2表达量分布统计8.1.2表达量分布统计8.1.3样品实验的聚类8.1.3样品实验的聚类8.2已知差异表达分析8.2已知差异表达分析8.2.1已知差异表达分析统计结果8.2.1已知差异表达分析统计结果8.3已知8.3已知GOGO功能分析功能分析8.3.1已知差异表达8.3.1已知差异表达lncRNAlncRNA的的GOGO统计统计8.3.2已知差异表达8.3.2已知差异表达lncRNAlncRNA的的GOGO富集分析富集分析8.3.3已知8.3.3已知GOGO富集富集DAGDAG图图8.4已知8.4已知KEGGKEGG通路分析通路分析99NovellncRNANovellncRNA9.19.1NovellncRNANovellncRNA鉴定鉴定9.2编码潜能分析9.2编码潜能分析9.2.19.2.1CPATCPAT分析分析9.2.29.2.2CNCICNCI分析分析9.2.39.2.3CPCCPC分析分析9.2.49.2.4PLEKPLEK分析分析9.3特征分析9.3特征分析9.3.19.3.1NovellncRNANovellncRNA长度统计长度统计9.3.29.3.2NovellncRNANovellncRNA外显子个数统计外显子个数统计9.3.3编码基因与9.3.3编码基因与lncRNAlncRNA转录本的长度分布比较转录本的长度分布比较9.3.4编码基因与9.3.4编码基因与lncRNAlncRNA转录本外显子分布比较转录本外显子分布比较9.4保守性分析9.4保守性分析9.4.1位点保守性9.4.1位点保守性9.4.2序列保守性9.4.2序列保守性9.5估计表达量9.5估计表达量9.5.19.5.1NovellncRNANovellncRNA表达量估计表达量估计9.5.2编码基因与9.5.2编码基因与lncRNAlncRNA表达量的比较表达量的比较9.5.39.5.3NovellncRNANovellncRNA表达量分布统计表达量分布统计9.5.49.5.4NovellncRNANovellncRNA样品实验的聚类样品实验的聚类9.69.6NovelNovel差异表达分析差异表达分析9.6.19.6.1lncRNAlncRNA差异表达分析统计结果差异表达分析统计结果9.7靶标预测分析9.7靶标预测分析9.7.19.7.1NovellncRNANovellncRNA的的CisCis作用靶标预测及功能注释作用靶标预测及功能注释9.7.29.7.2NovellncRNANovellncRNA的的TransTrans靶标预测及功能注释靶标预测及功能注释9.7.39.7.3WGCNAWGCNA预测预测TransTrans靶标靶标9.7.49.7.4NovellncRNANovellncRNA靶基因调控网络分析靶基因调控网络分析9.8组织特异性9.8组织特异性10附录10附录10.1参考文献10.1参考文献10.2软件与方法说明10.2软件与方法说明10.3结果目录10.3结果目录1项目信息1项目信息1.1基本思想1.1基本思想安诺优达lncRNA测序,基于Illumina测序平台,鉴定某个物种在特定组织或者特定时期下表达的NovellncRNA,检测mRNA、已知lncRNA和novellncRNA的表达量,并针对实际样品信息采用灵活的差异分析策略可以找到生物体不同时期、不同组织或不同个体间差异表达的mRNA和lncRNA。对于mRNA,进行功能注释,进而得到mRNA在生物体中参与生命活动的一个清晰的生物信息图谱,mRNA的深层分析包括差异表达分析、可变剪接分析、新转录本预测和变异分析等其他个性化分析;对于lncRNA,深层分析包括保守性分析、靶标预测、功能预测等功能分析。1.2实验流程1.2实验流程1.2.1样本检测1.2.1样本检测安诺优达对总RNA的样本检测包括以下3种方法:(1)1%的琼脂糖电泳检测RNA样品是否有降解以及杂质;(2)凯奥K5500分光光度计检测样品纯度(凯奥,北京);(3)安捷伦2100RNANano6000AssayKit(AgilentTechnologies,CA,USA)检测RNA样品的完整性和浓度。1.2.2文库构建和上机测序1.2.2文库构建和上机测序每个样品取3µg总RNA作为起始量构建lncRNA文库。使用Ribo-Zero™GoldKits去除样品中的rRNA,根据NEBNextUltraDirectionalRNALibraryPrepKitforIllumina(NEB,Ispawich,USA)的操作说明分别选取不同的index标签建库。文库构建的具体步骤为:首先使用试剂盒去除核糖体rRNA,向反应体系中加入FragmentationBuffer使RNA片断化成为短片段,再以片断后的RNA为模板,用六碱基随机引物(RandomHexamers)合成cDNA第一链,并加入缓冲液、dNTPs、RNaseH和DNAPolymeraseI合成cDNA第二链,经过QiaQuickPCR试剂盒纯化并加EB缓冲液洗脱经末端修复、加碱基A,加测序接头,经琼脂糖凝胶电泳回收目的大小片段,加UNG酶消化cDNA二链,并进行PCR扩增,最后琼脂糖凝胶电泳回收目的大小片段,从而完成整个文库制备工作。构建好的文库用IlluminaHiSeq/NextSeq500进行测序。测序策略为PE100。其实验流程如下:图1图1实验流程图实验流程图1.3信息分析流程1.3信息分析流程IlluminaHiSeq/NextSeq500测序所得原始下机序列(RawReads),通过去低质量序列、去接头污染等过程完成数据处理得到高质量的序列(CleanReads),后续所有分析都是基于CleanReads。安诺优达lncRNA测序信息分析流程主要分为三部分:测序数据质控、数据比对分析和lncRNA深层分析。其中,测序数据质控包括过滤测序所得序列、评估测序数据质量以及计算序列长度分布等;数据比对分析主要是针对比对到基因组中的序列,根据不同的基因组注释信息依次进行分类和特征分析,并计算相应的表达量;lncRNA深层分析包括差异表达分析、保守性分析、靶标预测、功能预测等其他个性化分析。具体的信息分析流程图如下:图2图2信息分析流程图信息分析流程图如项目仅有一个样品,无法进行虚线所示的分析内容;如果项目样品数小于3,无法进行靶标预测中的反式靶标预测和组织特异性分析。1.4样品信息1.4样品信息本项目共3个样本,样品信息示例如下:表1表1样品信息样品信息SampleSamplesample1sample1Groupgroup1Descriptiondescription2数据过滤2数据过滤2.1原始数据2.1原始数据Illumina高通量测序结果最初以原始图像数据文件存在,经CASAVA软件进行碱基识别(BaseCalling)后转化为原始测序序列(SequencedReads),我们称之为RawData,其结果以FASTQ(简称为fq)文件格式存储。FASTQ文件包含每条测序序列(Read)的名称、碱基序列以及其对应的测序质量信息。在FASTQ格式文件中,每个碱基对应一个碱基质量字符,每个碱基质量字符对应的ASCII码值减去33(Sanger质量值体系),即为该碱基的测序质量得分。对应的ASCII码值减去33(Sanger质量值体系),即为该碱基的测序质量得分。不同Score代表不同的碱基测序错误率,如Score值为20和30分别表示碱基测序错误率为1%和0.1%。其中FASTQ格式示例如下:图3图3FASTQFASTQ文件格式示例文件格式示例(1)第一行以“@”开头,随后为Illumina测序标识别符(SequenceIdentifiers)和描述文字(选择性部分);(2)第二行是碱基序列;(3)第三行以“+”开头,随后为Illumina测序标识别符(选择性部分);(4)第四行是对应碱基的测序质量,该行中每个字符对应的ASCII值减去33,即为对应第二行碱基的测序质量值。2.2数据过滤统计2.2数据过滤统计测序得到的某些原始下机序列,会含有测序接头序列以及低质量序列,为了保证信息分析数据的质量,我们对原始下机数据序列进行过滤,得到高质量的CleanReads,再进行后续分析,后续分析都基于CleanReads。数据处理步骤如下:(1)去除接头污染的Reads(Reads中接头污染的碱基数大于5bp);(2)去除低质量的Reads(Reads中质量值Q≤5的碱基占总碱基的15%以上);(3)去除含N比例大于5%的Reads;(4)去除与核糖体RNA(rRNA)匹配的Reads。Q值是PhredQualityScore的简称;N碱基是指未知碱基。对于双端测序,有一端Reads不满足以上任意一个条件,就去除该Reads。数据过滤统计结果见下表:表2表2数据过滤统计分析表数据过滤统计分析表##SamplesSamplesSample1Sample1RawReadsNumber67,301,560RawBasesNumber8,412,695,000CleanReadsNumber58,039,376CleanReadsRate(%)86.2400CleanBasesNumber7,254,922,000Low-qualityReadsNumber8,668,816Low-qualityReadsRate(%)12.8800NsReadsNumber17,872NsReadsRate(%)0.0300AdapterPollutedReadsNumber575,496AdapterPollutedReadsRate(%)0.8600RawQ30BasesRate(%)91.9500CleanQ30BasesRate(%)96.3700rRNAMappingReadsNumber2,499,397rRNAMappingRa