基于二代测序技术的RNA-seq数据应用深度解析张学铭科技服务事业部技术总监xuemingzhang@genome.cnIRNA-seq产品介绍IIIIIIVRNA-seq流程和关键点解析RNA-seq生物信息分析内容解析RNA-seq数据深度挖掘目录IVRNA-seq应用案例解析MethylationNovelgenesSNP/InDelAlternativeSplicingDiff-Genes(c/nc)Non-codingRNAs’targetsGenesFunctionAnnotation/Enrichment引入---基因表达调控中关注的信息RNA的主要类型RNAFamily分类名称生物学作用CodingRNAMessengerRNA,mRNA编码蛋白质NoncodingRNALongnoncodingRNA,lncRNA调控功能•染色质结构•DNA甲基化•基因转录•mRNA翻译•RNA降解SmallRNAmicroRNA,miRNASmallinterferenceRNA,siRNA(植物)Piwi-proteininteractingRNA,piRNA(动物)RibosomalRNA,rRNA形成核糖体各类RNA被研究的程度:mRNAsmallRNALncRNASmallRNA测序数字表达谱测序已知和NovelmiRNA差异表达及其作用的靶基因分析基因差异表达分析GO和KEGG富集分析蛋白互作网络分析基因结构分析融合基因、可变剪切分析、SNP分析等转录组测序测序技术研究目的NGS在转录组学研究中的应用LncRNA测序已知和NovelLncRNA差异表达及其作用的靶基因分析技术cDNAlibrary-seqMicroarrayRNA-Seq原理一代测序核酸杂交高通量测序分辨率单碱基几十到一百碱基单碱基通量低高高是否依赖基因组信息否是否背景噪音低高低成本/基因非常高低低应用同时分析所有表达基因否是是基因表达检测范围无±100倍±10,000倍基因结构研究是否是RNA-seq与其他转录调控研究的比较1.高通量、单碱基、灵敏可靠、成本低;2.可同时获得RNA的序列与丰度信息。RNA-seq优势RNA-seq流程和关键点实验设计及样本选择TotalRNA的提取与质检文库的构建及库检文库的构建及库检数据量确定及上机测序时间序列环境条件正常与病变材料选择一、取样策略不同发育阶段不同器官、不同时间点对照与处理(药物等)宿主与病原正常组织VS病变组织正常或良性细胞VS癌细胞取样策略(关键点)随机性普遍性一致性遗传背景相同避免系统误差,减少误差来源样品培养、生长环境、取样及提取方法和建库方法等一致降低个体大小、健康状况、遗传背景等因素造成的误差遗传背景最好相同或相似,以避免遗传背景差异对差异表达的影响二、实验重复的设置当生物学重复从2个变成3个或3个以上时,差异表达分析结果更准确。生物学重复的个数生物学重复的个数差异基因检出率差异转录本检出率TotalRNA样品检测(3类方法评估)微量分光光度计检测RNA样品是否有糖、蛋白及DNA等杂质污染;琼脂糖电泳分析样品的降解程度以及是否有蛋白污染等;Agilent2100检测样品的28s/18s值和RNAintegritynumber(RIN)值Agilent2100三样本的质检凯奥K5500微量分光光度计四、文库类型普通转录组文库链特异性文库DSN均一化文库全转录本文库•适用真核生物转录组和表达谱•应用广泛,技术成熟•适用真核生物转录组和表达谱•区分方向信息,信息分析优势•适用表达低丰度基因检测•适用于lncRNA、全转录本建库•适用转录组、表达谱、lncRNA•保留除rRNA外全部RNA信息Ribo-Zero™GoldKits(Human/Mouse/Rat)去除rRNA的试剂盒推荐五、确定测序数据量测序数据量取决于研究物种基因数目、长度和研究目的。物种类型基因个数基因表达定量基因结构分析高等动物3000010M-20Mcleanreads6Gb-10Gbcleandata高等植物20000-2500010M-20Mcleanreads6Gb-10Gbcleandata真菌5000-130006M-10Mcleanreads2Gb-4Gbcleandata细菌1500-40002M-4Mcleanreads1Gb-2Gbcleandata六、信息分析比较策略•不同时间节点以零时间点作为control,其余时间节点样本分别与control进行差异分析。不同时间节点样本与相邻节点样本进行比较。不同时间节点样本进行两两比较。•不同实验处理(controlVScase)Control与case间比对Case与case间比对•不同品系或处理等+不同时间节点同一时间节点不同品系样本比较同一品系(处理等)样本不同时间节点的比较横向+纵向比较与参考基因组比对比对软件:Tophat2测序序列和转录组进行比对测序序列整段比对到基因组外显子上测序序列分段比对到基因组的两个外显子差异表达分析DESeq2有生物学重复的差异基因标准:|log2Ratio|≥1,q-value0.05无生物学重复:利用DEGSeq软件进行差异基因的分析差异基因的聚类热图差异基因的火山图差异基因的维恩图差异表达基因GO功能富集差异表达基因的GO统计柱状图差异表达基因的GO的q值分布图差异表达基因的KEGG通路分析差异基因的KEGGpathway分析以及q值分布图基因结构分析基因结构分析的流程可变剪切分析可变剪切的基本事件利用ASprofile软件在已知基因模型的基础上,分析并统计各样本的12种可变剪切事件及表达量。参考序列比对结果可视化IntegrativeGenomicsViewer(IGV)是一种探索大型综合基因组数据的高性能交互式可视化工具。它支持各种各样的数据类型,包括基于芯片测序、二代测序数据和基因组注释数据等。详细信息:表达谱芯片•针对已知lncRNA进行捕获和测序分析。•目前仅有人、大鼠、小鼠有芯片提供。LncRNA研究方法基于二代测序的LncRNA分析•数据利用率高,可同时进行转录组和lncRNA分析;•可鉴定已知lncRNA,又可预测lncRNA•除人和鼠外,还可应用于其他物种LncRNA的重要生物学意义与转录因子结合,调控靶基因与microRNA效应复合物结合,导致其失去调节功能;与调节蛋白结合招募DNA,靶标染色质修饰复合物参与靶mRNA调节与加工-翻译抑制、剪切拼接、降解等不同建库方法适用范围rRNA去除方法建库适用物种:人\大鼠\小鼠;Kit:Ribo-Zero™GoldKits(Human/Mouse/Rat);主要用途:全转录组建库、lncRNA建库。适用物种:无针对性去除rRNA序列的物种DSN酶:能够选择性降解双链DNA序列,高丰度的基因形成双链的速度较快,所以降解也比较多。目的:减低高丰度表达基因,有效富集低丰度表达基因DSN全转录组建库原始测序数据测序数据质量评估参考序列比对分析GO、KEGG富集分析蛋白互作网络分析表达水平比较分析保守性比较分析mRNA-lncRNA调控网络分析Cufflinks+scripture拼接lncRNA五步筛选lncRNA筛选集lncRNA靶基因预测表达水平分析RNA-seq质量评估差异表达分析可变剪切分析SNP分析InDel分析mRNAlncRNA基因结构分析LncRNA功能验证体外实验功能验证•构建动物模型•导入过表达载体,siRNA•检测动物表型变化及生化指标和相关基因表达体内实验验证•lncRNA检测验证:qPCR、FISH•功能获得性研究:过表达载体•功能缺失性研究:siRNA、shRNARNA-seq深度数据挖掘基因/转录本表达水平定量蛋白网络互作网络构建基因共表达网络分析mRNA与基因组测序关联分析mRNA与外显子测序关联分析mRNA与ncRNA测序关联分析mRNA与Chip-Seq测序关联分析mRNA与Bisulfite测序关联分析一、基因/转录本表达水平定量图1.基因及转录本表达水平分析二、蛋白互作网络构建图2.对差异基因进行蛋白质互相作用网络进行分析transcriptionalregulation图3.WGCNA(weightedgeneco-expressionnetworkanalysis)-权重基因共表达网络分析三、基因共表达网络分析四、mRNA与基因组测序关联分析图4.mRNA与基因组测序关联分析研究技术路线PII-LP1-M1P1-VPII-R图5.HCC患者原发和转移病灶癌组织差异基因功能富集结果hpf:hourspostfertilization受精后小时数五、mRNA与外显子测序关联分析MaternalPaternal母本父本AAXCCACZygote子代RNA-SeqExome-SeqA/C个体间SNPAllelicexpressionAAC图6.mRNA与外显子测序关联分析等位基因表达情况GenenumberDevelopmentstage六、mRNA与ncRNA测序关联分析casemRNA和ncRNA建库测序数据质控,分析差异表达ncRNA筛选差异表达mRNA筛选新ncRNA功能预测ncRNA-靶基因关系分析ncRNA和mRNA联合分析染色质重塑转录调控ceRNA调控机制control图7.mRNA与ncRNA测序关联分析技术路线图LPS(细菌脂多糖)VSControl差异基因火山图与KEGG富集分析RNA-Seq和LncRNA-SeqmRNA与LncRNA测序分析流程炎症反应530个基因115个基因LPS处理后,差异显著的LncRNALncRNA的分类新LncRNAPromoterEnhancerH3K4me1/H3K4me4确定eRNAs和can-lncRNAeRNAs和can-lncRNA的分布与表达量相似七、mRNA与ChIP-Seq测序联合分析图9.mRNA与ChIP-Seq测序联合分析技术路线图JuneB基因敲出,导致小鼠牛皮癣炎症的发生,人皮肤功能未知人皮肤JuneB的功能促进角质层细胞的扩散,并且细胞的屏障功能减弱RNA-Seq测序siConsiJunB138个基因84个基因证明JuneB能够调控表皮细胞炎症反应以及细胞之间的黏附这一重要功能ChIP-Seq测序JuneB基因结合到SOSTM1启动子区域JuneB抑制皮肤炎症反应八、mRNA与甲基化测序关联分析图10.小脑中基因启动子下游区域的甲基化程度与基因表达明显呈负相关性目标:获得样本中RNA的基本信息基因结构变异+基因表达差异案例:Case1:不同器官、不同发育阶段的相关基因动态表达Case2:癌症相关的分子特征与类型分类Case3:mRNA与microRNA解析病原菌侵染的相互作用Case4:疾病相关LncRNA作用的研究RNA-seq应用案例解析Case1:RNA-Seq测序研究大鼠器官及发育阶段相关基因动态表达研究背景:大鼠被科研工作者广泛的应用于药物、化学物质毒性以及人类相关疾病的机理研究中,是非常重要的模式动物。然而,对于大鼠和人的个体的动态发育没有相关研究。材料选择:11个器官(肾上腺、大脑、心脏、肾、肝脏、肺、肌肉、脾、胸腺子宫、睾丸);4个发育阶段(2、6、21、104天)。测序及数据量:去rRNA的RNA-Seq文库IlluminaHiSeq2000SE50,总数据量8.6pM。图1.11个器官和4个发育阶段差异表达基因的聚类分析图2.不同器官及4个发育阶段之间DEG数目的CircosplotRNA-Seq数据分析:11个器官和4个发育阶段之间寻找到40064差异表达基因,65167个转录本和2367个ncRNA,表现出基因表达的发育阶段特异性和器官特异性。图3.与器官发育阶段特异性相关基因的GOTerm分析图4.Sex-specific相关基因的GOTerm分析Case2:R