诺记标准模板提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions高级班差异表达分析&实战练习诺禾致源转录调控生物信息培训班Contents目录提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions1差异分析用途及工具2软件安装及部分原理介绍3实战练习-DESeq2&edgeRContents目录提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions1差异分析用途及工具2软件安装及部分原理介绍3实战练习-DESeq2&edgeR提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions为什么要做差异分析1)在不同背景下比较mRNA水平•同一物种,不同组织:研究基因在不同部分的表达情况•同一物种,同一组织:研究基因在不同处理下,不同条件下的表达变化•时间序列实验:基因在不同时期的表达情况与发育的关系(STEM)2)基因分类:找到细胞特异,疾病相关,处理相关的基因表达模式,用于诊断疾病和预测等3)基因网络和通路:基因在细胞活动中的功能,基因间的相互作用。提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions差异分析工具DESeq2/DESeq–有生物学重复DEGseq-无生物学重复edgeR-均可提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions一个有用的网站目录提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions1差异分析用途及工具2软件安装及部分原理介绍3实战练习实战练习-DESeq2edgeR提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions软件安装CRAN来源的包install.packages(包名称)Bioconductor来源的包source(“”)#每次打开R之后,只需做一次biocLite(包名称)载入包library(包名称)#无需引号提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions差异分析软件类型软件标准化方法数学模型FDR方法筛选标准有生物学重复DESeq2DESeq负二项分布BHpadj0.05无生物学重复DEGseqTMM泊松分布BH|log2FC|1padj0.005特殊情况(最小重复)edgeRTMM负二项分布BH|log2FC|1padj0.005提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions差异分析流程初始数据标准化(normalization)根据模型假设检验求pvalue多重假设检验得到FDR值差异基因筛选提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions差异分析流程初始数据标准化(normalization)根据模型假设检验求pvalue多重假设检验得到FDR值差异基因筛选提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions标准化消除文库大小不同(测序深度)对差异分析结果的影响Why?找到一个能反映文库大小的能够代表本次测序特有的因子,从而通过这个因子实现对原始数据read的标准化。how?提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions标准化方法标准化方法比较标准化逻辑:表达量居中基因的表达量值应该是相似的,稳定的提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions标准化方法标准化方法——DESeq每个样本表达量中位数/所有样品表达量的几何平均数提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions标准化方法标准化方法——TMMOnesampleasareferencesampleandtheothersastestsamples.Foreachtestsample,TMMiscomputedastheweightedmeanoflogratiosbetweenthistestandthereference,afterexclusionofthemostexpressedgenesandthegeneswiththelargestlogratios.提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions标准化方法效果展示提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions差异分析流程初始数据标准化(normalization)根据模型假设检验求pvalue多重假设检验得到FDR值差异基因筛选提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions差异分析模型泊松分布(Thepoissondistribution)Thecountsoftechnicalreplicatesfollowapoissondistribution(Marionietal2008).ThePoissondistributioncanbeappliedtosystemswithalargenumberofpossibleevents,eachofwhichisrare.FromWikipedia.Canbe3differentgenes,eachwiththeirownpoissondistribution.Lambdaisthemeanofthegene'sdistribution,withacertainnumberofreads.Y=axis:chancetopickthatnumberofreads.提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions差异分析模型负二项分布(Negativebinomialdistribution)TheNBmodelfitsobservedexpressiondataofRNA-seqbetter.ItisageneralizationofPoisson,and2parametersneedtobeestimated(μandφ)Counts(geneginsamplej)hasaMean=μgjVariance=μ+φμ²gjggjBiologicalCV²=φ=BiologicalCV=√φgg提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions差异分析流程初始数据标准化(normalization)根据模型假设检验求pvalue多重假设检验得到FDR值差异基因筛选提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions差异分析流程检验方法:WaldLRT多重检验方法:BH筛选出符合要求的差异基因:pvaluepadjContents目录提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions1差异分析用途及工具2软件安装及部分原理介绍3实战练习-DESeq2&edgeR提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutionsDESeq2背景拟南芥处理(N)和参考(WT)各3个生物学重复提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions数据处理提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions数据处理提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions数据处理数据导入和前期处理提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions数据处理提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions使用DESeq函数进行分析提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions输出标准化readcount提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions数据导出提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions数据处理火山图及聚类热图提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions火山图-文件处理提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions火山图-文件处理提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions火山图-开始绘图提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions火山图-图片调整提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions火山图-图片调整提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions聚类图-数据导入处理提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions聚类图-pheatmap函数提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions聚类图-图片调整提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions聚类图-不进行行聚类提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions聚类图-字体调整提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions聚类图-不显示行名提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutionsedgeR-无生物学重复为例背景线虫两个样品无生物学重复提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions数据处理初始数据提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions数据处理提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions计算标准化因子提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions计算标准化readcount提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions假设检验,多重假设检验校正提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions数据处理火山图及聚类热图提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutionsedgeR-有生物学重复为例背景仍以拟南芥为例处理(N)和参考(WT)各3个生物学重复提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions数据处理提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions计算标准化因子提供领先的基因组学解决方案ProvidingAdvancedGenomicSolutions计算标准化的readcount提供领先的