Bioconductor简介及其在生物信息学中的应用

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

封面页(设计好之后可以删掉这个文本框哦)Bioconductor简介及其在生物信息学中的应用郑广勇上海生命科学研究院主要内容Bioconductor软件介绍Bioconductor软件应用基因芯片分析中的应用BasepairBioconductorBioconductor是一个基于R语言的生物信息软件包,主要用于生物数据的注释、分析、统计、以及可视化()Basepair软件包的安装BioconductorBioconductor(1)ExperimentData;(2)Software;(3)AnnotationData基因芯片实验流程Gene-chipexperimentPicturescanRawpicture芯片数据分析流程质量控制数据预处理差异表达基因筛选聚类分析信号通路富集分析功能富集分析通过数据预处理,过滤掉低质量数据获取表达值数据,主要包括以下几个方面:数据背景处理数据标准化综合表达量计算数据预处理Fold-change值T检验经验贝叶斯(EmpiricalBayes)Wilcoxon秩和检验回归模型方法差异表达基因分析Fold-change最简单的判断差异基因的方法,在没有重复试验的条件下很常用。差异表达基因筛选方法T检验较常用的统计方法,用于判断某一基因在两个样本中其表达是否有显著性差异,不要求等方差,要求有重复试验差异表达基因筛选方法经验贝叶斯(EmpiricalBayes)T-检验的一种改进方法,将标准差及信号强度的关系使用线性模型进一步强化,提高了准确率,目前比较常用的一种方法Wilcoxon秩和检验是一种非参数的检验方法,该方法要比T-检验更加稳健,更适合非正态分布的数据线性回归模型通过线性模型模拟不同实验条件下的基因表达情况,其给出的回归方程不仅包括筛选差异表达基因部分,还包括数据的预处理部分差异表达基因筛选方法affy对数据进行表达值计算,质量控制,标准化等simpleaffy对表达数据进行质量控制,T检验,筛选出差异表达基因;affyPLM对芯片数据进行读取,质量控制,标准化;gcRMA对芯片数据进行读取,质量控制,标准化;limma采用回归模型方法进行差异表达基因筛选,读取数据,数据质量控制,标准化,用回归模型的方法筛选差异表达基因等,针对双通道数据比较全面的一套处理步骤;Bioconductor芯片分析包在基因表达数据分析中,根据处理对象与目标的不同,将聚类方法分为三类:基于基因的聚类(Gene-basedclustering)基于样本的聚类(Sample-basedclustering)双向聚类(Biclustering)表达谱数据聚类分析基因本体数据库基因本体数据库()是GO组织构建的一个结构化的标准生物学模型,旨在建立基因及其产物知识的标准词汇体系,涵盖了基因的细胞组分(cellularcomponent)、分子功能(molecularfunction)、生物学过程(biologicalprocess)。分类注释基因及其产物的功能,根据GO数据库的记录数据一一进行标注。并在细胞组分,分子功能,生物学过程中进行分类。富集分析一组差异表达基因与背景基因库,根据GO功能的注释结果进行对照比较,使用超几何分布等统计学方法,计算出两者差异的显著性,从而找到这组差异表达基因中富集的功能类别条目,从而揭示这组差异表达基因的整体功能特征。功能富集分析KEGG信号通路数据库KEGG信号通路数据库()是京都基因组数据仓库下的一个子数据库,该数据库主要提供了分子相互作用及网络的通路信息,可以帮助人们理解重要的生理生化过程的分子机制。分类注释差异表达基因位于哪些通路上或者分类中,这些通路主要涉及那些生理生化过程。富集分析通过统计分析,找出差异表达基因集富集在哪些生物学通路中,这些通路主要涉及那些生理生化过程,从而发现这组差异表达基因的在生物体内所有参与的通路信息。通路富集分析选择HG-U133A平台的6个样本作为差异表达基因筛选实例数据来源预GEO数据库(id:GSE21363)样品:HITC6细胞系(血管平滑肌细胞)实验:血清缺乏诱导目标:细胞形态影响芯片数据分析实例R软件下载工具source(“”)options(BioC_mirror=)biocLite(“GEOquery”)biocLite(c(affy,simpleaffy,affyPLM,gcRMA,limma,annotate))biocLite(hgu133a.db)下载原始数据library(GEOquery)setwd(“E:/mywork/R/test”)getGEOSuppFiles(GEO=“GSE21363”,baseDir=getwd())untar(GSE21363/GSE21363_RAW.tar,exdir=data)cels-list.files(data/,pattern=[gz])sapply(paste(data,cels,sep=/),gunzip)celpath-paste(getwd(),data,sep=/)setwd(celpath)读入数据library(affy)celfiles-c(GSM533844.CEL,GSM533845.CEL,GSM533846.CEL,GSM533847.CEL,GSM533848.CEL,GSM533849.CEL)raw.data-ReadAffy(filenames=celfiles)pData(raw.data)$Treatment-rep(c(Day0,Day8),each=3)芯片数据分析步骤datatreatmentGSM533844.CELDay0GSM533845.CELDay0GSM533846.CELDay0GSM533847.CELDay8GSM533848.CELDay8GSM533849.CELDay8质量控制(1)n.cel-length(celfiles)cols-rainbow(n.cel*1.2)boxplot(raw.data,col=cols,xlab=“ArrayIndex”,ylab=“log2(density)”)质量控制(2)hist(raw.data,lty=1:3,col=cols)legend(topright,legend=sampleNames(raw.data),lty=1:3,col=cols,box.col=transparent,xpd=T)质量控制(3)library(simpleaffy)data.qc-qc(raw.data)plot(data.qc)质量控制(4)data.deg-AffyRNAdeg(raw.data)plotAffyRNAdeg(data.deg,col=cols)legend(topleft,rownames(pData(raw.data)),col=cols,lwd=1,inset=0.05)预处理及标准化library(gcrma)data.gcrma-gcrma(raw.data)eset-exprs(data.gcrma)boxplot(eset,col=cols,main=gcRMA)差异表达基因筛选(1)library(limma)day_-factor(raw.data$Treatment)design-model.matrix(~-1+day_)contrast.matrix-makeContrasts(contrasts=day_Day8-day_Day0,levels=design)sample_idday_0day_8110210310401501601差异表达基因筛选(2)fit-lmFit(eset,design)fit1-contrasts.fit(fit,contrast.matrix)fit2-eBayes(fit1)dif-topTable(fit2,coef=day_Day8-day_Day0,n=nrow(fit2),lfc=log2(1.5))dif1-dif[dif[,adj.P.Val]0.01,]差异表达基因筛选(3)library(annotate)affydb-annPkgName(raw.data@annotation,type=db)library(affydb,character.only=T)dif1$symbols-getSYMBOL(rownames(dif1),affydb)dif1$EntrezID-getEG(rownames(dif1),affydb)dif2-dif1[(!is.na(dif1$symbols)),]head(dif2)聚类分析eset1-eset[(rownames(dif2)),]row.names(eset1)-dif2$symbolsLibrary(gplots)heatmap.2(as.matrix(eset1),col=redgreen(75),cexRow=0.2,cexCol=0.5,scale=row,trace=none,key=T,keysize=1.2,density.info=none)功能和信号通路分析(1)功能和信号通路分析(3)GO富集分析结果(top10)功能和信号通路分析(4)信号通路富集分析结果

1 / 34
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功