基因表达数据分析实验指导

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

基因表达数据分析实验指导1.实验基本情况2.实验方法:2.1表达谱数据的下载2.2将表达谱数据导入matlab软件2.3补缺失值2.4数据标准化2.5差异表达基因筛选2.6选择差异表达的基因2.7对差异表达基因送入功能注释附--Matlab的MicroarrayDataAnalysis1.实验基本情况实验目的:掌握和了解常用的基因表达分析过程,包括数据下载、数据预处理、差异表达分析和基因功能注释。了解GEO、SMD、Matlab软件和WebGestalt数据库的使用。实验方法:详见下面的描述。实验作业:每位同学从GEO或SMD数据库上下载一套表达谱数据,进行数据预处理,差异表达基因分析或聚类分析等数据分析过程(依据具体问题操作,arraytool或matlab或其他软件均可),基因功能注释(WebGestalt、GO、KEGG等数据库)。实验实例分析=====================================================================2.实验方法:2.1表达谱数据的下载2.1.1从GEO数据库上下载表达谱数据1)网址及数据库概述GEO主页:数据库中包含四种类型的条目,分别以GPLXXXX(检测平台),GSMXXXX(生物样本),GSEXXXX(基因表达系列),GDSXXXX(基因表达数据集)表示。其中GPLXXXX有SAGE、MPSS、单色芯片(Affymetrix)、双色芯片(spotcDNA/DNA)几种;GSEXXXX与GDSXXXX的区别在于:GSE是实验者一次一起提交的数据集,包含原始的数据文件,而GDS是GEO数据库的维护者根据样本和实验平台的特性进行整理的,与原有的GSE数据可能有样本量上的差异;一般GDS都有对应的GSE数据;GDS不包含单独的原始数据,如果想获得其原始数据,需要链接到他的GSE网页上下载;GDS样本间的可比性更强,如果有GDS就先分析GDS。2)数据下载GEO可提供两种数据的下载,一种是整理好的soft格式数据,是一个数据矩阵,包含多个基因在多个条件下的表达值,如GDS2220.soft;另一种是单独的数据文件,每张芯片一个数据表格,如GSE3519_family.xml文件夹里的文件,就是对应GDS2220这次实验的原始数据。另外还有一个GDS2220.annot数据是提供基因描述的。具体的下载方式如下:在GEO主页上(图1),可以通过浏览(browse)或query中输入疾病名字,如风湿性关节炎(rheumatoidarthritis)在Datasets后,点击go进行搜索,结果如图2。图1.GEO的主页图2.GEO的搜索结果之后点击你感兴趣的GDS集合,如GDS2220,就进入每套数据的页面了(图3)。图3.GDS2220数据的浏览界面在图3中,点击下拉菜单中的DataSetSOFTfile,就能下载GDS2220.soft文件;点击AnnotationSOFTfile就可以下载GDS2220.annot文件;点击seriersfamilyminimlfile就可以下载GSE3519_family.xml文件夹,但这个速度较慢,这里有个小窍门,大家可以在迅雷中新建一个下载任务,粘贴地址:,这里GSE139是可以替换的,比如要下载GDS2220配套的数据,就直接把两个GSE139都替换成GSE3519就可以直接下载了;点击seriesfamilysoftfile下载的文件与GDS2220.soft类似,只是样本是GSE3519的数据,可能和GDS2220的样本不同,这里是相同的。也可以通过以下方式寻找特殊平台的数据。3)文件描述(a)GDS22.soft该文件从上到下分为三个部分:第一部分,数据集合基本描述,文字形式,以!或#开头;第二部分,表格的表头,如“ID_REFIDENTIFIERGSM80309GSM80310GSM80311GSM80312GSM80313GSM80314GSM80315GSM80316GSM80317”,以tab键分割,表示下面的数据部分每一列的含义;第三部分,数据,如GDS2220.soft中第一列为每一个基因的编号,第二列是基因名字,第三列是GSM80309样本中个基因的表达值。从图3中我们可以看出,这个表达值是“log2Ratio”;(b)GSE3519_family.xml从文件夹中可以看到,每个文件的名字很有规律,包含三类文件:第一个是GPL2715-tbl-1.txt,表示的是该实验检测平台的信息,第一列为基因的编号(与GDS2220.soft文件的第一列编号相同),第二列是基因的名字,最后三列分别对应每个基因在芯片上的block,row和column号。详情可参见:=GPL27152.1.2从SMD数据库上下载基因芯片数据主页:,如图4图4.SMD数据库主页SMD数据库也提供两种类型的数据:一种是与GDSsoft格式类似的整合后的表格,如7742.pcl,另外一种是单独的数据原始文件,与GSE3519_family.xml类似,文件如exptsetno_3977.tar.gz。1)数据下载流程:点击SMD主页(图4)上的Publication,进入数据浏览页面(图5),可进行适量的物种或发表年限筛选,选中你要下载的数据后,点击对应行的最后一列的SMD图标,进入图6的下载页面,点击view可以看见每个样本的描述,点击Rawdata可以下载原始的数据文件如exptsetno_3977.tar.gz,由于数据量太大,这里不建议下载。点击dataretrievelandanalysis,可以进行重复数据合并、缺失数据处理等过程,不用更改直接默认选项就可以了,最后网站会给你一个数据下载的链接,你点击就可以下载7742.pcl文件了(图7).图5.SMD的数据下载页面图6.具体数据的下载页面图7.合并后的数据下载,点击downloadpreclusteringfile2)例子文件共包含39729个唯一的基因的表达数据,50个样本,其中35个为RA患者,15个为正常对照组。下载地址:=664对应的文件分别为7742.pcl和exptsetno_3977.tar.gz。3)文件描述7742.pcl,第一行是表头,第二行是每一列的权重(这一列不是基因表达值,分析时要去除),第三行开始是数据。每行数据的第一列是芯片上的编号,第二列式基因的名字,这里包含多个数据库中的名字和ID,用||分隔开,第三列是基因的权重,也不是表达值,第四列开始是表达值了对应于SHFM212样本,这里每个值是log2Normorlizedmeanvalue,这个在数据整合时看见了。2.2将表达谱数据导入matlab软件Matlab中数据有三种储存格式,包括结构型数据(如maStruct.mat),cell型数据(如yeastdata.mat中的genes文件,储存的就是基因名字)和数值型数据(如yeastdata.mat中的yeastvalues文件,储存的就是基因的表达值)。所有matlab文件都可以用“load文件名”的形式导入matlab文件,但首先要把我们下载的文本或excel表格文件转换成matlab可以识别的文件。2.2.1GDS2220.soft文件的导入1)更新geosoftread.m程序由于matlab对soft格式文件导入的程序有一点小bug,我们首先要将matlab文件更新。关闭matlab,打开c:\ProgramFiles\MATLAB71\toolbox\bioinfo\microarray,将geosoftread.m文件粘贴至此文件夹,将原有文件替换。打开matlab程序,在命令行上输入:rehashtoolbox后,新的geosoftread程序就导入了。2)将matlab的当前目录转换为GDS2220.soft文件储存的目录在命令行中输入:gdsdata=geosoftread('GDS2220.soft')就将GDS2220.soft文件导入为matlab可识别的gdsdata结构文件了,该文件是一个树形文件,还包含8个子文件,想获取任何一个子文件,只需在gdsdata后加.加子文件名字即可,如你想对基因表达矩阵分析,就用gdsdata.Data,就是一个16515*20的数值矩阵,代表GDS2220.soft文件中的表达值部分。七个子文件描述如下:(%后为我添加的描述信息)gdsdata=Scope:'DATASET'%数据类型,是数据集(GDS)、样本(GSM)、系列(GSE)Accession:'GDS2220'%GEO中的编号Header:[1x1struct]ColumnDescriptions:{20x1cell}%每一列的描述,其实就是每个样本的描述ColumnNames:{20x1cell}%每一列的名字,其实就是每个样本的名字IDRef:{16512x1cell}%每一行的编号,其实就是每个基因的编号,对应.soft文件的第一列Identifier:{16512x1cell}%每一行的描述,基因的名字Data:[16512x20double]%基因表达矩阵,数值型数据最后将你导入的文件保存成matlab文件,以后就可以直接打开matlab文件分析了。存储文件的命令:savegdsdatagdsdata2.2.2对GPR格式的数据输入maStruct=gprread('mouse_a1wt.gpr');mouse_a1wt.gpr是matlab自带的一套数据,单张芯片包含原始的红光和绿光值,与我们从GEO上下载的原始数据类似,但是我们的GEO数据不可以直接用gprread命令导入。我们可以参照maStructure的结构,生成GEO导入的数据。maStructure的结构如下:maStruct=Header:[1x1struct]Data:[9504x38double]%每一行代表一个基因在一次芯片检测中的各种值,cy3,cy5等。Blocks:[9504x1double]%每个基因所在的区域Columns:[9504x1double]%每个基因所在的列Rows:[9504x1double]%每个基因所在的行Names:{9504x1cell}%基因标识IDs:{9504x1cell}%基因编号ColumnNames:{38x1cell}%每一列的含义,对应Data的38列Indices:[132x72double]%每个基因在芯片上的坐标Shape:[1x1struct]%每个block在芯片上的起始坐标提示:若想将GEO的family数据导入,则需将单独的数据样本和单独的GPL平台文件同时导入,才可生成上述的maStruct结构文件。此部分本实验不做要求,同学可自行尝试编写程序。SMD的rawdata导入时也需要编写程序2.2.3SMD的整合好的数据导入(7742.pcl)右键单击7742.pcl文件,选择用excel程序打开;删除第二列(基因名字那列),因为这列太长了,导入matlab时容易产生错误;存储为7742.xls打开matlab,点击file下拉菜单,选择import,选取7742.xls就可以导入了。生成三个文件a)Data,对应原始的数据表,但要注意第一行和第一列不是表达值可以通过命令去除:data(:,1)=[];data(1

1 / 40
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功