►bioconductor系列教程之一分析基因芯片上可以取代MAS5的主要还有两种算法,分别是dChip和RMA。RMA算法正逐步成为microarray的主流算法。RMA全称为logscalerobustmulti-arrayanalysis,多阵列对数健壮算法。RMA算法并不直接从PM的信号中减去做为背景的MM信号,而是基于20组探针的信号分布来判断是信号还是噪音。这种算法无疑对于低噪号的实验有较大的适用性。Figure2MAS5.0,dChip和RMA算法结果比较(数据来源:SummariesofAffymetrixGeneChipprobeleveldata.IrizarryRA,BolstadBM,CollinF,CopeLM,HobbsB,SpeedTP.NucleicAcidsRes2003:31(4);)所以这里,我就主要介绍一下如何在bioConductor使用RMA算法预处理基因芯片原始数据。首先,去下载一些示例数据文件下来。这里,我使用Arabidopsis-AGAGCC数据示例。我们先把下载下来的文件解压后拷贝ArabidopsisATH1-121502.CEL文件至R工作文件夹下。首先是一个快速上手教程:12345678910111213141516171819202122232425262728293031323334353637library(affy)##加载库文件Loadingrequiredpackage:BiobaseWelcometoBioconductorVignettescontainintroductorymaterial.Toview,type'openVignette()'.TociteBioconductor,see'citation(Biobase)'andforpackages'citation(pkgname)'.Data-ReadAffy()##读取工作目录下的CEL文件eset-rma(Data)##用RMA算法预处理数据,这时它会自动下载CDF文件,所以需要联网。tryingURL'(1.7Mb)openedURLdownloaded1.7Mbpackage'ath1121501cdf'successfullyunpackedandMD5sumscheckedThedownloadedpackagesareinC:\DocumentsandSettings\jianhongou\LocalSettings\Temp\RtmpHn3D5q\downloaded_packagesBackgroundcorrectingNormalizingCalculatingExpressionwrite.exprs(eset,file=mydata.txt)##将经过处理后的数据输出至mydata.txt文件。我们从这简单的几步,就可以得到拟兰介基因芯片中每个对应的基因的表达状况了。►bioconductor系列教程之一分析基因芯片中(质量控制)上一节,我们了解了分析基因芯片的预处理的基本知识。其实那只是一个热身。这一节,我们来学习拿到基因芯片数据时更基本的操作:质量控制。只有通过质量检测合格的芯片数据才会真正地进入数据分析的步骤。本节将学习以下内容:背景MAS5标准化Affymetrix公司制定的内参教程数据下载质量控制总览图及报告使用FitPLM生成权重,残差及NUSE图像RNA降解曲线及MVA线图PCA分析总结背景通过上一节的介绍,我们了解到Affymetrix基因芯片中的探针都是由25个碱基组成的寡聚核苷酸序列。每个芯片上可能包含上百万的探针,它们被整齐有序的印刷在芯片上。而探针的排序以组为单位,随机排列。而每一组,都由20对探针组成。这一组探针被称为探针组(probeset)。每一对探针都由perfectmatch(PM)和mismatch(MM)组成,称为探针对(probepair)(figure1)。MM与PM维一的不同,就是正中央的那个碱基不同,其余的都一致。人们期待MM不会象PM那样与RNA或者DNA有特异性配对,有的只是非特异性配对。而事实上,我们都知道,这是不可能的。在后面的教程中,会可能提及一些这方面的分析。而每一个探针组都均匀包含了目标基因3’至5’不同区段特异序列。这种设计一方面可以通过均衡它们结果的方式来获取目标基因的表达强度(这一过程被称为总结步骤(summarizationstep)),另一方面,它也可以提供mRNA降解的程度信息。我们知道一般mRNA都是按5’端至3’端的顺序来降解的,而这些探针组应该能体现这一趋势。上一节我们谈到过标准化的问题。这一节并不会深入探讨这个问题,但是我们会简单地应用上一节提到过了两个标准化方法MAS5和RMA方法。使用它们只是作为一种示例来表达如何通过试用不同的标准化方法来获得最佳的结果。Affymetrix公司在指导手册上就已经提出了用于判断基因芯片质量的多种标准。这些标准大多都是依照该公司的MAS5算法而提出的,所以我们还是得重新提及一下MAS5算法。提取差异表达的基因从基因芯片当中提取生物学的信息需要合理的统计学方法。人们已经为优化传统统计学方法在基因芯片方面的应用做出了多年的努力。但是直到现在,最主要的努力依然还是依据实验设计的差别,用统计学方法提取出差异表达的基因,然后再转回使用实验的方法去验证这个结果。在提取差异表达的基因时,人们总是会有这两种考虑,一是不可漏过一个,二是不能错杀过多(在英语里称为falsediscoveryrate(FDR)错误发现率)。常见的手段是使用多种统计学方法来分析同样一个结果,尽可能多的得到差异表达的基因,而排除那些假的信号。然而学习和使用多种统计分析手段并不一定对于每一个生物学工作者都是非常容易的,这需要付出时间和努力。在这里,我们尽量多介绍几种常用的统计分析手段,并给出实践中人们常常使用的组合,来帮助你更好的分析自己的数据。现在常用的分析手段主要有:significanceanalysisofmicroarrays(SAM),CyberT和Rankproducts(RP)三种手段。其中CyberT是bioconductor当中最为常用的分析手段,因为它的算法完整地被limma库实现。但有研究指出,使用SAM和RP算法相结合可能是最佳的方案。其实任何一种算法都是有局限性的,我们需要从根本上对算法有所了解,然后才能有针对性地选择合适的算法。SAM:TusherVG,TibshiraniR,ChuG.Significanceanalysisofmicroarraysappliedtotheionizingradiationresponse.ProcNatlAcadSciUSA2001;98:5116-21CyberT:BaldiP,LongAD.ABayesianframeworkfortheanalysisofmicroarrayexpressiondata:regularizedt-testandstatisticalinferencesofgenechanges.Bioinformatics2001;17:509-19RP:BreitlingR,ArmengaudP,AmtmannA,etal.Rankproducts:asimple,yetpowerful,newmethodtodetectdifferentiallyregulatedgenesinreplicatedmicroarrayexperiments.FEBSlett2004;573:83-92