-1-BRB-ArrayToolsVersion3.7User’sManualbyDr.RichardSimonBiometricsResearchBranchNationalCancerInstituteandAmyPengLamTheEMMESCorporationNovember,2008TranslatedbyYujianDec,2008-2-目录目录2绪论4软件目的4软件功能概览4单通道实验须知7软件安装7系统需求7安装软件7加载到Excel整理数据8整理过程概览8整理过程中的数据输入9使用整理对话框14整理步骤的输出22筛选数据24点样筛选24数据转化25基因筛选27基因子集27注释数据28使用基因列表定义基因注释28自动导入基因注释30GeneOntology30数据分析32散点图工具32层次聚类分析工具33样本的多维尺度化37使用分类预测工具37分类比较分析38分类预测分析43生存分析49数量性状分析50预测分析、生存分析和数量性状分析工具中的某些可用选项51随机方差模型51用于控制假阳性比例和个数的多元置换检验51-3-指定重复实验和配对样本53GO数据库的观测值与期望值分析54ArrayTools中的可编程插件55已预装的插件55更多帮助56一些小技巧56安装问题答疑59汇报问题61参考文献62感谢63写在最后64绪论-4-软件目的BRB-ArrayTools是一款为了DNA基因芯片数据分析而设计的集成软件包,由Dr.RichardSimon所领导的生物识别小组所开发(隶属于美国国家癌症研究所癌症治疗与诊断分部)。BRB-ArrayTool能够处理来自多种实验的表达谱数据,包括可视化、多维尺度、聚类基因和样本、分类预测样本等等。BRB-ArrayTools可以通过匹配DNA芯片的CloneID、GenBank号、UniGene编号连接NCBI数据库,或者通过芯片的ProbesetID连接Affy公司的NetAffy站点获取探针的详细信息。BRB-ArrayTools可以被用来分析单、双通道的基因芯片数据。该软件便携易用,表现为不受任何特定芯片平台、扫描仪器、图像分析软件或数据库的限制。ArrayTools以Excel加载宏的形式呈现,所以用户界面对于生物学家来说非常熟悉。具体的计算由Excel外部的复杂且强大的分析工具负责,对于用户则不可见。现有的工具组件会随着分析方法的发展而不断更新。软件功能概览BRB-ArrayTools可执行以下功能:整理数据向程序导入用户数据并且比对整理来自不同实验的基因。软件可以载入无限多的基因,而在实验方面,之前最多导入249个的限制已在3.4版本中移除,当然,具体数目肯定会受限于计算机内存。所有探针可以只来自于一张芯片,或者最多(重复)分布在5张芯片,用户可以选择是否对每个重复分布的基因取均值,且单(例如Affymetrix)双通道芯片均适用。数据导入向导会提示输入数据的详细格式,或者使用为NCI或Affymetrix芯片特制的用户界面。一般数据应为以“tab分隔符”格式存储的文本文件(译注:NCI和Affymetrix当然可以例外)。Excel工作簿格式的数据也可以使用,但会在导入时被ArrayTools自动转换为“tab分隔符”的文本格式。基因标注数据可以通过识别号被Affymetrix或Source数据库自动标注,标注内容会随着分析输出结果一同呈现,并且GeneOntology(GO)的分类名称可被用于分类比较分析、分类预测、生存分析和数量性状分析。GO的结构文件可以从GO站点自动更新。筛选,标准化和取基因子集ArrayTools可以基于通道的信号强度对点样/探针组进行筛选(通过排除某些点或设定信号强度阈值)并进行标记。Affymetrix数据可以通过所谓的“探测认定”(DetectionCall)进行筛选。对于双通道实验,芯片的标准化通过芯片间取中位数中心化进行,具体方法是或减去基于LOWESS平滑的红、绿两通道对数均值(subtractingoutalowess-smootherbasedontheaverageoftheredandgreenlog-intensities),或指定一系列对数比值的中位数为0的管家基因。对于单通道实验,芯片通过一参照芯片进行标准化,使得其它芯片上所有基因(或仅指定部分管家基因)对于该参照芯片差值的中位数为0。参照芯片可由用户指定,或自动选择一中位数芯片(即该芯片对数比值的中位数为所有其它芯片对数比值中位数的中位数)。每张芯片的标准化单独进行。异常值可以被截断(译注:即通过设定阈值进行筛选,见后文筛选数据一节)。基因可以通过人为设定阈值进行筛选,比如其表达量位于所有芯片表达量中位数两侧的某个比例外,某个差值外,或缺失值在所有芯片中大于某一比例,或Affy芯片中被-5-认定为缺失的大于某一比例。此外,基因还可通过字符串标识进行筛选(如排除所有在描述字段中包含“Empty”的基因),最后,还可以通过自定义基因列表进行筛选。绘制“实验对实验”散点图对双通道数据,ArrayTools可以使用红、绿二通道的对数、平均对数或者对数比值绘制任意两实验间(甚至相同实验间)的可点击散点图。对于“M-A散点图”(译注:M:Minus,M=log2(Green)-log2(Red);A:Average,A=1/2*(log2(Green)+log2(Red),用对数比值对红绿两通道的均值作图,是一种在芯片数据分析中常用的散点图,可用来显示芯片数据的强度依赖性Dudoitetal.StatisticaSinica(2002)12:111),还会在图中添加一条所有散点的趋势线。对于单通道数据,可绘制基于任意两实验间对数信号强度的可点击散点图。所有基因(或任意一部分制定基因)可被绘制,并生成指向GenBank、NetAffy和其它基因组数据库的超链接。绘制“表型对表型”散点图ArrayTools可以绘制基于所有基因或部分指定基因在表型间平均表达量的可点击散点图。如果指定了多于两类表型,则所有两两表型间的情况均会被绘制,并生成指向GenBank、NetAffy和其它基因组数据库的超链接。基因层次聚类分析ArrayTools可以绘制所有基因的彩色层次聚类树状图。对于每个聚类树中的基因会生成超链接并绘制一幅聚类树中基因表达量的中位数对不同实验的彩色线图。实验聚类独立于基因聚类。基因聚类树可被保存以用于之后的分析,聚类分析可在全部基因(或由用户指定的部分基因/实验子集)上进行。实验层次聚类分析绘制聚类树状图,并且根据给定的分支计算用于判定聚类好坏的统计学度量。聚类分析可在全部基因(或由用户指定的部分基因/实验子集)上进行。集成的Cluster3.0和TreeView接口聚类分析还可以通过Cluster3.0和TreeView这两款由Stanford实验室开发的软件进行,目前仅限于学术、政府和非赢利目的用户。多维尺度化样本ArrayTools可以生成可点击并旋转的三维散点图,其中每个点代表一个样本,点之间的距离与其所代表的表达量差异成正比。如果用户安装有PowerPoint,还可以把三维散点图幻灯片在其它电脑间交换,如果要求可点击,则其它电脑上必须安装有ArrayTools的3.0以上版本。聚类的显著性检验在聚类分析时,可用欧式距离或相关系数进行统计学显著性检验。该项在多维尺度化工具中亦可选。分类比较使用单参数或非参数检验方法来寻找两组或多组不同表型之间差异表达的基因。可用于单、双通道实验数据,配对样本同样适用。输出结果包括显著基因并生成指向NCI、GenBank、-6-NetAffy和其它基因组数据库的超链接。参数检验包括t/F检验和随机方差t/F检验,后者能够在没有假定所有基因拥有同样方差的情况下给出更为精确的针对特定基因的方差估计。确定一个基因“显著”的标准包括p值小于某一阈值或假阳性数/率小于指定值,其中,后者需要进行多元列置换检验。该工具还包括一个可用于分析随机区块设计实验的选项(即在实验设计时还考虑另外一个协变量的影响,例如性别)。分类预测ArrayTools可以构建基于表达量水平的表型分类器,共含六种:混合协变量预测、对角线性判别、k-近邻(k取1或3)、最近邻质心法和支持向量机。其中,混合协变量预测和支持向量机仅适用于两类样本的分类,而对角线性判别、k-近邻(k取1或3)和最近邻质心法可用于多于两类样本的分类。交叉验证错误率通过列置换进行,以给出错误率是否小于随机情况。以上分析亦可用于配对样本。某个基因是否被选入分类器的标准是其p值是否小于指定阈值。二叉树预测该算法会根据不同表型的表达量创建一棵二叉分类树,树中的每个节点都可以对实验的表型进行分类,而树的结构则会根据交叉验证时的最小错误率进行优化。二叉树的预测基于上述六种方法之一(混合协变量预测、对角线性判别、k-近邻(k取1或3)、最近邻质心法和支持向量机)。与之前的分类预测不同,这里的混合协变量预测和支持向量机可以被用来分类多于两类表型的样本。其它选项则与分类预测工具相同。输出结果包含对二叉树的描述和总体交叉验证错误率(如果用户要求)。对于树中的每个节点则会给出交叉验证的错误率和构成分类器的基因列表。该列表中还包括参数检验的p值、基因在交叉验证时的支持度和指向GenBank、NetAffy及其它基因组数据库的超链接。生存分析ArrayTools使用Cox回归模型来发现与生存时间相关的基因。输出结果包含结果呈“显著”的基因列表和指向GenBank、NetAffy等其它基因组数据库的超链接。入选基因的标准与分类比较相同。数量性状分析把基因表达量与样本的数量形状进行关联,使用Spearman或者Pearson关联测试。输出包括经检验结果呈显著的基因列表和指向GenBank、NetAffy等其它基因组数据库的超链接。入选基因的标准与分类比较相同。GO比较工具使用GO数据库而非单个基因对不同表型分类进行比较,并给出经检验后包含差异表达基因数大于随机期望数的GO类别。LS和KS测试被用于生成选择GO类别的p值,若p值小于指定阈值则该GO类别被选入。最后的GO类别按LS测试的p值升序排列。组基因比较工具使用用户自定义的基因列表并从中筛选包含差异表达基因数大于随机期望的基因组合。LS和KS测试被用于生成选择GO类别的p值,若p值小于指定阈值则该GO类别被选入。最后的GO类别按LS测试的p值升序排列。-7-其它插件允许用户共享自己的分析工具。高级用户可以使用R语言开发自己的分析工具,并分发给其它不具备R语言开发知识的用户。详细的插件使用方法在另一份文档中涉及。单通道实验须知ArrayTools中的分析工具均可用于单/双通道实验。对于Affymetrix数据,建议使用MAS5.0方法处理后的“Signal”字段作为信号强度。如果以“averagedifference”字段作为信号强度,那么其中负值的部分则会被自动设为1(取对数后为0),除非用户人为在取对数时把这些点设定为缺失值。为了便于说明,我们会在本文档中假定所有数据为双通道实验。这里通常所说的“对数比值”,与单通道实验中的对数信号强度类似。同样,之后所说的点样与Affymetrix芯片中的“探针组”概念类似,都被用来探测某一基因的表达量。所有在对数信号强度上的分析方法与在对数比值上的方法一致,但是有三个例外:1)数据标准化:双通道数据在每张芯片上进行,而单通道数据则需要根据一指定的参照芯片进行标准化。详见本文档的标准化部分。2)基因筛选:ArrayTools包含一个针对单通道数据的特殊筛选工具:若某个基因的探测认定“缺失”值大于用户设定的比例,则允许去除此基因。3)分类预测:为了减少信号值较大的基因可能在分类预测时占据主导作用的影响,故在所有单通道数据的分类预测前,会先对每个基因的对数信号强度进行中位数中心化。软件安装系统需求ArrayTools是一款适用于Windows平台的软件,兼容Win98/2000/NT/XP及之后版本。ArrayTools