第七章基因芯片数据分析MicroarrayDataAnalysis第一节芯片平台及数据库(GeneralMicroarrayPlatformandDatabase)一、cDNA微阵列芯片寡核苷酸芯片类似于cDNA芯片,但是在探针的设计上优于cDNA芯片,它的探针并不是来源于cDNA克隆,而是预先设计并合成的代表每个基因特异片段的约50mer左右长度的序列,然后将其点样到特定的基质上制备成芯片,从而克服了探针序列太长导致的非特异性交叉杂交和由于探针杂交条件变化巨大导致的数据结果的不可靠。二、寡核苷酸芯片五、基因表达仓库GeneExpressionOmnibus,GEO六、斯坦福微阵列数据库TheStanfordMicroarrayDatabase,SMD第二节基因芯片数据预处理(GeneralMicroarrayDataTypeandDatabase)一、基因芯片数据提取与过滤(一)cDNA微阵列芯片)22/()11(BCHICHBCHICHRatio(二)Affymetrix公司的原位合成芯片定性信息提取:P/A/M(Present/Absent/Marginal)定量信息提取:基于探针集汇总后的基因水平的荧光信号强度值数据过滤数据过滤的目的是去除表达水平是负值或很小的数据、或者明显的噪声数据。过闪耀现象物理因素导致的信号污染杂交效能低点样问题其它二、数据补缺(一)数据缺失类型非随机缺失基因表达丰度过高或过低随机缺失与基因表达丰度无关,数据补缺主要针对随机缺失情况(二)数据补缺方法1、简单补缺法missingvalues=0expressionmissingvalues=1expression(arbitrarysignal)missingvalues=row(gene)averagemissingvalues=column(array)average2、K近邻法选择与具有缺失值基因的k个邻居基因用邻居基因的加权平均估计缺失值参数:邻居个数距离函数3、回归法三、数据标准化(一)为什么要进行数据标准化存在不同来源的系统误差1.染料物理特性差异(热和光敏感性,半衰期等)2.染料连接效能3.点样针差异4.数据收集过程中扫描设施5.不同芯片差异6.实验条件差异(二)运用哪些基因进行标准化处理芯片上大部分基因(假设芯片上大部分基因在不同条件下表达量相同)不同条件间稳定表达的基因(如持家基因)控制序列(spikedcontrol)合成DNA序列或外源的DNA序列,在不同条件下表达水平相同。1、片内标化(Within-slidenormalization)(1)全局标化(Globalnormalization)(三)cDNA芯片数据标准化处理假设:R=k*G方法:C=log2k:中值或均值(2)荧光强度依赖的标化(Intensitydependentnormalization)为什么方法:scatter-plotsmootherlowess拟合c(A)为MvsA的拟合函数标化后的数据(3)点样针依赖的标化(Within-print-tip-groupnormalization)为什么一张芯片的不同区域运用不同的点样针点样,从而引入点样针带来的系统误差。method(4)尺度调整(Scaleadjustment)为什么调整不同栅格(grids)间的数据离散度方法:计算不同栅格的尺度因子2、片间标化(Multiple-slidenormalization)线性标化法(Linearscalingmethods)与芯片内标化的尺度调整(Scaleadjustment)方法类似非线性标化法(non-linearmethods)分位数标化法(Quantilenormalization)两张芯片的表达数据的分位数标化至相同,即分布于对角线上。3、染色互换实验(dye-swapexperiment)的标化实验组对照组芯片1cy5(R)cy3(G’)芯片2cy3(G)cy5(R’)前提假设:c︽c’方法:1、提取定性信号(1)对每个探针对计算RR=(PM-MM)/(PM+MM)(2)比较R与定义的阈值Tau(小的正值,默认值为0.015).(3)单侧的Wilcoxon’sSignedRanktest产生p值,根据p值定义定量信号值PresentcallMarginalcallAbsentcall(四)Affymetrix芯片数据标准化2、提取定量信号(1)分析步骤获取探针水平数据背景值效正标准化处理探针特异背景值效正探针集信号的汇总(2)分析方法RG2log)/(log2GRM=log2R-log2GA=(log2R+log2G)/2前面提及的标准化方法仅效正了数据分布的中心,在不同的栅格间log-Ratios的方差也不同。第三节差异表达分析(AnalysisofDifferentiallyExpressionGene)一、倍数法cIxxf实验条件下的表达值对照条件下的表达值通常以2倍差异为阈值,判断基因是否差异表达二、统计学方法1、t检验法22212121//nsnsxxt运用t检验法可以判断基因在两不同条件下的表达差异是否具有显著性2、方差分析2)(ijijxxSS总2)(xxnSSiii组间2)(ijiijxxSS组内组间组间组间vMSSS组内组内组内vMSSS组内组间MSMSF方差分析可用于基因在两种或多种条件间的表达量的比较,它将基因在样本之间的总变异分解为组间变异和组内变异两部分。通过方差分析的假设检验判断组间变异是否存在,如果存在则表明基因在不同条件下的表达有差异。三、SAM(SignificanceAnalysisofMicroarrays)(一)多重假设检验问题Ⅰ型错误(假阳性)即在假设检验作推断结论时,拒绝了实际上正确的检验假设,即将无差异表达的基因判断为差异表达。Ⅱ型错误(假阴性)即不拒绝实际上不正确的,即将有差异表达的基因判断为无差异表达。在进行差异基因挑选时,整个差异基因筛选过程需要做成千上万次假设检验,导致假阳性率的累积增大。对于这种多重假设检验带来的放大的假阳性率,需要进行纠正。常用的纠正策略有Bonferroni效正,控制FDR(FalseDiscoveryRate)值等。(二)分析步骤计算统计量扰动实验条件,计算扰动后的基因表达的相对差异统计量计算扰动后的平均相对差异统计量021ssxxdpdpEdPd1确定差异表达基因阈值:以最小的正值和最大的负值作为统计阈值,运用该阈值,统计在值中超过该阈值的假阳性基因个数,估计假阳性发现率FDR值。通过调整FDR值的大小得到差异表达基因。四、信息熵运用信息熵进行差异基因挑选时,不需要用到样本的类别信息,所以运用信息熵找到的差异基因是指在所有条件下表达波动比较大的基因。imiippHlog1第四节基因芯片数据的聚类分析(ClusterAnalysisofMicroarrayData)(一)相似性测度几何距离线性相关系数非线性相关系数互信息其它(二)层次聚类层次聚类算法将研究对象按照它们的相似性关系用树形图进行呈现,进行层次聚类时不需要预先设定类别个数,树状的聚类结构可以展示嵌套式的类别关系。在对含非单独对象的类进行合并或分裂时,常用的类间度量方法(三)k均值聚类基本思想(四)自组织映射聚类基本思想:在不断的学习过程中,输出层的神经元根据输入样本的特点进行权重调整,最后拓朴结构发生了改变第五节基因芯片数据的分类分析(ClassificationofMicroarrayData)一、线性判别分类器21,0,0)(LLbxwxgT二、k近邻分类法基本思想三、决策树(一)基本思想决策树又称为多级分类器,利用决策树分类可以把一个复杂的多类别分类问题转化为若干个简单的分类问题来解决决策树的结构:一个树性的结构,内部节点上选用一个属性进行分割,每个分叉都是分割的一个部分,叶子节点表示一个分布(二)分析步骤:提取分类规则,进行分类预测在构造决策树的过程中最重要的一点是在每一个分裂节点确定用那个属性来分类(或分裂)这就涉及到关于使用什么准则来衡量使用A属性比使用B属性更合理决策树分类算法output训练集决策树input(三)衡量准则信息增益——Informationgain基尼指数——GiniindexikiippNH12log)())()(()(2211NHnnNHnnNHGainkjjpNGini121)())()(()(2211NGininnNGininnNGiniGini第六节常用的表达谱分析软件(GeneralMicroarrayAnalysisSoftware)ArrayToolsDChip(DNA-ChipAnalyzer)SAMR语言和BioConductor:affy、marray、limmaMatlab:BioinformaticsToolbox