第二讲cDNA芯片与基因表达分析第一部分cDNA芯片回顾第二讲cDNA芯片与基因表达分析LOGOcDNA微阵列芯片LOGOcDNA芯片的特点原理:cDNA是与mRNA互补的DNA分子,长约0.2~5kb通过碱基互补配对原则进行探针与待测mRNA之间的分子杂交产生信号,反映待检mRNA水平,在一定程度上体现基因的表达水平LOGO寡核苷酸芯片的特点原理:通过碱基互补配对原则进行杂交,检测对应片段是否存在、存在量的多少优点:可以通过原位合成法制备;探针长度小,减少二级结构形成;减少非特异杂交,能有效区分有同源序列的基因;无需扩增,防止扩增失败影响实验;杂交温度均一,提高杂交效率缺点:当寡核苷酸序列较短时,单一的序列不足以代表整个基因,需要用多段序列LOGOcDNA芯片的优缺点cDNA芯片的优点序列长度长,可直接检测待检mRNA结合敏感性强信号强度大cDNA芯片的缺点探针退火温度差异大存在非特异性交叉杂交LOGOcDNA芯片应用领域基因表达分析等位基因探查基因多态性分析LOGO表达谱数据库基因表达仓库GeneExpressionOmnibus,GEO斯坦福微阵列数据库TheStanfordMicroarrayDatabase,SMD其他常用基因表达数据库ArrayExpress、CGED第二部分cDNA表达芯片数据预处理第二讲cDNA芯片与基因表达分析LOGO基因芯片数据提取)22/()11(BCHICHBCHICHRatioLOGO对数转换对芯片数据做对数化转换后,数据可近似正态分布LOGO数据过滤数据过滤的目的是去除表达水平是负值或很小的数据、或者明显的噪声数据过闪耀现象物理因素导致的信号污染杂交效能低点样问题其它LOGO数据补缺(一)数据缺失类型非随机缺失基因表达丰度过高或过低随机缺失与基因表达丰度无关,数据补缺主要针对随机缺失情况LOGO数据补缺方法简单补缺法missingvalues=0expressionmissingvalues=1expression(arbitrarysignal)missingvalues=row(gene)average(median)missingvalues=column(array)average(median)LOGOK近邻法选择与具有缺失值基因的k个邻居基因用邻居基因的加权平均估计缺失值参数:邻居个数距离函数LOGO回归法LOGO数据标准化数据标准化的原因存在不同来源的系统误差1.染料物理特性差异(热和光敏感性,半衰期等)2.染料连接效能3.点样针差异4.数据收集过程中扫描设施误差5.不同芯片差异6.实验条件差异LOGO施加标准化处理的基因芯片上大部分基因(假设芯片上大部分基因在不同条件下表达量相同)不同条件间稳定表达的基因(如管家基因)控制序列(spikedcontrol)合成DNA序列或外源的DNA序列,在不同条件下表达水平相同。LOGO1、片内标化(Within-slidenormalization)(1)全局标化(Globalnormalization)cDNA芯片数据标准化处理假设:R=k*G方法:C=log2k:中值或均值LOGO(2)荧光强度依赖的标化(Intensitydependentnormalization)为什么方法:scatter-plotsmootherlowess拟合c(A)为MvsA的拟合函数标化后的数据LOGO(3)点样针依赖的标化(Within-print-tip-groupnormalization)为什么一张芯片的不同区域运用不同的点样针点样,从而引入点样针带来的系统误差。methodLOGO(4)尺度调整(Scaleadjustment)为什么调整不同栅格(grids)间的数据离散度方法:计算不同栅格的尺度因子LOGO2、片间标化(Multiple-slidenormalization)线性标化法(Linearscalingmethods)与芯片内标化的尺度调整(Scaleadjustment)方法类似非线性标化法(non-linearmethods)分位数标化法(Quantilenormalization)两张芯片的表达数据的分位数标化至相同,即分布于对角线上。LOGO3、染色互换实验(dye-swapexperiment)的标化实验组对照组芯片1cy5(R)cy3(G’)芯片2cy3(G)cy5(R’)前提假设:c︽c’方法:LOGOLOGORG2log)/(log2GRM=log2R-log2GA=(log2R+log2G)/2LOGOLOGOLOGO前面提及的标准化方法仅效正了数据分布的中心,在不同的栅格间log-Ratios的方差也不同。LOGO第三部分cDNA表达芯片数据分析第二讲cDNA芯片与基因表达分析LOGO差异表达分析一、倍数法cIxxf实验条件下的表达值对照条件下的表达值通常以2倍差异为阈值,判断基因是否差异表达LOGO二、t检验法22212121//nsnsxxt运用t检验法可以判断基因在两不同条件下的表达差异是否具有显著性LOGO三、方差分析方差分析可用于基因在两种或多种条件间的表达量的比较它将基因在样本之间的总变异分解为组间变异和组内变异两部分。通过方差分析的假设检验判断组间变异是否存在,如果存在则表明基因在不同条件下的表达有差异。2)(ijijxxSS总2)(xxnSSiii组间2)(ijiijxxSS组内组间组间组间vMSSS组内组内组内vMSSS组内组间MSMSFLOGO四、SAM(SignificanceAnalysisofMicroarrays)(一)多重假设检验问题Ⅰ型错误(假阳性)即在假设检验作推断结论时,拒绝了实际上正确的检验假设,即将无差异表达的基因判断为差异表达。Ⅱ型错误(假阴性)即不拒绝实际上不正确的,即将有差异表达的基因判断为无差异表达。在进行差异基因挑选时,整个差异基因筛选过程需要做成千上万次假设检验,导致假阳性率的累积增大。对于这种多重假设检验带来的放大的假阳性率,需要进行纠正。常用的纠正策略有Bonferroni效正,控制FDR(FalseDiscoveryRate)值等。LOGO(二)分析步骤计算统计量扰动实验条件,计算扰动后的基因表达的相对差异统计量计算扰动后的平均相对差异统计量021ssxxdpdpEdPd1LOGO确定差异表达基因阈值:以最小的正值和最大的负值作为统计阈值,运用该阈值,统计在值中超过该阈值的假阳性基因个数,估计假阳性发现率FDR值。通过调整FDR值的大小得到差异表达基因。LOGO五、信息熵运用信息熵进行差异基因挑选时,不需要用到样本的类别信息,所以运用信息熵找到的差异基因是指在所有条件下表达波动比较大的基因。imiippHlog1LOGO数据的聚类分析一、聚类目的基于物体的相似性将物体分成不同的组LOGO二、基因表达谱数据的聚类对基因进行聚类识别功能相关的基因识别基因共表达模式对样本进行聚类质量控制检查样本是否按已知类别分组发现亚型样本基因基因表达谱LOGO三、距离尺度函数几何距离线性相关系数非线性相关系数互信息其它LOGO四、聚类算法(一)层次聚类层次聚类算法将研究对象按照它们的相似性关系用树形图进行呈现进行层次聚类时不需要预先设定类别个数,树状的聚类结构可以展示嵌套式的类别关系。LOGO在对含非单独对象的类进行合并或分裂时,常用的类间度量方法LOGO2000年Alizadeh等运用基因芯片数据,基于层次聚类算法证实了DLBCL肿瘤病人在mRNA层面确实存在两种亚型LOGO(二)k均值聚类基本思想LOGO(三)自组织映射聚类基本思想:在不断的学习过程中,输出层的神经元根据输入样本的特点进行权重调整,最后拓朴结构发生了改变LOGO(四)双向聚类双向聚类就是识别基因表达谱矩阵中同质的子矩阵,运用特定的基因子类识别样本子类。LOGO基因芯片数据的分类分析一、线性判别分类器21,0,0)(LLbxwxgTLOGO二、k近邻分类法基本思想LOGO三、PAM分类法(PredictionAnalysisforMicroarray)基因1基因2基本思想每类样本的质心向所有样本的质心进行收缩,即收缩每个基因的类均值,收缩的数量由值决定。当收缩过程发生时,某些基因在不同类中将会有相同的类均值,这些基因就不具有类间的区别效能。LOGO计算统计量对公式经过变换得到收缩各类的均值)(0ssmxxdikiikikikikiikdssmxx)(0'0')(ikikiikdssmxx))(('ikikikddsignd分析步骤LOGO判断新样本类别当kpiiikikssxxxlog2)()()(1202'**lxC)(*)(min)(**xxkklLOGO四、决策树(一)基本思想决策树又称为多级分类器,利用决策树分类可以把一个复杂的多类别分类问题转化为若干个简单的分类问题来解决决策树的结构:一个树性的结构,内部节点上选用一个属性进行分割,每个分叉都是分割的一个部分,叶子节点表示一个分布LOGO(二)分析步骤:提取分类规则,进行分类预测在构造决策树的过程中最重要的一点是在每一个分裂节点确定用那个属性来分类(或分裂)这就涉及到关于使用什么准则来衡量使用A属性比使用B属性更合理决策树分类算法output训练集决策树inputLOGO(三)衡量准则信息增益——Informationgain基尼指数——GiniindexikiippNH12log)())()(()(2211NHnnNHnnNHGainkjjpNGini121)())()(()(2211NGininnNGininnNGiniGiniLOGO(四)决策树的修剪消除决策树的过适应问题消除训练集中的异常和噪声所涉及的方法很多,比如先剪枝算法(print)与后剪枝(sprint算法)等等LOGO五、分类效能评价(一)构建训练集和检验集n倍交叉验证(n-foldcrossvalidation)Bagging(bootstrapaggregation)无放回随机抽样留一法交叉验证(leave-one-outcrossvalidation,LOOCV)(二)分类效能灵敏度(sensitivity,recall)特异性(specificity)阳性预测率(positivepredictivevalue,precision)阴性预测率(negativepredictivevalue)均衡正确率(balancedaccuracy)正确率(correctoraccuracy)LOGO表达谱分析结果注释单基因注释基于文献检索的注释方法ReferenceValidation(PubMed/PubMatrix)LOGO基于基因查证LOGO疾病数据库LOGO利用本体论构建基因功能注释体系GeneOntology(GO)收录人类9000个基因约12万条注释信息分为MolecularFunction(MF)、BiologicalProcess(BP)和CellularComponent(CC)三大类注释体系采用有向无环图结构,具有层次性LOGO超几何分布Fisher精确检验mkxNnmNxnmxkxXP)())(()(mkxNnmNxnmxkxXP)())(()()())(()(1221111nnnnnnijnPLOGODAVID注释工具LOGO利用通路信息进行基因注释KEGG:代谢、信号、疾病LOGOLOGO其他通路数据库LOGO辅助工具LOGO商业化cDNA表达芯片人14K基因表达谱cDNA