第二讲-cDNA芯片与基因表达分析

binbin1031
1 ℃
2020-06-14

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第二讲cDNA芯片与基因表达分析第一部分cDNA芯片回顾第二讲cDNA芯片与基因表达分析LOGOcDNA微阵列芯片LOGOcDNA芯片的特点原理：cDNA是与mRNA互补的DNA分子，长约0.2~5kb通过碱基互补配对原则进行探针与待测mRNA之间的分子杂交产生信号，反映待检mRNA水平，在一定程度上体现基因的表达水平LOGO寡核苷酸芯片的特点原理：通过碱基互补配对原则进行杂交，检测对应片段是否存在、存在量的多少优点：可以通过原位合成法制备；探针长度小，减少二级结构形成；减少非特异杂交，能有效区分有同源序列的基因；无需扩增，防止扩增失败影响实验；杂交温度均一，提高杂交效率缺点：当寡核苷酸序列较短时，单一的序列不足以代表整个基因，需要用多段序列LOGOcDNA芯片的优缺点cDNA芯片的优点序列长度长，可直接检测待检mRNA结合敏感性强信号强度大cDNA芯片的缺点探针退火温度差异大存在非特异性交叉杂交LOGOcDNA芯片应用领域基因表达分析等位基因探查基因多态性分析LOGO表达谱数据库基因表达仓库GeneExpressionOmnibus，GEO斯坦福微阵列数据库TheStanfordMicroarrayDatabase，SMD其他常用基因表达数据库ArrayExpress、CGED第二部分cDNA表达芯片数据预处理第二讲cDNA芯片与基因表达分析LOGO基因芯片数据提取)22/()11(BCHICHBCHICHRatioLOGO对数转换对芯片数据做对数化转换后，数据可近似正态分布LOGO数据过滤数据过滤的目的是去除表达水平是负值或很小的数据、或者明显的噪声数据过闪耀现象物理因素导致的信号污染杂交效能低点样问题其它LOGO数据补缺(一)数据缺失类型非随机缺失基因表达丰度过高或过低随机缺失与基因表达丰度无关，数据补缺主要针对随机缺失情况LOGO数据补缺方法简单补缺法missingvalues=0expressionmissingvalues=1expression(arbitrarysignal)missingvalues=row(gene)average(median)missingvalues=column(array)average(median)LOGOK近邻法选择与具有缺失值基因的k个邻居基因用邻居基因的加权平均估计缺失值参数:邻居个数距离函数LOGO回归法LOGO数据标准化数据标准化的原因存在不同来源的系统误差1.染料物理特性差异(热和光敏感性，半衰期等)2.染料连接效能3.点样针差异4.数据收集过程中扫描设施误差5.不同芯片差异6.实验条件差异LOGO施加标准化处理的基因芯片上大部分基因(假设芯片上大部分基因在不同条件下表达量相同)不同条件间稳定表达的基因(如管家基因)控制序列(spikedcontrol)合成DNA序列或外源的DNA序列，在不同条件下表达水平相同。LOGO1、片内标化(Within-slidenormalization)(1)全局标化(Globalnormalization)cDNA芯片数据标准化处理假设：R=k*G方法:C=log2k：中值或均值LOGO(2)荧光强度依赖的标化(Intensitydependentnormalization)为什么方法:scatter-plotsmootherlowess拟合c(A)为MvsA的拟合函数标化后的数据LOGO(3)点样针依赖的标化(Within-print-tip-groupnormalization)为什么一张芯片的不同区域运用不同的点样针点样，从而引入点样针带来的系统误差。methodLOGO(4)尺度调整(Scaleadjustment)为什么调整不同栅格(grids)间的数据离散度方法：计算不同栅格的尺度因子LOGO2、片间标化(Multiple-slidenormalization)线性标化法(Linearscalingmethods)与芯片内标化的尺度调整(Scaleadjustment)方法类似非线性标化法(non-linearmethods)分位数标化法(Quantilenormalization)两张芯片的表达数据的分位数标化至相同，即分布于对角线上。LOGO3、染色互换实验(dye-swapexperiment)的标化实验组对照组芯片1cy5(R)cy3(G’)芯片2cy3(G)cy5(R’)前提假设：c︽c’方法:LOGOLOGORG2log)/(log2GRM=log2R-log2GA=(log2R+log2G)/2LOGOLOGOLOGO前面提及的标准化方法仅效正了数据分布的中心，在不同的栅格间log-Ratios的方差也不同。LOGO第三部分cDNA表达芯片数据分析第二讲cDNA芯片与基因表达分析LOGO差异表达分析一、倍数法cIxxf实验条件下的表达值对照条件下的表达值通常以2倍差异为阈值，判断基因是否差异表达LOGO二、t检验法22212121//nsnsxxt运用t检验法可以判断基因在两不同条件下的表达差异是否具有显著性LOGO三、方差分析方差分析可用于基因在两种或多种条件间的表达量的比较它将基因在样本之间的总变异分解为组间变异和组内变异两部分。通过方差分析的假设检验判断组间变异是否存在，如果存在则表明基因在不同条件下的表达有差异。2)(ijijxxSS总2)(xxnSSiii组间2)(ijiijxxSS组内组间组间组间vMSSS组内组内组内vMSSS组内组间MSMSFLOGO四、SAM（SignificanceAnalysisofMicroarrays)(一)多重假设检验问题Ⅰ型错误（假阳性）即在假设检验作推断结论时，拒绝了实际上正确的检验假设，即将无差异表达的基因判断为差异表达。Ⅱ型错误（假阴性）即不拒绝实际上不正确的，即将有差异表达的基因判断为无差异表达。在进行差异基因挑选时，整个差异基因筛选过程需要做成千上万次假设检验，导致假阳性率的累积增大。对于这种多重假设检验带来的放大的假阳性率，需要进行纠正。常用的纠正策略有Bonferroni效正，控制FDR（FalseDiscoveryRate）值等。LOGO(二)分析步骤计算统计量扰动实验条件，计算扰动后的基因表达的相对差异统计量计算扰动后的平均相对差异统计量021ssxxdpdpEdPd1LOGO确定差异表达基因阈值：以最小的正值和最大的负值作为统计阈值，运用该阈值，统计在值中超过该阈值的假阳性基因个数，估计假阳性发现率FDR值。通过调整FDR值的大小得到差异表达基因。LOGO五、信息熵运用信息熵进行差异基因挑选时，不需要用到样本的类别信息，所以运用信息熵找到的差异基因是指在所有条件下表达波动比较大的基因。imiippHlog1LOGO数据的聚类分析一、聚类目的基于物体的相似性将物体分成不同的组LOGO二、基因表达谱数据的聚类对基因进行聚类识别功能相关的基因识别基因共表达模式对样本进行聚类质量控制检查样本是否按已知类别分组发现亚型样本基因基因表达谱LOGO三、距离尺度函数几何距离线性相关系数非线性相关系数互信息其它LOGO四、聚类算法(一)层次聚类层次聚类算法将研究对象按照它们的相似性关系用树形图进行呈现进行层次聚类时不需要预先设定类别个数，树状的聚类结构可以展示嵌套式的类别关系。LOGO在对含非单独对象的类进行合并或分裂时，常用的类间度量方法LOGO2000年Alizadeh等运用基因芯片数据，基于层次聚类算法证实了DLBCL肿瘤病人在mRNA层面确实存在两种亚型LOGO(二)k均值聚类基本思想LOGO(三)自组织映射聚类基本思想：在不断的学习过程中，输出层的神经元根据输入样本的特点进行权重调整，最后拓朴结构发生了改变LOGO(四)双向聚类双向聚类就是识别基因表达谱矩阵中同质的子矩阵，运用特定的基因子类识别样本子类。LOGO基因芯片数据的分类分析一、线性判别分类器21,0,0)(LLbxwxgTLOGO二、k近邻分类法基本思想LOGO三、PAM分类法（PredictionAnalysisforMicroarray）基因1基因2基本思想每类样本的质心向所有样本的质心进行收缩，即收缩每个基因的类均值，收缩的数量由值决定。当收缩过程发生时，某些基因在不同类中将会有相同的类均值，这些基因就不具有类间的区别效能。LOGO计算统计量对公式经过变换得到收缩各类的均值)(0ssmxxdikiikikikikiikdssmxx)(0'0')(ikikiikdssmxx))(('ikikikddsignd分析步骤LOGO判断新样本类别当kpiiikikssxxxlog2)()()(1202'**lxC)(*)(min)(**xxkklLOGO四、决策树(一)基本思想决策树又称为多级分类器，利用决策树分类可以把一个复杂的多类别分类问题转化为若干个简单的分类问题来解决决策树的结构：一个树性的结构，内部节点上选用一个属性进行分割，每个分叉都是分割的一个部分，叶子节点表示一个分布LOGO(二)分析步骤：提取分类规则，进行分类预测在构造决策树的过程中最重要的一点是在每一个分裂节点确定用那个属性来分类(或分裂）这就涉及到关于使用什么准则来衡量使用A属性比使用B属性更合理决策树分类算法output训练集决策树inputLOGO(三)衡量准则信息增益——Informationgain基尼指数——GiniindexikiippNH12log)())()(()(2211NHnnNHnnNHGainkjjpNGini121)())()(()(2211NGininnNGininnNGiniGiniLOGO(四)决策树的修剪消除决策树的过适应问题消除训练集中的异常和噪声所涉及的方法很多，比如先剪枝算法（print）与后剪枝（sprint算法）等等LOGO五、分类效能评价(一)构建训练集和检验集n倍交叉验证（n-foldcrossvalidation）Bagging（bootstrapaggregation）无放回随机抽样留一法交叉验证（leave-one-outcrossvalidation，LOOCV）(二)分类效能灵敏度(sensitivity，recall)特异性(specificity)阳性预测率（positivepredictivevalue，precision）阴性预测率（negativepredictivevalue）均衡正确率（balancedaccuracy）正确率（correctoraccuracy）LOGO表达谱分析结果注释单基因注释基于文献检索的注释方法ReferenceValidation(PubMed/PubMatrix)LOGO基于基因查证LOGO疾病数据库LOGO利用本体论构建基因功能注释体系GeneOntology(GO)收录人类9000个基因约12万条注释信息分为MolecularFunction（MF）、BiologicalProcess（BP）和CellularComponent（CC）三大类注释体系采用有向无环图结构，具有层次性LOGO超几何分布Fisher精确检验mkxNnmNxnmxkxXP)())(()(mkxNnmNxnmxkxXP)())(()()())(()(1221111nnnnnnijnPLOGODAVID注释工具LOGO利用通路信息进行基因注释KEGG：代谢、信号、疾病LOGOLOGO其他通路数据库LOGO辅助工具LOGO商业化cDNA表达芯片人14K基因表达谱cDNA