基因芯片分析

gzhbaaron
1 ℃
2020-06-26

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

基因组表达芯片数据分析•转录本主要包括mRNA，smallRNA，non-codingRNA生物芯片的概念是Fodor等人于1991年提出(Fodoretal.,1991,Science)。在90年代初期，利用光原位合成的原理，在基质上固定高密度的寡核苷酸的DNA测序芯片。1995年Schena(Science,1995)等人，把拟南芥的45个基因固定在一张玻片上，并行检测拟南芥45个基因的表达情况，这是第一次结合了高精度机械手点样系统、荧光标记技术、双通道荧光扫描技术和数据分析软件，是第一次真正意义上的用DNA芯片技术进行基因表达分析的应用。部分基因组被测序的微生物全基因的DNA芯片问世，如：酿酒酵母，大肠杆菌。人类、大鼠和小鼠的全基因组芯片。基因芯片发展过程Southern&NorthernBlotDotBlotMacroarrayMicroarray5sampletargethybridizationlabelprobeimageDataanalysis原理--通过杂交检测信息一组寡核苷酸探针—TATGCAATCTAGCGTTAGATACGTTAGAATACGTTAGATCTACGTTAG由杂交位置确定的一组核酸探针序列GTTAGATC杂交探针组TATGCAATCTAG重组的互补序列靶序列TACGTTAGACGTTAGAATACGTTACGTTAGATGTTAGATCATACGTTA•ResearchUse.•ClinicalDiagnosticUse.BiologicalSampleFunctionalInformationOneDisease——OneGeneExpressionPattern计算Ratio值(=Cy3/Cy5)在0.5-2.0之外的定义为在两样本中有明显差异表达。进而获取初步功能信息PrototypeAmpliOnc™IBiochipAmpliOncTMIBiochipafterhybridization;colorcompositeofred,blueandgreenimageThisbiochipcontainsallgenomicregionsthathavebeenreportedtobeamplifiedincancers.12345678910111213141516171819202122XYOncogeneTargetsOntheAmpliOnc™IBiochipPDGFBEGFR1PDGFRAMETFGFR2WNT1MYBHER2YES1HRAS1CND1RAF1GLIMYCMDM220q13RELMYCL1FGRFESABLINT2PIK3CANMYCAKT2FGFR1JUNBAKT1KRAS2CDK4ARcDNAmicroarrayexpressionpatternsofsmall(S)andlarge(L)neuronsmRNAenrichedinlargeDRGneuronsmRNAenrichedinsmallDRGneurons放射性原位杂交验证结果基因芯片的数据解读和分析1.芯片图像的处理。2.芯片杂交后获得的数据与芯片的基因信息的连接。3.芯片数据的预处理及数据的可视化。4.数据处理和分析的算法。下表是整理后数据的一部分一、基因芯片数据提取与过滤(一)cDNA微阵列芯片)22/()11(BCHICHBCHICHRatio(二)Affymetrix公司的原位合成芯片定性信息提取：P/A/M(Present/Absent/Marginal）定量信息提取：基于探针集汇总后的基因水平的荧光信号强度值•预处理–对数转换目的：使数据服从正态分布•预处理–数据过滤去除表达水平是负值或很小的数据或者明显的噪声数据波动筛选：去掉一成不变的基因，要求在一定的变化范围内波动–标准化片内标准化：去除系统误差片间标准化：在不同列之间的标准化，使每列在同一量纲上比较网格定位结果数据过滤数据过滤的目的是去除表达水平是负值或很小的数据、或者明显的噪声数据。•过闪耀现象•物理因素导致的信号污染•杂交效能低•点样问题•其它二、数据补缺(一)数据缺失类型•非随机缺失基因表达丰度过高或过低•随机缺失与基因表达丰度无关，数据补缺主要针对随机缺失情况(二)数据补缺方法1、简单补缺法missingvalues=0expressionmissingvalues=1expression(arbitrarysignal)missingvalues=row(gene)averagemissingvalues=column(array)average2、K近邻法选择与具有缺失值基因的k个邻居基因用邻居基因的加权平均估计缺失值参数:邻居个数距离函数3、回归法三、数据标准化(一)为什么要进行数据标准化存在不同来源的系统误差1.染料物理特性差异(热和光敏感性，半衰期等)2.染料连接效能3.点样针差异4.数据收集过程中扫描设施5.不同芯片差异6.实验条件差异(二)运用哪些基因进行标准化处理•芯片上大部分基因(假设芯片上大部分基因在不同条件下表达量相同)•不同条件间稳定表达的基因(如持家基因)•控制序列(spikedcontrol)合成DNA序列或外源的DNA序列，在不同条件下表达水平相同。以M(logratio表达量)为纵坐标，A(logintensity表达量)为横坐标做出数据的散点分布图。A=(LogGreen+LogRed)/2M=LogRed-LogGreen低高表达水平调控方向上调下调1、片内标化(Within-slidenormalization)全局标化(Globalnormalization)(三)cDNA芯片数据标准化处理假设：R=k*G方法:C=log2k：中值或均值芯片内数据标准化的常用方法是局部加权回归分析：Lowess(LocallyWeightedLinearRegression)normalization。Lowess回归分析是一种非参数回归方法，也称为平滑方法，在计算两个变量的关系时采用开放式算法，不套用现成的函数公式，所拟合的曲线可以很好的描述变量之间关系的细微的变化。从图中可以看出由于染色的红光强度比绿光强度大，因此数值的整体分布趋势是偏离那条斜线的。这是由于红光和绿光的感应强度不同产生的偏差。因此希望基因的红光强度与绿光强度是一致的。所以所有数值点的总体分布趋势应该和图中斜线是相吻合的。这样通过标准化后所有数值点的拟合曲线应该下移至斜线位置。lowessinRout=lowess(x,y,f=0.4)plot(x,y)lines(out$x,out$y,col=2,lwd=2out$xwillbeavectorcontainingthexvalues.out$ywillcontainthelowessfittedvaluesforthevaluesinout$x.fcontrolsthefractionofthedatausedtoobtaineachfittedvalue.f=0.4hasbeenrecommendedformicroarraydatanormalization.2、片间标化(Multiple-slidenormalization)•平均数、中位数标准化(meanormediannormalization)•尺度调整的标准化（ScaleNormalization）•分位数标准化（QuantileNormalization）两张芯片的表达数据的分位数标化至相同，即分布于对角线上。•线性标化法(Linearscalingmethods)与芯片内标化的尺度调整(Scaleadjustment)方法类似•非线性标化法(non-linearmethods)•分位数标化法(Quantilenormalization)3、染色互换实验(dye-swapexperiment)的标化实验组对照组芯片1cy5(R)cy3(G’)芯片2cy3(G)cy5(R’)•前提假设：c︽c’•方法:RG2log)/(log2GRM=log2R-log2GA=(log2R+log2G)/2Slide2Cy3Cy5Slide1Cy3Cy5medianQ3=75thpercentileQ1=25thpercentileminimummaximum前面提及的标准化方法仅效正了数据分布的中心，在不同的栅格间log-Ratios的方差也不同。（脚标a为每组实验数据）aiimeanTT)(log)'(log22aiimedianTT)(log)'(log22GRTichannel.medians=apply(log(x),2,median)normalized.log.x=sweep(log(x),2,channel.medians)R脚本ScaleNormalization•在进行片内标准化时，不同grid中的基因强度的分布不一致，亦即基因强度值的离散程度不同，这是由系统误差带来的。所以理想状态下希望它们的离散程度是一致的。同理对于双色channel的情况在理想状态下基因在两个染色channel中的离散程度也应该是一致的。因此对于双色芯片数据的尺度标准化结果就是基因在两个channel中的中值一致，同时基因染色强度在两种channel中的离散程度一致。LogMeanSignal(centeredandscaled)DataafterMedianCenteringandScaleNormalizingmedians=apply(X,2,median)Y=sweep(X,2,medians)mad=apply(abs(Y),2,median)const=prod(mad)^(1/length(mad))scale.normalized.X=t(t(X)*(const/mad))差异表达分析(AnalysisofDifferentiallyExpressionGene)一、倍数法实验条件下的表达值对照条件下的表达值通常以2倍差异为阈值，判断基因是否差异表达cIxxf[mRNA]~Cy5/Cy3=rtime/h150__Startofexperimentup-regulationinductiondown-regulationrepressioncombinetheminthelog(base2)ratioLog2(Redintensity/Greenintensity)•Ratio=log2(R/G)时间T基因表达情况原始的比值数据Log2对数转换0基因的标准表达1.00.01相对标准表达无改变1.00.02两倍上调表达2.01.03两倍下调表达0.5-1.0推测统计学方法H0：所研究的基因在表达量上与正常表达时的表达量没有显著的差异性。H1：在两种或两种以上样本的芯片实验中，基因的表达有显著的差异性芯片实验的统计检验样本类型参数检验非参数检验单样本单样本t-检验（one-samplet-test)威尔科克森检验（Wilcoxontest)不配对双样本比较不配对t-检验（unpairedt-test)Man-Whitney检验（Man-Whitneytest)配对双样本比较配对t-检验（pairedt-test)威尔科克森检验（Wilcoxontest)3个或更多不匹配样本比较单向变量分析法（one-wayANOVA)Kruskal-Wallis检验3个或3个以上匹配样本比较反复测定分析法（repeated-measuresANOVA)Friedman检验二、统计学方法1、t检验法运用t检验法可以判断基因在两不同条件下的表达差异是否具有显著性22212121//nsnsxxt2、方差分析2)(ijijxxSS总2)(xxnSSiii组间2)(ijiijxxSS组内组间组间组间vMSSS组内组内组内vMSSS组内组间MSMSF方差分析可用于基因在两种或多种条件间的表达量的比较，它将基因在样本之间的总变异分解为组间变异