Bioinformatics,2008-2009,Semester1,USTC生物信息学第八章基因芯片分析Bioinformatics,2008-2009,Semester1,USTC本章内容提要1.Microarray简介2.图像处理与数据标准化3.基因芯片的数据分析4.Microarray:工具&数据库Bioinformatics,2008-2009,Semester1,USTC基因芯片1.基因芯片(1987)2.根据免疫测定的(immunoassay)的方法予以改进3.高通量、点阵以及Northern杂交同时测定细胞内数千个基因的表达情况将mRNA反转录成cDNA与芯片上的探针杂交4.芯片的体积非常小:微量样品的检测5.基因表达情况的定量分析6.其他类型的芯片:组织芯片蛋白质芯片Bioinformatics,2008-2009,Semester1,USTC基因芯片的密度:100-1millionDNA探针/1cm2将样品中的DNA/RNA表上荧光标记,则可以定量检验基因的表达水平碱基互补Bioinformatics,2008-2009,Semester1,USTC基因表达情况的定量测定1.发现在特定生长时期,或者随着环境变化,那些基因的表达收到诱导或者抑制2.在相同条件下,上调或者下调变化规律相似的基因,可能具有功能上的关联3.可以从共表达的基因中寻找调控模体4.基因表达的模式可以用来表征异常的细胞调控,例如,癌症的诊断Bioinformatics,2008-2009,Semester1,USTC基因芯片技术的类型按技术手段、探针类型分类1.Shortoligonucleotidearrays(Affymetrix)2.cDNAarrays(Brown/Botstein)3.Longoligoarrays(Agilent)4.Serialanalysisofgeneexpression(SAGE)按实验要求分类1.单通道(SingleChannel):一次检验一种状态2.双通道(DualChannel):差异表达基因的筛选Bioinformatics,2008-2009,Semester1,USTC两类主流的DNA芯片1.cDNAmicroarrays:将500~5,000bp的cDNA固载到介质上(例如玻璃),Stanford开发设计,通常为双通道2.DNAchips:将寡核苷酸探针(20~80-mer)合成到芯片上,Affymetrix开发设计,通常为单通道Bioinformatics,2008-2009,Semester1,USTC(1)cDNAmicroarrayscDNAclonesBioinformatics,2008-2009,Semester1,USTCRobotspotter普通的盖玻片cDNAmicroarrays的制备Bioinformatics,2008-2009,Semester1,USTC差异表达基因的筛选Treatment/controlNormal/tumortissueBrain/liver…Bioinformatics,2008-2009,Semester1,USTC点样后的cDNAMicroarraysBioinformatics,2008-2009,Semester1,USTCGenesmRNAsamplesGeneexpressionlevelofgeneiinmRNAsamplej=Log(Redintensity/Greenintensity)Log(Avg.PM-Avg.MM)sample1sample2sample3sample4sample5…10.460.300.801.510.90...2-0.100.490.240.060.46...30.150.740.040.100.20...4-0.45-1.03-0.79-0.56-0.32...5-0.061.061.351.09-1.09...基因表达的数据Bioinformatics,2008-2009,Semester1,USTC(1)DNAchipsBioinformatics,2008-2009,Semester1,USTCBioinformatics,2008-2009,Semester1,USTCDNAchips的制备:Affymetrixphotolitography探针长度:25bp每个基因:22-40个探针PerfectMatch(PM)vs.MisMatch(MM)probesBioinformatics,2008-2009,Semester1,USTC点样后的GenechipBioinformatics,2008-2009,Semester1,USTC总结Bioinformatics,2008-2009,Semester1,USTC基因芯片的实验流程Bioinformatics,2008-2009,Semester1,USTC2.图像处理与数据标准化单通道基因芯片white(veryhigh)red(high)Yellow(alittlehigh)green(medium)blue(low)black(no)Bioinformatics,2008-2009,Semester1,USTC图像处理植根区域生长法(SRG)FixedCircle1.栅格化:确定点的位置2.图象分割(Segmentation):将点从背景中分离出来。3.抽提亮度:各个像素亮度的平均值(mean)或中位数(median)4.背景校正:局部或全局Bioinformatics,2008-2009,Semester1,USTC基因表达量的定量对于每个点,我们可以计算Redintensity=Rfg-Rbgfg=foreground,bg=background,andGreenintensity=Gfg-Gbgandcombinetheminthelog(base2)ratioLog2(Redintensity/Greenintensity)Greenintensity(medium):~1Bioinformatics,2008-2009,Semester1,USTCMicroarray:误差的来源系统的随机的logsignalintensitylogRNAabundanceBioinformatics,2008-2009,Semester1,USTCMicroarray:误差的来源1.图像分析2.扫描3.DNA杂交过程(温度、时间、混合均匀程度等)4.探针的标记5.RNA的抽提6.加样7.其他Bioinformatics,2008-2009,Semester1,USTCRed/green比值存在亮度的倾向M=log2R/G=log2R-log2G=(log2R+log2G)/2Valuesshouldscatteraboutzero.Bioinformatics,2008-2009,Semester1,USTC数据标准化beforeafterBioinformatics,2008-2009,Semester1,USTC3.基因芯片的数据分析(1)差异表达基因的分析(2)基因共表达分析(3)基因表达数据的聚类(4)基因表达数据的分类(5)MaptoGO(6)GeneregulatorynetworkBioinformatics,2008-2009,Semester1,USTC(1)差异表达基因的分析1.差异表达基因的分析:寻找处理前后表达上调或者下调的基因2.Arethetreatmentsdifferent?3.使用标准的统计学方法检验(t-testorf-test),发现统计显著性差异表达的基因,4.如果处理本身并不显著,则结果无意义Bioinformatics,2008-2009,Semester1,USTC统计学分析1.Foldchange,一般2-foldincreaseordecrease(平行实验的样本较少)2.p-value(平行实验的样本较多)under-expressedover-expressed/2/2Bioinformatics,2008-2009,Semester1,USTCP-value:学生分布1.T-test:学生分布2.Excel函数:TTEST(array1,array2,tails,type)Array1为第一个数据集Array2为第二个数据集Tails指示分布曲线的尾数。如果tails=1,函数TTEST使用单尾分布。如果tails=2,函数TTEST使用双尾分布Type为t检验的类型1成对2等方差双样本检验3异方差双样本检验Bioinformatics,2008-2009,Semester1,USTCP-value:学生分布1.一般选择双尾分布2.异方差双样本检验3.Excel函数:=TTEST(B2:D2,E2:G2,2,3)4.C:对照组;T:实验组C1C2C3T1T2T3TTESTGene11.3221.6761.4573.5264.2343.8790.001988Bioinformatics,2008-2009,Semester1,USTCMultipleComparisons1.在基因芯片的实验中,每一个基因/探针,都是一个独立的实验2.基因芯片:高通量,1,000个基因/探针3.因此,无论怎么比较,总会有一些基因会是统计显著性差异表的——可能是随机产生的4.如何评估表达差异基因预测的有效性?5.例:1,000个探针的双通道芯片,以p-value0.01为域值,发现7个上调基因,5个下调基因,分析结果是否具有统计学意义?Bioinformatics,2008-2009,Semester1,USTCFalseDiscoveryRate(FDR)1.Falsepositiveprediction:“Type1errororFalseDiscovery2.FalseDiscoveyRate(FDR)=p-value*No.ofGenes上例:FDR=0.01*1,000=10(随机)7个上调基因,5个下调基因10因此上例计算的结果无统计学意义3.FDR必须远小于发现的差异表达基因数目实验的有效性p-value的选择Bioinformatics,2008-2009,Semester1,USTC(2)基因共表达分析1.在N个不同的条件下(时间序列的芯片数据),考察基因X和Y的表达是否相似2.Gene1#是否与Gene2#、Gene3#和Gene4#共表达?3.共表达:正相关:相似的表达谱,可能存在正关联负相关:相反的表达谱,可能存在负调控EisenMB,etal.,(1998)PNAS95:14863-14868GeneNameT1T2T3T4T5T6Gene1#123456Gene2#100200300400550610Gene3#660540430320210101Gene4#150421535725451670998Bioinformatics,2008-2009,Semester1,USTC没有相关性?050010001500200025003000T1T2T3T4T5T6Gene1#Gene2#Gene3#Gene4#Bioinformatics,2008-2009,Semester1,USTC基因相关性分析1.Spearmanrankcorrelation2.Kendall'stau3.Euclideandistance4.Pearsoncorrelationcoefficient:-1~1Excel函数:=PEARSON(array1,array2)EisenMB,etal.,(1998)PNAS95:14863-14868Bioinformatics,2008-2009,Sem