基因芯片差异表达和聚类分析2017/10/30概要1.什么是基因芯片2.基因芯片数据的低层次处理3.基因芯片数据的高层次分析4.常用的基因表达数据库5.用R和Bioconductor进行基因芯片数据分析中心法则提出(Crick,1958)分子生物学的中心法则:细胞中的基因最主要是通过从DNA转录到RNA(mRNA)、再翻译成蛋白质来发挥作用的。基因表达:把储存在DNA中的遗传信息经过转录和翻译,转变为具有生物活性的蛋白质分子。根据目前的认识,人类基因组中编码蛋白质产物的基因的总数大约在20000~30000之间或者更多。基因的表达具有时空性,基因在人体内不同组织的细胞中、在细胞不同的发育阶段有着不同的表达量,即所转录出的mRNA的丰度。应用基因芯片可以直接检测mRNA的种类和丰度,是研究基因表达的有力工具。研究基因表达的实验方法1.Northern-Blotting技术仅适用于单个或较少几个基因。2.基因芯片(又称DNA微阵列Microarray)能够在一个几平方厘米的芯片上放置对应于成千上万个基因的DNA探针,从而同时测定这些基因在样品中的表达。基因芯片的基本原理基因芯片原理的基础是DNA的碱基配对原理:腺嘌呤(A)胸腺嘧啶(T)鸟嘌呤(G)胞嘧啶(C)A和T、G和C分别能形成紧密的配对,这也是生物体内使得DNA能够复制和转录的基本机制。这种配对的形成过程称为杂交(hybridization)。利用杂交这一原理,基因芯片采用一段已知序列的核酸作探针(probe)来检测与之配对的核酸序列的存在及其丰度。1.固定大量的DNA探针在一张面积很小的芯片上;2.使样品中的核苷酸片断与相应的探针杂交;3.通过荧光成像获得每个探针上杂交的分子的浓度;4.再通过后期的处理即可获得相应的基因表达量。根据探针制备和固定技术的不同,基因芯片主要分为:(1)cDNA芯片(printedcDNAmicroarray)(2)寡核苷酸芯片(oligonucleotidemicroarray)cDNA芯片cDNA是从mRNA通过反转录过程得到的DNA。cDNA芯片以反转录的cDNA片断作为探针。cDNA芯片首先需要构建cDNA文库(cDNAlibrary)(即从实验材料中提取将要研究的基因的mRNA,将它们反转录成cDNA,然后酶切成不同片段并克隆到载体里)然后从文库中选取特定的cDNA片断,利用PCR技术进行扩增和纯化,得到所需要的各个基因的探针通过机械手将探针滴加到基片上,从而完成芯片的制备cDNA芯片成本相对低廉;探针可以根据生物学家的需要自行设计和提取,是一种可以实验室“自制”的基因芯片。cDNA芯片需要准备测试样品和对照样品;从测试样品和对照样品中分别提取出mRNA,经过反转录得到cDNA,并进行荧光标记;对照样品:绿色(Cy3)测试样品:红色(Cy5)cDNA芯片标记后的对照样品和测试样品经等量混合后与cDNA芯片上的探针竞争杂交;将杂交后的芯片洗涤、扫描后可以得到对应荧光强度的图像;红色:探针对应的基因在测试样本中相对高表达绿色:探针对应的基因在测试样本中相对低表达黄色:表达相当黑色:均不表达红绿颜色的相对强度反映出了基因在两种样品中表达的数量之比。寡核苷酸芯片寡核苷酸芯片技术最早是由美国昂飞(Affymetrix)公司发明的。寡核苷酸芯片是在公司里以工业化的形式生产出来的,因此可以进行质量控制,有利于不同实验室之间数据的比较。寡核苷酸芯片寡聚核苷酸原位光刻专利技术---是生产高密度寡核苷酸基因芯片的核心关键技术Affymetrix的原位合成技术可制作的点阵密度高达106-1010/cm2Affymetrix基因芯片上一般每一个基因(或EST)都是由一个探针组(probeset)组成;每组探针组由11-20对25mer的探针对(probepair)组成:1.PerfectMatch(PM)2.Mismatch(MM)PM-MM探针:提高特异性和灵敏度,更适合检测低丰度表达的基因。寡核苷酸芯片不需要对照样品,而只对待测试的样品进行杂交和检测;从测试样品提取到mRNA经反转录标记后与芯片杂交;杂交后的芯片经洗涤后通过扫描得到图像;图像是单色的,每个探针在图像上的亮度反映了该探针检测到的mRNA的表达水平。寡核苷酸芯片每根探针都有一个相应的基因表达值,但最终每个靶基因的表达值要通过独特的统计学运算才能得到。芯片数据的低层次处理指在得到图像处理数据之后如何更好地计算基因表达值的问题。目的是消除实验过程中产生的系统误差、实验误差等影响因素。1.数据归一化2.缺失值处理3.野值剔除芯片数据的低层次处理1.数据归一化消除芯片系统误差、试验平台偏差等处理过程cDNA芯片片内归一化的主要目的是减小由于两种颜色染色效率差异导致的系统误差。基本假设(cDNA芯片):在测试样本与对照样本间大多数的基因是没有显著差异表达的。因此芯片上所有基因的相对表达量应该是以0为中心的分布。R:红色信号强度G:绿色信号强度MA图反应的是基因在对比的样品中表达差异随基因信号强度变化的分布。归一化就是通过适当的运算,将M调整为以0为中心的分布。cDNA芯片的M-A图。)(log2RGA)(log2GRM芯片数据的低层次处理2.缺失值处理(由于杂交效能低、物理刮伤、指纹、灰尘、图像污染等)1)直接去掉含有缺失值的基因;2)将缺失值置零;3)采用最近邻,用和缺失值所在基因表达模式相近的其他基因的数据,对缺失值进行估计。3.野值剔除设置一定的基因表达值的上限和下限,高于上限和低于下限的数值都被认为是超出了仪器可信范围而被分别设置为上限值和下限值。芯片数据的高层分析经过低层处理,从芯片原始数据获得可靠的基因表达值。一张基因芯片得到的数据成为一个列向量,维数就是芯片上基因的个数。将一次实验的多张芯片数据放到一起就形成一个矩阵。矩阵中的数值表示基因在样本中的表达值。芯片数据的高层分析高层分析通常指在得到基因表达值后对以下方面的研究:疾病的分类基因的差异表达基因间的相关性基因的关系网络……利用生物信息学方法分析基因芯片数据最常用的方法有:基因表达差异分析聚类分析寻找差异表达基因差异表达分析的目的:识别两个条件下表达差异显著的基因,即一个基因在两个条件中的表达水平,在排除各种偏差后,其差异具有统计学意义。寻找差异表达基因1.倍数法f值估计每个基因在实验条件下较之对照条件下表达量的倍数差异值。一般比值在2以上或1/2以下时,判断该基因在两种条件下表达有差异。目前通常被用于基因的大规模初筛。CIxxf寻找差异表达基因多重假设检验问题若芯片检测了n个基因,整个差异基因筛选过程需要做n次假设检验。例如,我们对20个不同的基因依次进行统计检验,假设𝛼=0.05,表示一次检验中发生一类错误(e.g.假阳性错误)的概率是0.05。多重假设检验问题𝐹𝐷𝑅=𝑉𝑅0.05聚类在基因芯片数据分析中的应用基因之间存在共表达(co-expressedgenes);共表达的基因可能具有相似的生物功能;从具有相似表达谱的基因去推测其功能。在具体应用中可按照相似的表达谱对基因进行聚类,从而预测组内未知基因的功能。Whatisclustering?聚类(clustering):将不同数据对象按照彼此相似性的大小或按照一定的规则进行组织或者分类。聚类是对整个数据集的划分;聚类的依据是“样本间的相似程度”。Whatisclustering?对整个数据集进行划分的结果是得到K个类簇(cluster);在同一个类簇中,数据对象是相似的;在不同类之间的数据对象是不相似的。聚类是一种无监督学习:没有预定义的类簇。Whycluster?Clustergenes=rows测量基因在多个时间点,不同条件下的表达水平;基本假设:若基因具有相似的表达模式,则它们可能具有相似的功能(例如受共同的转录因子调控的基因,或者产物构成同一个蛋白复合体的基因,或者参与相同调控路径的基因);可以按照相似的表达谱对基因进行聚类,从而预测组内未知基因的功能。Clustersamples=columnse.g.,测量几千个基因在不同肿瘤样品中的表达水平若样品具有相似的表达模式,则它们可能存在某种生物关系。ClusteringExpressionDataClusterExperimentsGroupbysimilarexpressionprofilesClusterGenesGroupbysimilarexpressionindifferentconditionsGene1Gene2ExperimentExperiment1Experiment2GenesHowdowedefine“similarity”?距离度量:用来衡量两个数据对象(基因/样本向量)之间的相似程度。距离度量是聚类方法的核心。常用的距离度量有:欧氏距离(Euclideandistance)关联距离(Pearsondistance)EuclideandistanceHerenisthenumberofdimensionsinthedatavector.Forinstance:Numberoftime-points/conditions(whenclusteringgenes)Numberofgenes(whenclusteringsamples)niiieucyxd12)(),(yxdeuc=0.5846deuc=1.1345deuc=2.6115欧氏距离关心的是表达量,即两个基因在表达水平之间的相似程度。deuc=1.41deuc=1.22Whatmightbegoingonwiththeexpressionprofilesontheleft?Ontheright?Correlation相关性距离关心的两个基因在表达变化上的一致性。由于共表达通常是指表达的变化趋势,因此在实际分析中关联距离使用的频率更高一些。Pearson相关系数niiniiniiniiiniiynyxnxyyxxyyxx11)()())((),(12121yx2),(1yxpd将Pearson相关系数转换成Pearson距离:Pearson相关系数Pearson相关系数取值在–1和+1之间(完全负相关和完全正相关)层次聚类(HierarchicalClustering)1.首先将每个数据对象(基因或样本)作为单独的一个类簇(cluster);2.将距离最近的两个类簇合并形成一个较大的类簇;3.重复步骤2直到所有数据对象都在一个类簇中。层次聚类层次聚类树状图:一种树形结构用来表示层次聚类的过程。每个节点代表一个类簇;叶节点:代表一个数据对象(一个基因或样本);层次聚类树状图:一种树形结构用来表示层次聚类的过程。每个节点代表一个类簇;叶节点:代表一个数据对象(一个基因或样本);根结节:是一个包含所有数据对象的类簇;层次聚类树状图:一种树形结构用来表示层次聚类的过程。每个节点代表一个类簇;叶节点:代表一个数据对象(一个基因或样本);根结节:是一个包含所有数据对象的类簇;每个中间节点有两个子节点。中间节点的高度=两个子节点的距离ABOrderingofnodesnotimportantTreeAandBareequivalent层次聚类ABOrderingofnodesnotimportantTreeAandBareequivalent层次聚类ABOrderingofnodesnotimportantTreeAandBareequivalent层次聚类类簇间距离Wealreadyknowaboutdistancemeasuresbetweendataitems,butwhataboutbetweentwoclusters?Asus