第五组计11曾建强芯片数据的聚类分析芯片数据的聚类分析一、聚类的含义二、距离、相似函数三、分层聚类四、K-means聚类五、聚类结果的可视化一、聚类的含义聚类分析起源于分类学,在古老的分类学中,人们主要依靠经验和专业知识来实现分类,很少利用数学工具进行定量的分类。随着人类科学技术的发展,对分类的要求越来越高,以致有时仅凭经验和专业知识难以确切地进行分类,于是人们逐渐地把数学工具引用到了分类学中,形成了数值分类学,之后又将多元分析的技术引入到数值分类学形成了聚类分析。一、聚类的含义聚类分析内容非常丰富,有系统聚类法、动态聚类法、有序样品聚类法、模糊聚类法、图论聚类法、聚类预报法等。一、聚类的含义生物芯片数据聚类是指根据基因片的基因表达数据,将基因按照不同的功能,或者相同的表达行为进行归类。聚类的基因表达谱为研究人员提供基因表达差异,启动子分析,表达模式研究等等便利的条件。目前已经有很多种聚类的方法应用到基因芯片的研究当中,如分层聚类、K均值聚类(K-meansclustering)、自组织图谱SOM、PCA等等。二、距离和相似函数二、距离和相似函数1、距离变量的测量尺度不同,聚类的结果也不同在生物芯片数据分析(基因表达数据分析)中,我们一般考虑间隔尺度变量,即基因数据间的“距离”。二、距离和相似函数二、距离和相似函数距离有多种定义方法,在聚类分析中最常用的是欧氏距离,即有当各变量的单位不同或测量值范围相差很大时,应先对各变量的数据作标准化处理。最常用的标准化处理是,令其中和分别为第个变量的样本均值和样本方差。1221pijikjkkdxx*,1,2,,,1,2,,ijjijjjxxxinjps11njijixxnj2111njjijjisxxn一、最短距离法定义类与类之间的距离为两类最近样品间的距离,即,minKLKLijiGjGDd最短距离法的聚类步骤(1)规定样品之间的距离,计算个样品的距离矩阵,它是一个对称矩阵。(2)选择中的最小元素,设为,则将和合并成一个新类,记为,即(3)计算新类与任一类之间距离的递推公式为n0D0DKLDKGLGMGMKLGGGMGJG,,,minminmin,minmin,MJKJLJMJijijijiGjGiGjGiGjGKJLJDdddDD最短距离法的聚类步骤在中,和所在的行和列合并成一个新行新列,对应,该行列上的新距离值由(6.3.2)式求得,其余行列上的距离值不变,这样就得到新的距离矩阵,记作。(4)对重复上述对的两步得,如此下去直至所有元素合并成一类为止。如果某一步中最小的元素不止一个,则称此现象为结(tie),对应这些最小元素的类可以任选一对合并或同时合并。0DMGKGLG1D1D0D2DmD二、最长距离法类与类之间的距离定义为两类最远样品间的距离,即,maxKLKLijiGjGDd二、距离和相似函数2、相似函数聚类分析方法不仅用来对样品进行分类,而且可用来对变量进行分类,在对变量进行分类时,常常采用相似系数来度量变量之间的相似性。变量之间的这种相似性度量,在一些应用中要看相似系数的大小,而在另一些应用中要看相似系数绝对值的大小。相似系数(或其绝对值)越大,认为变量之间的相似性程度就越高;反之,则越低。聚类时,比较相似的变量倾向于归为一类,不太相似的变量归属不同的类。二、距离和相似函数相似函数一般满足的条件(1),当且仅当和是常数;(2),对一切;(3),对一切。1ijc,(0)ijxaxbab1ijc,ijijjicc,ij最常用的两个相似系数三、分层聚类法三、分层聚类法分层聚类法即系统聚类法系统聚类法是聚类分析诸方法中用得最多的一种。基本思想是:开始将个样品各自作为一类,并规定样品之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其他类的距离;重复进行两个最近类的合并,每次减少一类,直至所有的样品合并为一类。常用的系统聚类方法:一、最短距离法二、最长距离法三、中间距离法四、类平均法五、重心法六、离差平方和法(Ward方法)三、分层聚类法1、分层聚类(Hierarchicalclustering)分层聚类是最早也是最普遍的应用在基因芯片数据分析研究中的聚类算法。步骤如下:(1)建立Gene-experiment矩阵每一列是不同的组织,或者在不同条件下的样本,每一行是基因的编号,每个基因的表达量用标准化后log2R/G的表示。三、分层聚类法(2)计算所有基因之间的相关系数correlationcoefficient。基因的相似分值(similarityscore)可以由Pearsonscorrelation公式计算三、分层聚类法(3)建立Gene-Gene的距离矩阵三、分层聚类法(4)建立系统发育树(dendrogram)根据Gene-Gene的距离矩阵的分值,首先找到距离最近的两个基因,然后合并,再找距离相近两组再合并,直到所有的基因合并到一个组中三、分层聚类法(5)建立表达图谱四、K-均值聚类法四、K-中值聚类法K-均值聚类是动态聚类的一种动态聚类法的基本思想是,选择一批凝聚点或给出一个初始的分类,让样品按某种原则向凝聚点凝聚,对凝聚点进行不断的修改或迭代,直至分类比较合理或迭代稳定为止。类的个数k可以事先指定,也可以在聚类过程中确定。K–means聚类与分层聚类(系统聚类)有本质的区别,首先要估计出将要分出几个类,然后将全部的基因按照相似性的距离,归入这几类中四、K-中值聚类法1967年,MacQueen首次提出了K均值聚类算法(K-means算法).迄今为止,很多聚类任务都选择该经典算该算法的核心思想是找出K个聚类中C1,C2,…,Ck,使得每一个数据点xi和与其最近的聚类中心Cv的平方距离和被最小化(该平方距离和被称为偏差D).四、K-中值聚类法具体操作:K均值(K-means)聚类算法(对n个样本进行聚类)1[初始化].随机指定K个聚类中心(C1,C2,…,Ck);2[分配xi].对每一个样本xi,找到离它最近的聚类中心Cv,并将其分配到Cv所标明类;3[修正Cw].将每一个Cw移动到其标明的类的中心;4[计算偏差].5[D收敛?].如果D值收敛,则return(C1,C2,…,Ck)并终止本算法;否则,返回步骤K2.四、K-中值聚类法首先也是要先将gene-expriments矩阵转化成gene-genedistance矩阵,但是计算基因的相关系数的方法与分层聚类有所不同,用欧及里距离(Euclideandistance)公式计算:然后,将所有的基因随机的分配到K类中,计算出每个类中的基因的均值,然后,将每个基因分配到均值与它最相近的那个类中。重复以上两个步骤,直到所有的基因都被分配到类中。K-means聚类过程2、聚类分析K-means聚类图示的最后结果图中彩色小圈代表测得的数据,红点(数字1~10)为选择的初始凝聚点。四、K-中值聚类法五、聚类结果的可视化五、聚类结果的可视化五、聚类结果的可视化分层聚类结果。红色标记的样本代表肿瘤病人,从结果中可以明显辨别出该类型肿瘤分为两类。预示着该肿瘤可能为两个亚型。MZ3313MZ4203MZ3772MZ2590MZ2715MZ3265MZ4276MZ4046MZ2000MZ4392MZ7481MZ7578MZ16003MZ15132MZ15895MZ16263MZ17047MZ3440MZ3363MZ7930MZ7985MZ8193MZ8345MZ8136MZ2760MZ5223MZ5016MZ10654MZ6066MZ4067MZ2509MZ2455MZ1771MZ2362MZ2015MZ2730MZ2603MZ2630MZ2032MZ2274MZ3032MZ3961MZ4303MZ3293MZ3280MZ4289MZ3146MZ6846MZ5800MZ5331MZ5064MZ5081MZ6951MZ6799MZ13577MZ12452MZ13880MZ6635MZ6433MZ14675MZ11732MZ5870MZ9144MZ8937MZ4477MZ4189MZ4056MZ5979MZ5905MZ4212MZ2792MZ3885MZ4649MZ9296MZ7768MZ7827MZ8606MZ1574C25BE11C27BE41C6BE84BE1C5BE9C38BE46BE60BE55BE43BE86BE73BE79BE77BE76BE6BE80BE85BE42BE26BE23C21(2)BE12BE16BE15BE48BE45BE44C1C29C21(2)C11BE63C37C32C35BE27C2C4C12C14(2)C32C23C52BE61BE8BE4C20C30C7C18C16C28C36C36(2)C14C19C51C43C8C13C9BE10BE47BE35BE17C31BE50C26BE51BE54BE18BE49BE22BE20BE19BE13BE7BE57C48BE40BE37BE65BE58BE39BE33BE67BE25BE36BE59BE64BE68BE62C57C22C45(2)C45C45(3)BE34BE32BE3BE2BE5BE21BE29BE56C28(2)BE69五、聚类结果的可视化对微阵列基因表达谱的聚类分析得到的一般是基因的分组信息,如何进一步了解同组基因的表达谱差异?或者,不同组基因之间是否存在相似关系?哪些基因是上调或下调?幅度多大?……而数据对于大多数人来说太抽象了……五、聚类结果的可视化在数据挖掘中,可视化方法可以发现数据中的固有结构,因为人眼和大脑具有强大的结构探索能力。通过可视化方法,利用人脑这部最强大的计算机,发挥人在模式处理方面的特殊能力,从而筛选数据、寻找数据关系五、聚类结果的可视化1、彩色盒图基因表达谱的数据特点五、聚类结果的可视化2、树状图系统发生分析五、聚类结果的可视化以分层聚类为例芯片数据的聚类分析OVER,THANKS