聚类分析法

小神游小神游
1 ℃
2020-05-10

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

聚类分析法汇报人：XXX《现代管理学》课程汇报结构structurePART01PART02PART03PART04PART05PART06概述聚类统计量系统聚类法快速聚类法变量聚类法小结01PARTONE概述01概述什么是聚类分析（ClusterAnalysis）？聚类分析是根据“物以类聚”的道理，对样本或指标进行分类的一种多元统计分析方法，它们讨论的对象是大量的样本，要求能合理地按各自的特性进行合理的分类，没有任何模式可供参考或依循，即在没有先验知识的情况下进行的。01概述聚类分析的基本思路基本思想是认为研究的样本或变量之间存在着程度不同的相似性（亲疏关系）。根据一批样本的多个观测指标，找出一些能够度量样本或变量之间相似程度的统计量，以这些统计量作为分类的依据，把一些相似程度较大的样本（或指标）聚合为一类，把另外一些相似程度较大的样本（或指标）聚合为一类，直到把所有的样本（或指标）都聚合完毕，形成一个由小到大的分类系统。01概述聚类分析无处不在谁经常光顾商店，谁买什么东西，买多少？按会员卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类这样商店可以……识别顾客购买模式（如喜欢一大早来买酸奶和鲜肉，习惯周末时一次性大采购）刻画不同的客户群的特征01概述聚类分析无处不在挖掘有价值的客户，并制定相应的促销策略：如，对经常购买酸奶的客户对累计消费达到12个月的老客户针对潜在客户派发广告，比在大街上乱发传单命中率更高，成本更低！01概述聚类分析无处不在谁是银行信用卡的黄金客户？利用储蓄额、刷卡消费金额、诚信度等变量对客户分类，找出“黄金客户”！这样银行可以……制定更具吸引力的服务，留住客户！比如：一定额度和期限的免息透支服务！赠送百盛的贵宾打折卡！在他或她生日的时候送上一个小蛋糕！01概述聚类分析应用领域经济领域：帮助市场分析人员从客户数据库中发现不同的客户群，并且用购买模式来刻画不同的客户群的特征。谁喜欢打国际长途，在什么时间，打到那里？对住宅区进行聚类，确定自动提款机ATM的安放位置股票市场板块分析，找出最具活力的板块龙头股企业信用等级分类……01概述聚类分析应用领域生物学领域推导植物和动物的分类；对基因分类，获得对种群的认识数据挖掘领域作为其他数学算法的预处理步骤，获得数据分布状况，集中对特定的类做进一步的研究02PARTTWO聚类统计量02聚类统计量如何聚类？聚类分析就是要找出具有相近程度的点或类聚为一类；如何衡量这个“相近程度”？需要使用前文所提到的能够度量样本或变量之间相似程度的统计量，我们称其为聚类统计量。02聚类统计量如何聚类？一种方法是将一个样品看作p维空间的一个点，并在空间定义距离，距离越近的点归为一类，距离较远的点归为不同的类。另一种方法是使用相似系数，性质越接近的样品，它们的相似系数的绝对值越接近1，而彼此无关的样品，它们的相似系数的绝对值越接近于零。比较相似的样品归为一类，不怎么相似的样品归为不同的类。02定比变量的聚类统计量：距离统计量1.欧式（Euclidian）距离x1x2①②x12x22x11x21x21-x11x22-x1202定比变量的聚类统计量：距离统计量2.明氏（Minkowski）距离当q=1，为绝对值距离当q=2，即为欧式距离当q=∞，有,称为切比雪夫（Chebychev）距离02定比变量的聚类统计量：距离统计量2.明氏距离的缺点距离的大小与个指标的观测单位有关，具有一定的人为性。例如：对体重和身高进行测量，采用不同单位，其距离测量的结果不同。以欧氏距离为例。02定比变量的聚类统计量：距离统计量2.明氏距离的缺点当长度=cm时：02定比变量的聚类统计量：距离统计量2.明氏距离的缺点当长度=mm时：02定比变量的聚类统计量：距离统计量2.明氏距离的缺点一定要采用相同量纲的变量。如果各变量的量纲不同，或当各变量的量纲相同但各变量的测量值相差悬殊时，不能直接采用明氏距离。需要先对数据进行标准化处理，然后再用标准化处理后的数据计算距离。使用明氏距离一定要注意02定比变量的聚类统计量：距离统计量2.明氏距离的缺点标准化方法02定比变量的聚类统计量：距离统计量2.明氏距离的缺点另一个缺点：它没有考虑到指标之间的相关性。改进的方法是：采用马氏距离马氏距离是1936年由印度数学家：马哈拉比斯由协方差矩阵计算构造的距离。02定比变量的聚类统计量：距离统计量3.马氏(Mahalanobis)距离02定比变量的聚类统计量：距离统计量4.兰氏(Lance)距离该距离与变量单位无关，对大的异常值不敏感，适用于较大变异的数据，同样未考虑变量的相关性。02定比变量的聚类统计量：距离统计量5.配合距离前几类距离多用于定距和定比尺度数据，对于定类和定序变量则可使用配合距离。02定比变量的聚类统计量：相似系数统计量1.夹角余弦（Cosine）夹角余弦—cosine尽管图中AB和CD长度不一样，但形状相似。当长度不是主要矛盾时，就可利用夹角余弦这样的相似系数。02定比变量的聚类统计量：相似系数统计量1.夹角余弦（Cosine）02定比变量的聚类统计量：相似系数统计量2.Pearson相关系数02聚类统计量使用场合在实际问题中：对样品分类常用距离；对指标分类常用相似系数。03PARTTHREE系统聚类法03系统聚类法01系统聚类法的基本思想先将每个研究对象(样品或指标)各自看成一类。然后根据对象间的相似度量，将h类中最相似的两类合并，组成一个新类，这样得到h-1类，再在这h-1类中找出最相似的两类合并，得到h-2类，如此下去，直至将所有的对象并成一个大类为止。当然，真的合并成一个类就失去了聚类的意义，所以上面的聚类过程应该在某个类水平数（即未合并的类数）停下来，最终的类就取这些未合并的类。决定聚类个数是一个很复杂的问题。03系统聚类法02系统聚类法的基本步骤步骤1：将n个样品各作为一类，共n类：C1、C2、…、Cn。计算各类之间的距离，构成距离矩阵：dcicj=dij步骤2：找到距离最近的两类合并为一新类步骤3：计算新类与当前各类的距离。重复步骤2、3，直至合并成一类为止，形成谱系图根据谱系图确定如何分类样本间距类间距离03系统聚类法03类间距离算法正如样品之间的距离可以有不同的定义方法一样，类与类之间的距离也有各种定义。例如可以定义类与类之间的距离为两类之间最近样品的距离，或者定义为两类之间最远样品的距离，也可以定义为两类重心之间的距离等等。类与类之间用不同的方法定义距离，就产生了不同的系统聚类方法。03系统聚类法03类间距离度量方法1.最短距离法(singlelinkage)2.最长距离法(completelinkage)3.中间距离法(medianmethod)4.类平均法(Between-groupsLinkage)5.可变类平均法(flexible-betamethod)6.重心法(CentroidClustering)7.Ward离差平方和法(Ward'sminimum-variancemethod)03系统聚类法03类间距离度量方法1.最短距离法(nearestneighbor)2.最长距离法(furthestneighbor)3.中间距离法(medianmethod)4.类平均法(averagelinkage)5.可变类平均法(flexible-betamethod)6.重心法(centroidmethod)7.Ward离差平方和法(Ward'sminimum-variancemethod)03系统聚类法03类间距离度量方法最短距离法(singlelinkage)G1G2G3G4G5G1G2G3G4G50102.51.50653.50875.520G6G3G4G5G6G3G4G501.5053.5073.53.5003系统聚类法03类间距离度量方法最长距离法(furthestneighbor)G1G2G3G4G5G1G2G3G4G50102.51.50653.50875.520G6G3G4G5G6G3G4G502.5063.5083.53.5003系统聚类法03类间距离度量方法重心法——CentroidClustering类平均法——Between-groupsLinkage03系统聚类法03类间距离度量方法离差平方和法——Word’sMethodWord’s法的基本思想是来自于方差分析，如果分类正确，同类样品的离差平方和应当较小，类与类的离差平方和应当较大。具体方法：先将n个样品各自成一类，然后每次缩小一类；每缩小一类离差平方和就要增大，选择使离差平方和增加最小的两类合并，直到所有的样品归为一类为止。03系统聚类法03类间距离度量方法离差平方和法——Word’sMethodGt中样品的离差平方和为03系统聚类法03类间距离度量方法离差平方和法——Word’sMethod•如有五个样品：1，2，3.5，7，9•第一步：将五个样品各自分成一类，显然这时的类内离差平方和S=0；•第二步：将一切可能的任意两样品合并，计算所增加的离差平方和：•如03系统聚类法03类间距离度量方法离差平方和法——Word’sMethodG1G2G3G4G5G1G2G3G4G500.503.1251.12301812.56.12503224.512.1252004PARTFOUR快速聚类法04快速聚类法（K-MeansCluster）K-MeansCluster原理首先，选择n个数值型变量参与聚类分析，最后要求的聚类数为k个；其次，由系统选择k个(聚类的类数）观测量（也可由用户指定）作为聚类的种子；第三，按照距离这些类中心的距离最小的原则把所有观测量（样品）分派到各类重心所在的类中去；第四，这样每类中可能由若干个样品，计算每个类中各个变量的均值，以此作为第二次迭代的中心；第五，然后根据这个中心重复第三、第四步，直到中心的迭代标准达到要求时，聚类过程结束。05PARTFIVE变量聚类法05变量聚类法变量聚类法原理首先，变量标准化—将变量当作“个体”；其次，计算变量间相关系数并找到相关系数最高的聚为一类；第三，计算类间相关系数并继续聚类；第四，重复第三步直至为一个类。06PARTSIX小结06小结01聚类分析是一种分类技术，同一个问题可以做多种探索；02当个体数目很大时，文献中倾向于使用K-means快速聚类而不是使用系统聚类法；03使用不同方法、不同距离定义，可能得到很不相同的结果；04最终要根据特定问题的理论和实践做判断。（实践是检验真理的唯一标准）请批评指正！