休息一下统计学专业主干课程——多元统计分析2007.8安徽财经大学统计与应用数学学院第4章聚类分析要点4.1聚类分析的基本思想推荐阅读4.4应用实例及SPSS实现4.2聚类统计量4.3系统聚类法休息一下统计学专业主干课程——多元统计分析2007.8安徽财经大学统计与应用数学学院返回第4章聚类分析学习目的和要求:通过本章的学习,使学生了解聚类分析及其适用的范围和对象、聚类分析的目的。了解聚类分析中常用的距离和相似系数以及它们各自的特点及适用范围。掌握系统聚类法及其应用。运用SPSS进行计算处理。(ClusterAnalysis)休息一下统计学专业主干课程——多元统计分析2007.8安徽财经大学统计与应用数学学院4.1聚类分析的基本思想返回4.1.1引例4.1.2聚类分析的对象类型4.1.3聚类分析的基本思想4.1.4聚类的方法休息一下统计学专业主干课程——多元统计分析2007.8安徽财经大学统计与应用数学学院4.1聚类分析的基本思想返回4.1.1引例4.1.3聚类分析的基本思想4.1.4聚类的方法引例——聚类分析的含义聚类分析方法的产生4.1.2聚类分析的对象类型休息一下统计学专业主干课程——多元统计分析2007.8安徽财经大学统计与应用数学学院俗话说:“物以类聚,人以群分”,在社会、经济、管理、气象、地质、人口、考古等众多领域,都存在着大量的分类研究问题。如:对我国31个省市自治区独立核算工业企业经济效益进行分析,一般不是逐个省、市、自治区去分析,而较好的做法是选取能反映企业经济效益的代表性指标,如百元固定资产实现利税、资金利税率、产值利税率、百元销售收入实现利润、全员劳动生产率等等,根据这些指标对31个省市自治区进行分类,然后根据分类结果对企业经济效益进行综合评价,就易于得出科学的分析。4.1.1引例引例——聚类分析的含义休息一下统计学专业主干课程——多元统计分析2007.8安徽财经大学统计与应用数学学院4.1.1引例引例——聚类分析的含义在成熟股市中,一个股民若想成功,必须学会板块分析,习惯理性操作,树立板块投资理念。股市中的板块(板块是指具有共同特征的股票群)可以行业和产业、地域、时间、特殊题材等多种角度来划分,而在每一板块中又有几十种甚至上百种股票。面对众多股票及每个公司的众多财务数据,怎样才能客观、全面、准确地分析并选出各板块及板块内的绩优龙头股和潜力股呢?休息一下统计学专业主干课程——多元统计分析2007.8安徽财经大学统计与应用数学学院4.1.1引例引例——聚类分析的含义以高科技板块中的31个上市公司为例,选取这31个上市公司XX年的每股收益、每股净资产、股东权益率、净资产收益率、净利润率等五个反映上市公司综合盈利能力的指标,聚类分析能综合这多项财务指标来反映上市公司的盈利能力和水平,找出最具实力的板块潜力股、龙头股。休息一下统计学专业主干课程——多元统计分析2007.8安徽财经大学统计与应用数学学院不同地区城镇居民收入和消费状况的分类研究;对某城市按大气污染的轻重分成几类区域;对某年级学生按学习成绩的好差分成几等;在儿童生长发育研究中,把以形态学为主的指标归于一类,以机能为主的指标归于另一类……区域经济及社会发展水平的分析及全国区域经济综合评价休息一下统计学专业主干课程——多元统计分析2007.8安徽财经大学统计与应用数学学院当有一个分类指标时,分类比较容易。但是当有多个指标,要进行分类就不是很容易了。由于不同的指标项对重要程度或依赖关系是相互不同的,所以也不能用平均的方法,因为这样会忽视相对重要程度的问题。4.1.1引例引例——聚类分析的含义休息一下统计学专业主干课程——多元统计分析2007.8安徽财经大学统计与应用数学学院聚类分析是一种分类技术,又称群分析、点群分析、簇群分析,它是根据“物以类聚”的道理,对事物(样品或指标)进行分类的一种多元统计方法。4.1.1引例引例——聚类分析的含义这种方法的特点是只根据事物本身的特征分类,即将事物性质相近的归为一类,性质的差异较大的归在不同的类。所谓“类”,通俗地说就是相似元素的集合。分类,是将一个观测对象指定到某一类(组)。休息一下统计学专业主干课程——多元统计分析2007.8安徽财经大学统计与应用数学学院传统的分类方法起源很早,在古老的分类学中,人们主要靠经验和专业知识进行定性的分析,许多分类往往带有主观性和任意性,不能揭示客观事物的内在本质差别和联系。4.1.1引例聚类分析方法的产生休息一下统计学专业主干课程——多元统计分析2007.8安徽财经大学统计与应用数学学院随着人类科学技术的发展,对分类的要求越来越高,仅凭经验和专业知识难以确切的进行分类,特别是对于多因素、多指标的分类问题。数学工具引用到分类学中,形成数值分类学,后来又将多元分析的技术引入到数值分类学,逐步形成聚类分析这一数值分类方法。4.1.1引例聚类分析方法的产生休息一下统计学专业主干课程——多元统计分析2007.8安徽财经大学统计与应用数学学院4.1聚类分析的基本思想返回4.1.1引例4.1.3聚类分析的基本思想4.1.4聚类的方法R型聚类Q型聚类4.1.2聚类分析的对象类型休息一下统计学专业主干课程——多元统计分析2007.8安徽财经大学统计与应用数学学院4.1.2聚类分析的对象类型R型聚类以分类对象为标准,可以将变量(指标)分类——R型聚类分析。如城镇居民消费水平通常用八项指标来描述,八项指标间存在一定的线性相关。为研究城镇居民的消费结构,需将相关性强的指标归并到一起,这实际上就是对指标聚类等。在生产活动中不乏有变量聚类的实例,如:衣服型号就是根据人体各部分尺寸数据找出最有代表性的指标如身长、胸围和裤长、腰围作为上衣和裤子的代表性指标。变量聚类使批量生产成为可能。R型聚类是对变量进行分类处理。一般来说,可以反映研究对象特点的变量有许多,由于对客观事物的认识有限,往往难以找出彼此独立且有代表性的变量,影响对问题进一步的认识和研究,因此往往需要先进行变量聚类,找出相互独立又有代表性的变量,而又不丢失大部分信息。休息一下统计学专业主干课程——多元统计分析2007.8安徽财经大学统计与应用数学学院更多的应用是将样品(个体)分类——Q型聚类分析。如解剖学上依据骨骼的形状和大小等,不仅可以区别样品是人还是猿,还可以区别性别、年龄等。4.1.2聚类分析的对象类型Q型聚类Q型聚类是对样品进行分类,即对观测进行分类。根据观测有关变量的特征,将特征相似的样品归为一类。它是聚类分析中用的最多的一种。休息一下统计学专业主干课程——多元统计分析2007.8安徽财经大学统计与应用数学学院这两种聚类在数学上是对称的,没有什么不同。本章主要讨论Q型聚类分析问题。4.1.2聚类分析的对象类型休息一下统计学专业主干课程——多元统计分析2007.8安徽财经大学统计与应用数学学院4.1聚类分析的基本思想返回4.1.1引例4.1.3聚类分析的基本思想4.1.4聚类的方法聚类分析的基本思想4.1.2聚类分析的对象类型休息一下统计学专业主干课程——多元统计分析2007.8安徽财经大学统计与应用数学学院4.1.3聚类分析的基本思想聚类分析的基本思想我们所研究的样品或指标(变量)之间存在着程度不同的相似性(亲疏关系),于是:(1)根据一批样品的多个观测指标,具体找出一些能够度量样品或变量(指标)之间相似程度的统计量;(2)以这些统计量为划分类型的依据,建立一种分类方法,将一批样品或变量(指标),按照它们在性质上的亲疏、相似程度进行分类。休息一下统计学专业主干课程——多元统计分析2007.8安徽财经大学统计与应用数学学院与多元分析的其它方法比,聚类分析方法较为粗糙,理论上还不够完善,但应用方便、广泛,与回归分析、判别分析一起被称为多元分析的三大方法。受到人们的青睐。4.1.3聚类分析的基本思想休息一下统计学专业主干课程——多元统计分析2007.8安徽财经大学统计与应用数学学院4.1聚类分析的基本思想返回4.1.1引例4.1.3聚类分析的基本思想4.1.4聚类的方法聚类的方法4.1.2聚类分析的对象类型休息一下统计学专业主干课程——多元统计分析2007.8安徽财经大学统计与应用数学学院1、系统聚类法(谱系聚类):先将n个元素(样品或变量)看成n类,然后将性质最接近(或相似程度最大)的2类合并为一个新类,得到n-1类,再从中找出最接近的2类加以合并变成了n-2类,如此下去,最后所有的元素全聚在一类之中。2、动态聚类法(调优法):开始将n个元素粗糙地分成若干类,然后用某种最优准则(如分类函数尽可能小的原则)对已分类别进行调整,直到分类合理为止。3、有序样品的聚类:n个样品按某种因素(时间或年龄或地层深度等)排成次序,要求必须是次序相邻的样品才能聚在一类。4、分解法:其程序与系统聚类相反。首先所有的元素均在一类,然后用某种最优准则将它分成2类,再用同样准则将这2类各自试图分裂为2类,从中选1个使目标函数较好者,这样由2类变成了3类。如此下去,一直分裂到每类中只有1个元素为止,有时即使是同一种聚类方法,因聚类形式(即距离的定义方法)不同而有不同的停止规则。其他还有加入法、图论聚类、模糊聚类等。4.1.4聚类的方法聚类的方法休息一下统计学专业主干课程——多元统计分析2007.8安徽财经大学统计与应用数学学院4.2聚类统计量返回4.2.1聚类分析的数据格式4.2.3数据的变换处理4.2.4聚类统计量4.2.2变量测量尺度的类型休息一下统计学专业主干课程——多元统计分析2007.8安徽财经大学统计与应用数学学院4.2聚类统计量返回4.2.1聚类分析的数据格式4.2.3数据的变换处理4.2.4聚类统计量聚类分析的数据格式4.2.2变量测量尺度的类型休息一下统计学专业主干课程——多元统计分析2007.8安徽财经大学统计与应用数学学院n个样品p项指标形成的原始数据资料矩阵中,每一行表示一个样品,每一列表示一个变量,Xij表示第i个样品的第j个变量的值。因此,两个样品的相似性可用矩阵中两行的相似程度来刻划;两个变量的相似性可用矩阵中两列的相似程度来刻划。4.2.1聚类分析的数据格式聚类分析的数据格式休息一下统计学专业主干课程——多元统计分析2007.8安徽财经大学统计与应用数学学院设有n个样品单位,每个样品测得p项指标(变量),原始资料阵为:4.2.1聚类分析的数据格式聚类分析的数据格式休息一下统计学专业主干课程——多元统计分析2007.8安徽财经大学统计与应用数学学院个指标的观测数据。第i个样品Xi为矩阵X的第i行所描述,所以任何两个样品Xk与XL之间的相似性,可以通过矩阵X中的第K行与第L行的相似程度来刻划;任何两个变量xk与xL之间的相似性,可以通过第K列与第L列的相似程度来刻划。其中为第i个样品的第j休息一下统计学专业主干课程——多元统计分析2007.8安徽财经大学统计与应用数学学院4.2聚类统计量返回4.2.1聚类分析的数据格式4.2.3数据的变换处理4.2.4聚类统计量间隔尺度4.2.2变量测量尺度的类型有序尺度名义尺度休息一下统计学专业主干课程——多元统计分析2007.8安徽财经大学统计与应用数学学院为了将样本进行分类,就需要研究样品之间的关系;而为了将变量进行分类,就需要研究变量之间的关系。但无论是样品之间的关系,还是变量之间的关系,都是用变量来描述的,变量的类型不同,描述方法也就不同。通常,变量按照测量它们的尺度不同,可以分为三类。4.2.2变量测量尺度的类型变量测量尺度的类型休息一下统计学专业主干课程——多元统计分析2007.8安徽财经大学统计与应用数学学院4.2.2变量测量尺度的类型间隔尺度间隔尺度(定距尺度、定量变量)——变量用连续的(实值)量表示。由测量、计数或统计所得到的量,如长度、重量、经济统计数字、抽样调查数据等;休息一下统计学专业主干课程——多元统计分析2007.8安徽财经大学统计与应用数学学院4.2.2变量测量尺度的类型有序尺度有序尺度(定序变量、定性变量)——用该变量度量时没有明确的数量表示,只有次序(等级)关