聚类算法之详解

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

聚类算法聚类分析与判别分析资料来源:第一节聚类分析统计思想一、聚类分析的基本思想1.什么是聚类分析俗语说,物以类聚、人以群分。当有一个分类指标时,分类比较容易。但是当有多个指标,要进行分类就不是很容易了。比如,要想把中国的县分成若干类,可以按照自然条件来分:考虑降水、土地、日照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施等指标;对于多指标分类,由于不同的指标项对重要程度或依赖关系是相互不同的,所以也不能用平均的方法,因为这样会忽视相对重要程度的问题。所以需要进行多元分类,即聚类分析。最早的聚类分析是由考古学家在对考古分类中研究中发展起来的,同时又应用于昆虫的分类中,此后又广泛地应用在天气、生物等方面。对于一个数据,人们既可以对变量(指标)进行分类(相当于对数据中的列分类),也可以对观测值(事件,样品)来分类(相当于对数据中的行分类)。2.R型聚类和Q型聚类对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。这两种聚类在数学上是对称的,没有什么不同。聚类分析就是要找出具有相近程度的点或类聚为一类;如何衡量这个“相近程度”?就是要根据“距离”来确定。这里的距离含义很广,凡是满足4个条件(后面讲)的都是距离,如欧氏距离、马氏距离…,相似系数也可看作为距离。二、如何度量距离的远近:统计距离和相似系数1.统计距离距离有点间距离好和类间距离2.常用距离统计距离有多种,常用的是明氏距离。3.相似系数当对个指标变量进行聚类时,用相似系数来衡量变量间的关联程度,一般地称为变量和间的相似系数。常用的相似系数有夹角余弦、相关系数等。夹角余弦:相关系数:对于分类变量的研究对象的相似性测度,一般称为关联测度。第二节如何进行聚类分析一、系统聚类1.系统聚类的基本步骤2.最短距离法3.最长距离法4.重心法和类平均法5.离差平方和法二、SPSS中的聚类分析1、事先要确定分多少类:K均值聚类法;2、事先不用确定分多少类:分层聚类;分层聚类由两种方法:分解法和凝聚法。分层聚类的功能:即可进行样品的聚类,也可进行变量的聚类。分层聚类的原理:即我们前面介绍过的系统聚类方法的原理和过程。分层聚类的中要进行以下的选择:数据的标准化测度方法的选择:距离方法的选择或相似性、关联程度的选择。聚类方法的选择:即以什么方法聚类,spss中提供了7中方法可进行选择。输出图形的选择:树形图或冰柱图。3、聚类分析要注意的问题。聚类方法的优缺点:类平均法比较好,因为与类平均法相比,最短和重心法是“空间浓缩”,即并类的距离范围小,区别类的灵敏度差;与类平均法相比,其他方法是“空间扩张”,即并类距离范围大,区别类的灵敏度强。最短距离比最长距离法好聚类结果中,如果孤类点太多,则说明该中聚类方法不好。如果从减少孤类来看,一般情况下用Word’s方法最好。快速聚类法与层次聚类法应用区别层次聚类法的聚类过程是单方向的,一旦某个样品(case)进入某一类,就不可能从该类出来,再归入其他的类。而快速聚类法受奇异值、相似测度和不合使得聚类变量的影响较小,对于不合适的初始分类可以进行反复调整.在聚类分析发展的早期,层次聚类法应用普遍,其中尤以组间类平均法和离差平方和法应用最广。后来快速聚类方法逐步被人们接受,应用日益增多。现在是两者相结合,取长补短。首先使用层次聚类法确定分类数,检查是否有奇异值,去除奇异值后,对剩下的案例重新进行分类,把用层次聚类法得到的各个类的重心,作为迭代法的初始分类中心,对样本进行重新调整。第三节判别分析一、判别分析的基本思路1.为什么判别?有一些昆虫的性别很难看出,只有通过解剖才能够判别;但是雄性和雌性昆虫在若干体表度量上有些综合的差异。于是统计学家就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)得到一个标准,并且利用这个标准来判别其他未知性别的昆虫。这样的判别虽然不能保证百分之百准确,但至少大部分判别都是对的,而且用不着杀死昆虫来进行判别了。2.判别分析(discriminantanalysis)的含义这就是本章要讲的是判别分析。判别分析和前面的聚类分析有什么不同呢?主要不同点就是,在聚类分析中一般人们事先并不知道或一定要明确应该分成几类,完全根据数据来确定。而在判别分析中,至少有一个已经明确知道类别的“训练样本”,利用这个数据,就可以建立判别准则,并通过预测变量来为未知类别的观测值进行判别了。3.判别分析例子例10.1数据disc.sav:企图用一套打分体系来描绘企业的状况。该体系对每个企业的一些指标(变量)进行评分。这些指标包括:企业规模(is)、服务(se)、雇员工资比例(sa)、利润增长(prr)、市场份额(ms)、市场份额增长(msr)、流动资金比例(cp)、资金周转速度(cs)等等。另外,有一些企业已经被某杂志划分为上升企业、稳定企业和下降企业。我们希望根据这些企业的上述变量的打分和它们已知的类别(三个类别之一:group-1代表上升,group-2代表稳定,group-3代表下降)找出一个分类标准,以对没有被该刊物分类的企业进行分类。该数据有90个企业(90个观测值),其中30个属于上升型,30个属于稳定型,30个属于下降型。这个数据就是一个“训练样本”。4.判别分析的基本思路设有G1、G2、…GK个总体,从不同的总体中抽出不同的样本,根据样本→建立判别法则→判别新的样品属于哪一个总体。当然,根据不同的方法,建立的判别法则也是不同的。常用的判别方法有:距离判别、Fisher判别、Bayes判别。二、几种判别分析方法;1.距离判别法(不用投影)最简单的办法就是离哪个中心距离最近,就属于哪一类。通常使用的距离是所谓的马氏(Mahalanobis)距离。用来比较到各个中心距离的数学函数称为判别函数(discriminantfunction).这种根据远近判别的方法,原理简单,直观易懂。假设有两个总体G1和G2,如果能够定义点x到它们的距离D(x,G1)和D(x,G2),则如果D(x,G1)D(x,G2),则x∈G1如果D(x,G2)D(x,G1),则x∈G2如果D(x,G1)=D(x,G2),则待判2.Fisher判别法(先进行投影的距离判别)所谓Fisher判别法,就是一种先投影的方法。考虑只有两个(预测)变量的判别分析问题。假定这里只有两类。数据中的每个观测值是二维空间的一个点。见图。这里只有两种已知类型的训练样本。其中一类有38个点(用“o”表示),另一类有44个点(用“*”表示)。按照原来的变量(横坐标和纵坐标),很难将这两种点分开。于是就寻找一个方向,也就是图上的虚线方向,沿着这个方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清楚。可以看出,如果向其他方向投影,判别效果不会比这个好。有了投影之后,再用前面讲到的距离远近的方法来得到判别准则。这种首先进行投影的判别方法就是Fisher判别法。3.逐步判别法有时,一些变量对于判别并没有什么作用,为了得到对判别最合适的变量,可以使用逐步判别。逐步判别法的基本思路:采用“有进有出”的方法。即在判别过程中,没有一个变量进入判别分析中,先对各变量进行计算、检验,从中挑选最主要的变量进入判别中。然后再考虑较早引入判别式的某些变量,如果由于新变量的引入而原变量变为不重要了,则剔除判别式中,直到所有的重要变量都引入判别式中,所有的非重要变量都剔除判别式中为止。如何判别那个变量重要呢?已知变量之间在各组中的差异越大越好,即为重要变量。变量在各组间的差异可用多元的方差分析,即利用:来分析变量的重要性。三、判别分析要注意的问题。样本中必须有所有要判别的类型,分类必须清楚,不能有混杂。要选择好可能用于判别的预测变量。这是最重要的一步。当然,在应用中,选择的余地不见得有多大。要注意数据是否有不寻常的点或者模式存在。还要看预测变量中是否有些不适宜的;这可以用单变量方差分析(ANOVA)和相关分析来验证。判别分析是为了正确地分类,但同时也要注意使用尽可能少的预测变量来达到这个目的。使用较少的变量意味着节省资源和易于对结果进行解释。我国各地区教育经费不同类型的判别分析数据文件:各地区教育经费.sav。变量为:x1-国家财政性教育经费、x2-社会团体和公民个人办学经费、x3-社会捐资和集资办学经费、x4-学费和杂费和x5-其他教育经费。原数据分为三类,其中上海、新疆是待判样本。思考题:1.举例说明何为聚类分析?2.能否用你身边的事例说明聚类分析与判别分析的异同?3.做判别分析时,如果不精心,会有什么后果?什么是不好的后果?SQLServer2005联机丛书Microsoft聚类分析算法Microsoft聚类分析算法是由MicrosoftSQLServer2005AnalysisServices(SSAS)提供的分段算法。该算法使用迭代技术将数据集中的事例分组为包含类似特征的分类。在浏览数据、标识数据中的异常及创建预测时,这些分组十分有用。聚类分析模型标识数据集中可能无法通过随意观察在逻辑上得出的关系。例如,在逻辑上可以得知,骑自行车上下班的人的居住地点通常离其工作地点不远。但该算法可以找出有关骑自行车上下班人员的其他并不明显的特征。在下面的关系图中,分类A表示有关通常开车上班人员的数据,而分类B表示通常骑自行车上班人员的数据。聚类分析算法不同于Microsoft决策树算法等其他数据挖掘算法,区别在于无需指定可预测列便能生成聚类分析模型。聚类分析算法严格地根据数据以及该算法所标识的分类中存在的关系定型。示例考虑这样一组人员,他们共享类似的人口统计信息并从AdventureWorks公司购买类似的产品。这组人员就表示一个数据分类。数据库中可能存在多个这样的分类。通过观察构成分类的各列,可以更清楚地了解数据集中的记录如何相互关联。算法的原理Microsoft聚类分析算法首先标识数据集中的关系并根据这些关系生成一系列分类。散点图是一种非常有用的方法,可以直观地表示算法如何对数据进行分组,如下面的关系图所示。散点图可以表示数据集中的所有事例,在该图中每个事例就是一个点。分类对该图中的点进行分组并阐释该算法所标识的关系。在最初定义分类后,算法将通过计算确定分类表示点分组情况的适合程度,然后尝试重新定义这些分组以创建可以更好地表示数据的分类。该算法将循环执行此过程,直到它不能再通过重新定义分类来改进结果为止。Microsoft聚类分析算法提供下列两种方法来计算点在分类中的适合程度:ExpectationMaximization(EM)和K-Means。对于EM聚类分析,该算法使用一种统计方法来确定分类中存在数据点的概率。对于K-Means,该算法使用距离度量值将数据点分配给其最接近的分类。生成分类时不使用其用法设置为只预测的列。在生成分类后,将计算这些列在分类中的分布。有关Microsoft聚类分析算法工作原理的更详细说明,请参阅ScalingEM(ExpectationMaximization)ClusteringtoLargeDatabases。使用算法聚类分析模型必须包含一个键列和若干输入列。还可以将输入列定义为可预测列。该算法支持特定输入列内容类型、可预测列内容类型和建模标志,如下表所示。输入列内容类型Continuous、Cyclical、Discrete、Discretized、Key、Table和Ordered可预测列内容类型Continuous、Cyclical、Discrete、Discretized、Table和Ordered建模标志MODEL_EXISTENCE_ONLY和NOTNULL所有Microsoft算法均支持一些通用的函数。但是,Microsoft聚类分析算法还支持下表中列出的其他函数。ClusterPredictCaseLikelihoodClusterProbabilityPredictNodeIdIsDescendantPredictProbabilityIsInNodePredictStdevPredictAdj

1 / 78
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功