主成分分析和聚类分析的比较摘要:主成分分析和聚类分析方多元统计中两种重要的分析方法,但却容易在使用中混淆。本文从基本思想,应用的优缺点、应用实例中讨论两者的异同,并简述两种方法在实际问题中的应用。关键词:主成分分析;聚类分析一、引言主成分分析是利用降维的思想,在缺失很少信息的前提下,把多个指标转化为几个综合指标的多元统计方法。通常把转化生成的综合指标称为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能。聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构,并且对每一个数据集进行描述的过程。其主要依据是聚到同一个数据集的样本应该性质相似,而属于不同组的样本应该足够不相似。两种方法既有区别又有联系,本文将两者的异同进行比较,并举例说明两者在实际应用中的联系,以便更好地理解这两种统计方法而为实际所应用。二、基本思想的异同相同点:主成分分析方法是用少数的几个变量来综合反映原始变量的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的85%以上,因此其可信度很高。通过主成分分析,可以将事物之间错综复杂的关系中找出一些主要成分,从而能有效利用大量统计数据进行定量分析,解释变量之间的内在关系。因此主成分变量比原始变量少了很多,从而起到了降维的作用。聚类分析的基本思想是采用多变量的统计值,定量的确定相互之间的亲疏关系,考虑对象多因素的联系和主导作用。按它们亲疏差异程度,归类不同的分类中的一元。使分类更具有客观实际并能反映事物的内在必然联系。聚类分析是通过一种大的对称矩阵来探索相关关系的一种数学分析方法。对变量分类后,我们对数据的处理难度也降低,所以从某种意义上说,聚类分析也起到了降维的作用。不同点:主成分分析是研究如何通过原来变量的少数几个变量组合来解释原来变量绝大多数信息的一种多元统计方法。主成分分析就是设法将原来众多具有相关性的指标,从新组合成一组相互无关的指标来代替原来的指标。我们将选取的一组线性组合标为F1,若F1方差越大,则代表所包含的信息越多。则称其为第一主成分,再选一组线性组合其方差次大,记为F2,,称其为第二主成分,且规定F1与F2线性无关。是指第一主成分与第二主成分所包含信息不重合。且所包含的信息大小逐渐递减。我们在实际研究中只需要选取前几个成分即可。在聚类分析过程中,如果选取的聚类量纲不同会导致错误的结果。因此在聚类过程之前必须对变量进行标准化。不同的方法进行标准化,会导致不同的聚类结果。三、应用的优缺点1、主成分分析优点:它用降维技术将少数几个综合变量来代替原始多个变量。这些综合变量集中了原始变量大多数信息。当评级指标较多时还可以在保留绝大部分信息的情况下用少数几个综合指标代替原指标进行分析,主成分分析中各主成分是按照方差的大小来排列顺序的,在分析问题时,只取前后方差大的几个主成分来代表原变量,从而减少了计算工作量,由于选择的原则是累计贡献率≥85%,所以不会因为减少作量却把关键指标遗漏而影响评估结果。在综合评价函数中,各主成分的权数为其贡献率,它反映了该主成分包含原始数据的信息量占全部信息量的比重,这样确定权数是客观的、合理的,它克服了某些评价方法中认为确定权数的缺陷。这种方法的计算比较规范,便于在计算机上实现,还可以利用专门的软件。缺点:在主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平(即变量降维后的信息量须保持在一个较高水平上),其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释(否则主成分将空有信息量而无实际含义)。主成分的解释其含义一般多少带有点模糊性。因此,提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确,命名清晰性低。2、聚类分析优点:聚类分析是先将最相似的两个变量聚为一小类,再去与最相似的变量或小类合并。每类的变量相似但类与类之间的差异性很大,这样能清晰描述数据。聚类分析运用范围极广,涉及很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。聚类分析方便快捷,是管理统计很好的方法。缺点:聚类分析是以完备的数据文件为基础的,一般要求各个观测变量的量纲一致,即各变量取值的数量级一致,否则各变量在描述客观事物某方面特征差异性的作用有被夸大或缩小的可能。要检查各变量的量纲是否一致,不一致则需进行转换。四、实例分析比较1.聚类分析运用中国统计年鉴数据,对主要城市废水中主要污染物排放来源情况进行研究(2013年)在spass软件进行操作,其操作框及结果如下图所示。(以系统聚类法为例)。图1图2图1是冰柱图,是反映样品聚类情况的图。如果按照设定的类数,在该类的行上从左到右就可以找到各类所包含的样品。例如我们希望分为5类,最左边的类数应选2,每个样品右边都有一列冰柱,如果每个样品右边的列冰柱长度小于5,那么它和前面冰柱长度大于5的样品聚为一类,如此下去直到找到全部5类为止。例如:重庆、上海、石家庄均小于5,因此它们各分为一类,从杭州到广州分为一类,北京和成都聚为另一类,共五类。图2是树状聚类图,从图中可以由分类个数得到分类情况。如果我们选择分类数为5,就从距离大概为14的地方往下切,得到分类结果如下{1:上海};{2:重庆};{3:石家庄};{4:天津,太原,呼和浩特,沈阳,长春,哈尔滨,南京,杭州,合肥,福州,南昌,济南,郑州,武汉,长沙,广州,南宁,海口,贵阳,昆明,拉萨,西安,兰州,西宁,银川,乌鲁木齐}。{5:北京,成都}我们可以从各地区来主要污水来源理解所做的分类,第一类应该是主要污水来源为工业废水,城镇生活污水,生活化学和生活氨氮。第二类主要污水来源为工业化学,城镇生活污水,生活化学。第三类主要污染来源为工业废水和工业化学。第四类主要污染来源为工业化学和生活化学。第五类污染来源主要为城镇生活污水和生活化学。系统聚类法在实际运用中的优缺点:系统聚类方法的优点是:操作简单,能细致的看出小类聚大类的过程,由由合并时的距离水平可以看出样品间的亲疏程度。但是它的缺点是:一旦一组对象合并时,下一步将在新生成的类上进行。已做的处理不能被撤销,类之间不能交换对象。如果在某一步没有很好的选择合并的话,将会造成低质量的聚类结果。因为合并或分裂的决定需要检查和估算大量的对象或类。需计算大量的距离,需要花费大量的时间,所以算法不具有很好的可伸缩性。2.主成分分析运用中国统计年鉴数据,对主要城市废水中主要污染物排放来源情况进行研究(2013年)在spass软件进行操作,其操作框及结果如下图所示。公因子方差初始提取工业废水1.000.818工业化学1.000.897工业氨氮1.000.887城镇生活污水1.000.865生活化学1.000.893生活氨氮1.000.930提取方法:主成份分析。图3解释的总方差成份初始特征值提取平方和载入合计方差的%累积%合计方差的%累积%14.01966.99166.9914.01966.99166.99121.27021.17088.1601.27021.17088.1603.3135.22193.3814.2323.87197.2535.1212.01399.2666.044.734100.000提取方法:主成份分析。图4成份矩阵a成份12工业废水.891.155工业化学.807.496工业氨氮.544.769城镇生活污水.828-.423生活化学.881-.342生活氨氮.904-.337提取方法:主成份。a.已提取了2个成份。图5由图可以看出,主成分几乎包含了原始变量至少88%的信息。图4即解释的总方差,则显示了各主成分解释原始变量方差的情况,spass默认保留特征根大于1的主成分,在本例中可看到保留2个主成分为宜。这2个主成分集中了6个原始变量信息的88.16%。可见效果比较好,实际上主成分解释总方差的百分比也可以由图3公因子方差表计算得出,即(0.818+0.897+0.887+0.865+0.893+0.930)/6=88.16%成份矩阵图5中给出了标准化原始变量用求得的主成分线性表示的近似表达式,我们以表中工业氨氮一行为例,不妨用prin1,prin2,来表示个个主成分,则由成份矩阵表可以得到标准化的工业氨氮≈0.544×prin1+0.769×prin2总结:主成分分析法和聚类分析法在多元统计方法占有重要地位,同时这两种方法对我们分析现实生活中的问题是有着很大的帮助。它们在经济学,医学,自然科学,社会学都有着广泛的应用,为我们解决实际问题,研究新的问题有着举足轻重的地位。因此我们要深入了解各种分析方法,从而达到更高层次的成就。参考文献:【1】李欣蕊.主成分分析、因子分析、聚类分析的比较与应用.山东教育学院报.2007(6)【2】王芳.主成分分析及因子分析的比较与应用.统计教育。2003.(5)【3】田兵.系统聚类法及其应用研究[J].阴山学刊:自然科学版,2014,02期(2):11-16.【5】何晓群.多元统计分析第四版.中国人民大学出版社,2015.3【6】中国统计年鉴主要城市废水中主要污染物排放情况2013检测报告:综合报告检测报告截图1检测报告截图2检测报告截图3