聚类分析在我国居民收入差异分析中的应用第1页,共39页1绪论1.1选题背景和意义在我国这样一个拥有着13亿人口的发展中国家,经济的发展关乎人们的切身利益,关乎一个国家的生死存亡。而衡量经济发展程度的一个重要指标就是这个国家的居民收入情况。研究国家的居民收入差异情况,根据不同地区的居民的收入情况,运用聚类分析方法将我国31个地区进行分类。从而可以很直观的看出哪些地区属于经济发达地区、哪些地区属于中等地区以及落后地区,为和谐社会的建设,科学发展观的落实,和经济的平稳发展出谋划策。随着人们科学知识的增长,人们开始研究存在于经济、社会、生物及人口等领域内的量化分类问题。比如,在生物学中,生物学家为了研究生物的演变,于是便根据各种物种的各自的特征来对其进行分类。然而在社会学中,为了研究人类社会的发展规律,便需要根据各个时代的发展及特征来将人类历史进行划分。在人口学中,人口学家为了研究人类的生育及死亡规律就需要构造出人口生育分类模式和人口死亡分类状况。但是由于这些分类方法带有人类的一定的主观色彩且主要是依据自身的经验来做定性的分类,使得这些分类具有一定的主观性和任意性,从而无法使我们客观准确地认识到这些事物内部的本质区别和联系。尤其对于那些多因素、多指标性的分类问题,很难去把握定性分类的准确性,使得定性的分类往往不具有很强的说服力。然而随着人们利用科技的能力的提高,使得运用数学方法来对事物进行定量分类成为一种可能而且非常必要的手段。用数学方法进行定量分类,不仅结果显而易见,而且用真实的数据得到的结果更具有说服力。所以近些年来,应用多元统计中的聚类分析的理论及应用得到迅速发展。自1978年我国实行改革开放以来,举国上下发生了翻天覆地的变化,这不仅表现在我国各地区的经济得到了迅猛的发展,还表现在人民的生活水平也得到了大幅度的提高。然而经济的高速发展带来的一个负面影响则是我国的收入分配差距正在经历着一个低谷,贫富差距也进一步扩大。目前我国的收入分配格局很不乐观,需要引起人们足够的重视。近些年的统计数据结果表明我国的居民收入差异比世界上大多数国家都要大,收入分配不平等的程度也非常之大。聚类分析在我国居民收入差异分析中的应用第2页,共39页我国目前的情况是高收入者收入所占的财富比例远远大于其占人口的比例,也就是说相当一部分资金是被少数人占有的。而低收入者所占财富比例则远远小于其占人口的比例。我国某些地区,尤其是一些山区里的人民生活特别困苦,无法维持基本的生活。这样两种近乎极端的收入状况使得我国目前的贫富差距过大。由于低收入者生活困难,国家须下达相关辅助政策以提高低收入群体的经济收入,帮组低收入者维持正常生活,度过经济难关,这样无形中增加了国家的经济负担。而社会上存在的部分高收入者的奢侈浪费现象以及由他们的行为引起的大范围内的模仿,使得资源不能得到合理的利用并产生了不好的社会效应。收入得不到合理的分配,并因此产生的穷者越来越穷,富者越来越富的社会现象,使得我国的居民收入差距问题变得越来越严重。故正确认识我国居民城乡收入差异的情况对于调整我国居民收入分配不合理的格局、改善我国居民收入差距情况有着非常重要的意义。1.2国内外研究现状多元统计分析是起源于20世纪初并随着人们认知的提高不断发展了的一门学科。多年来,由于国内外学者纷纷对多元统计分析进行了广泛而深入的研究,使多元统计得到了很大程度的发展。早在1967年麦奎因就提出了运用K均值法对样品或者变量进行分类这一想法。然而国外学者对于居民收入差异这一方面的研究要比国内更早一些。国外很多学者从20世纪50年代就开始着手研究居民收入差异与国家经济增长之间的关系。而其中最为著名的是由库兹涅茨于1954年提出的经典的倒u曲线,这一曲面的含义即伴随着经济的发展,居民收入从最低水平逐渐上升,而收入差异则逐步的扩大,收入分配情况逐渐恶化,而当经济发展到一定水平的时候,收入差异情况将得到改善,逐步呈现下降的趋势,最终将达到相对公平的收入差异水平。通过我国国内学者的多方面的努力和研究,聚类分析理论在国内也得到了广泛的发展和应用。在各个方面的研究,例如对生物演变的研究,对社会历史规律的研究,对人口生育及死亡规律的研究、对经济发展规律的研究等方面都取得了很大的成就。故聚类分析逐步渗透到人们的日常生活中,逐步渗透到人类生活的各个领域中,而由于其广泛的应用也使得聚类分析这一理论更加成熟。目前国内外对于运用聚类分析来剖析居民收入差异情况的研究并不是很多。本文主要是通过运用聚类分析理论来研究我国居民收入差异情况。通过聚类分析的理论将我国31个地区分为三类,即收入差异较大、中等聚类分析在我国居民收入差异分析中的应用第3页,共39页及较小的地区。通过聚类结果并给出一定的建议以减少我国居民的收入差异,使得我国收入分配格局得到改善。1.3课题研究方法第一、资料收集。本文的数据是来自国家统计局2011年度统计的数据。具体的就是登陆国家统计局网页,从2011年统计数据中找到全国各地区城镇居民的收入情况和农村地区的收入情况,从而进行进一步的分析。第二、综合分析。本文主要采用的方法是应用多元统计分析中的聚类分析方法。因为本文涉及的层面较多,涉及知识面也比较广泛,所以本文也采用了经济学和统计学等领域的统计原理和方法。第三、理论与实际相结合。本文将收集到的数据导入SPSS软件中,运用多种聚类方法进行分析,从而将全国各地区城乡收入差异情况进行分类。本文主要采用的聚类分析方法有系统聚类分析法和K均值聚类分析方法。当然运用不同的聚类分析方法会得到不同的结果,但大致的结果是相似的。1.4论文构成及研究内容本论文运用聚类分析的客观分析方法将全国31个地区(省、直辖市和自治区)的城乡居民收入差异情况进行综合评价分类,并运用SPSS软件中的聚类分析的相关方法对原始数据进行了分析,建立聚类分析模型,并运用该模型分析各地区居民平均收入的差异情况,进而进行分类。论文的主要构成是:(1)中英文摘要:对论文正文的主要内容进行概括,能够让读者快速的了解全文的中心思想和内容。(2)绪论:主要是阐述本文的选题背景、研究现状和研究方法,让读者对本文的理论背景有所了解,并对本文的主要内容有更深入的了解。(3)聚类分析理论:主要是对聚类分析方法的概念、性质以及本文所运用的主要方法进行阐述。(4)模型建立:这部分内容属于正文,主要是对本文所运用的系统聚类分析方法和K均值聚类方法的建模过程进行阐述。(5)实证分析2010年居民收入差异情况:对收集到的2010年全国31个地区成镇聚类分析在我国居民收入差异分析中的应用第4页,共39页和农村地区的收入数据,分别运用系统聚类分析和K均值聚类分析进行分析,并作出聚类表格进行分析。(6)用2009年数据验证聚类结果:这一部分主要是运用2009年的数据对聚类分析进行验证,并与2010年的结果进行比较分析。(7)用2005年数据对比:这一部分主要是将2005年的数据进行聚类分析,将得到的结果与2010年进行对比并作出分析。(7)总结:对本文的主要内容进行总结,并指出欠缺之处。(8)参考文献。(9)附录。聚类分析在我国居民收入差异分析中的应用第5页,共39页2聚类分析理论“物以类聚,人以群分”。当事物中包含大量的个体,他们有各自的特征,我们很容易想到将他们进行分类,而对事物进行分类,是人们对事物进行认识的开始,也是人们认识世界的一种重要的途径和手段。而聚类分析就是其中一种重要且实用的分类方法。聚类分析又可以叫作群分析,是分析如何对样品或变量进行量化分类的问题。聚类分析要求在没有任何模式可供参考或遵循的情况下,即没有任何先验知识的前提下能够合理地按样品或变量的特征及特性进行合理的分类。聚类分析是分类学的一个分支,在以往的分类学中,人们由于缺乏运用数学工具进行定量分析的意识,主要是依靠自身的经验和专业知识来实现定性的分类,这就使得研究结果的准确性有待考证。聚类分析的主要方法有系统聚类分析方法和K均值聚类分析方法。2.1相似度的量度2.1.1样品相似度的度量在进行聚类之前,首先要对样品的相似性进行分析。对于Q型聚类分析而言,样品之间相似程度常用距离来测度。我们将第i个样品与第j个样品之间的距离记为d。在聚类过程中,把距离较近的点归属于为一类,距离较远的点应归为不同的类[4]。我们定义的距离d一般满足如下三个条件:(1)对于一切i,j,d0;且dX,X=0当且仅当X=X;(2)对一切i,j,d=d;(3)对一切i,j,k,dd+d。若令d为样品X与X的距离,那么存在下面的距离公式。对于闵可夫斯基距离:d(q)=(∑|X−X|)/(2-1)闵可夫斯基距离又简称为闵氏距离,可按q的取值不同分为:聚类分析在我国居民收入差异分析中的应用第6页,共39页(1)绝对距离(q=1)d(1)=∑|X−X|(2-2)(2)欧几里得距离(q=2)d(2)=(∑|X−X|)/(2-3)(3)切比雪夫距离(q=∞)d(∞)=max|X−X|(2-4)d(q)在实际中应用得很多,由于距离大小与各变量的观测单位有关,而它没有把变量间的相关性考虑进去,使得这一表述距离的公式存在一定的缺陷。当各变量的测量值相差很大时,应先对数据进行标准化,再用标准化后的数据来计算距离。最常用的标准化处理方法是:X∗=(2-5)其中X=(∑X)/n是第j个变量的样本均值,s=∑X−X/(n−1)是第j个变量的样本方差。2.1.2变量相似度的度量多元数据中的变量用向量形式进行表示,在几何上则可用多维空间中的一个有向线段进行表示。在对多元数据进行分析的时候,变量的变化趋势或方向相较于数据的大小更能引起我们的兴趣。所以,我们可从它们的方向趋同性或“相关性”来考察变量间的相似性,从而可以得到“夹角余弦法”和“相关系数”两种度量方法。(一)夹角余弦将两个变量X与X看作p维空间的两个向量,这两个向量的夹角余弦可以用如下的公式进行计算cosθ=∑∑(∑)(2-6)显然,|cosθ|≤1[1]。(二)相关系数变量间的相似性通常用相关系数来度量。两个变量X与X的相关系数可定义为聚类分析在我国居民收入差异分析中的应用第7页,共39页r=∑()()∑()∑()(2-7)显然,|r|≤1[1]。无论是夹角余弦抑或是相关系数,它们的绝对值都是小于1的,作为变量近似性的度量工具,我们将它们统计为c。当c=1时,表明变量X与X是完全相似的;当c近似于1时,说明变量X与X的关系非常密切;当c=0时,表明变量X与X是完全不一样的;当c近似于0时,表明变量X与X差别非常大。因此,我们将相对而言比较相似的变量聚合为一类,将不太相似的变量归属于不同的类。然而在实际的聚类过程中,为了计算的方便,我们将变量间相似性的度量公式作一个变换为d=1−c(2-8)或者d=1−c(2-9)为了迎合人们一般的思维方式,我们用d表示变量间的距离的远近,d小则将X与X聚为一类。2.2系统聚类分析法系统聚类分析的基本思想是:将距离相对较近的样品(或变量)先聚成类,距离相对较远的后聚成类,过程一直延续下去,每个样品(或变量)总能聚合到合适的类中。系统聚类的过程是:不妨假设总共有n个样品(或变量),第一步是将每个样品(或变量)独自聚成类,把距离较近的两个样品(或变量)聚合为一类,其他的样品(或变量)仍然各自聚为一类,这样共聚成n-1类;第二部则是将距离最近的两类进一步聚合为一类,这样共聚成n-2类。以上步骤依次进行下去,最后把所有的样品(或变量)都聚为一类[4]。众所周知,在进行系统聚类前,首先要对类与类之间的距离进行定义。然而常使用的类间距离定义共有很多种。本文主要是运用其中一种类平均法来求类间距离。聚类分析在我国居民收入差异分析中的应用第8页,共39页假设G和G分别有样品n,n个。类平均法将类间距离平方定义为这两类元素两两之间距离平方的平均数,即为D=∑∑d∈∈(2-10)假设聚类的某一步我们将G和G合并为G,那么任一类G与G的距离为[4]D=1nnd∈∈ =1nn(