应用数理统计课程小论文1中国城镇居民消费结构的聚类分析[摘要]“十一五”时期,中国居民收入不断提高,生活质量不断提升,消费需求更加活跃,居民消费不断升级换代,但消费结构存在一定的地域性差异。利用聚类分析方法对我国31个省(直辖市、自治区)的城镇居民消费结构进行聚类分析,探讨我国各区域之间城镇居民消费结构的差异,从而为各地政府根据地区间的消费结构差异制定更加合理的用以促进当地经济发展的引导性政策提供更加有效的决策依据。[关键词]城镇居民消费结构消费需求聚类分析一、引言消费结构是在一定的社会经济条件下,人们(包括各种不同类型的消费者和社会集团)在消费过程中所消费的各种不同类型的消费资料(包括劳务)的比例关系。有实物和价值两种表现形式,实物形式指人们在消费中,消费了一些什么样的消费资料,以及它们各自的数量。价值形式指以货币表示的人们在消费过程中消费的各种不同类型的消费资料的比例关系。在现实生活中具体的表现为各项生活支出。目前普遍将我国经济发展状况由地域的不同分成东部地区、东北地区、中部地区和西部地区。本文利用聚类分析法对我国31个省(直辖市、自治区)的城镇居民消费结构进行聚类分析,以期发现我国各区域之间城镇居民消费结构的差异,从而为引导我国区域消费结构向着协调方向发展、为各地政府根据地区间消费结构差异制定更加合理的引导性政策提供更加有效的依据。二、消费结构指标的确定我国经济区划的分类尽管每种都包含不同类型的省份,但基本是按照地理位置进行分类的。对中国经济问题进行研究大都是以当时的经济区划为依据展开的,分析中国的消费问题也不例外。由于不同类型的省份影响其消费结构的因素不尽相同,因此,单纯地按照地理位置进行分类,以此划分为基础的进一步分析难免会产生一定的片面性。本文分类的目的是为了将消费结构相近的地区合归为一类,避免单纯按地理位置划分的不合理性,使地区分类更具代表性;也为研究中国城镇居民消费结构提供一种不同的角度。因此,本文选取构成居民消费支出的主要项目作为指标。按照中华人民共和国统计局统计口径,构成城镇居民消费性支出的2项目有:食品、衣着、家庭设备用品及服务、医疗保健、交通和通信、教育文化娱乐服务、居住、杂项商品和服务,以上构成城镇居民消费性支出的八个项目即为所选指标。三、数据来源为了消除各地区在区域面积、人口等方面的先天差异,使数据的分析结果更合理,这里的指标均采用各地区城镇居民家庭平均每人全年消费性支出作为分析对象,即采用人均值。根据中国统计年鉴,得到2006年的统计数据,见表1。表12006年各地区城镇居民家庭平均每人全年消费性支出(单位:元)地区食品衣着家庭设备用品及服务医疗保健交通和通信教育文化娱乐服务居住杂项商品和服务北京4560.521442.42977.471322.362173.262514.761212.89621.74天津3680.22864.89634.391049.331092.871452.171368.20405.99河北2492.26849.58460.27737.43875.43827.72864.92235.88山西2252.501016.69441.82589.97825.181007.92830.38206.48内蒙古2323.551168.93464.55555.00928.481052.65802.26371.19辽宁3102.13846.91362.10767.13797.64853.92909.42348.23吉林2457.21907.61318.65671.44815.02890.22984.95307.56黑龙江2215.68971.44319.37634.30665.01843.94755.32250.37上海5248.951026.87877.59762.922332.832431.741435.72645.13江苏3462.66886.82647.52600.691203.451467.36997.53362.56浙江4393.401383.63615.45852.272492.011946.151229.25436.37安徽3091.28869.55336.99441.42788.25869.23694.17203.83福建3854.26784.71525.65513.611232.701321.331233.49341.96江西2636.93725.72451.32357.03600.16894.58742.93236.87山东2711.651091.22526.29624.061175.571201.97838.17299.48河南2215.32919.31431.02520.57762.08847.12737.00252.76湖北2868.39877.01401.22517.19763.14997.74752.56220.08湖南2850.94868.23513.63632.52965.091182.18871.70285.003地区食品衣着家庭设备用品及服务医疗保健交通和通信教育文化娱乐服务居住杂项商品和服务广东4503.86719.26633.03707.862394.661813.861254.69405.00广西2857.40477.67360.62401.06785.01850.90826.86232.43海南3097.71375.42405.81369.331154.87791.24743.60188.80重庆3415.921038.98615.74705.72976.021449.49954.56242.26四川2838.22754.93505.83449.871009.35976.33728.43261.85贵州2649.02832.74446.53329.77775.07938.37627.23249.66云南3102.46745.08335.14600.081076.93754.69585.35180.07西藏3107.90734.83211.10221.70694.21359.34612.67250.82陕西2588.91768.47478.58612.30824.461280.14746.59253.84甘肃2408.37854.00403.80562.74703.071034.42716.35291.46青海2366.42724.96420.31542.93753.07793.72653.04275.66宁夏2444.98874.39480.70578.75774.57846.72890.97314.49新疆2386.97953.03364.11472.35765.72819.72698.66269.45四、统计方法介绍(一)本文采用的统计分析方法本文所采用的是统计分析中的聚类分析方法。聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法(HierarchicalClusterProcedures)、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。就数据挖掘功能而言,聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他数据挖掘任务(如分类、关联规则)的预处理步骤。数据挖掘领域主要研究面向大型数据库、数据仓库的高效实用的聚类分析算法。聚类分析可以分为Q型聚类和R型聚4类两种,Q型聚类是指对样本进行分类,R型聚类是指对变量进行分类。通常Q型聚类采用距离统计量,R型聚类采用相似系数统计量。系统聚类分析的基本思想是首先将每个样本当作一类,然后根据样本之间的相似程度并类,并计算新类与其它类之间的距离,再选择相近者并类,每合并一次减少一类,继续这一过程,直到所有样本都并成一类为止。(二)聚类分析基本思想概述聚类分析的基本思想是认为我们所研究的样本或指标(变量)之间存在着不同程度的相似性。于是根据一批样本的多个观测指标,找出一些能够度量样本或指标之间相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样本或指标聚为一类,把另外一些彼此之间相似程度较大的样本又聚为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有样本(或指标)都聚合完毕,形成一个由小到大的分类系统。最后再把整个分类系统化成一张谱系图,用它把所有样本或指标间的亲疏程度表示出来。(三)系统聚类法简介聚类分析在发展的过程中,逐渐产生了不同的分类方法,主要有系统聚类法(HierarchicalClusterProcedures)、迭代聚类法(IterativeClusterProcedures)、快速聚类法(K-MeansClusterProcedures)等。层次聚类法是目前应用较为广泛的一种聚类方法。本文采用的是层次聚类法,所以这里只简单介绍此种聚类法。利用该方法进行聚类分析的主要思想和一般步骤是:第一步,确定基础数据,选定一种相似性度量准则,计算出相似性度量矩阵;第二步,认为各样本自成一类,即N个样本就有N类;第三步,将各类中最相似的两类合并为新类;第四步,按某种求新类相似性的方法,计算新类与其余各类之间的相似性,再将其中最相似的两类合并,并重复这一步,直到最后聚成一大类为止。五、城镇居民消费结构的实证分析(一)各地区城镇居民消费结构的聚类分析借助统计软件SPSS13.0中的分类(Classify)中层次聚类(Hierarchical)功能,对2006年的截面数据进行分析,得到如下结果。51.样本有效性表2显示此次聚类分析的样本总个数为31个,在分析过程中未发现无效样本,故总的有效样本个数为31个,样本有效率100%。表2样本有效性检验样本有效值缺失值总计个数百分比个数百分比个数百分比31100.00.031100.02.聚类结果为使聚类结果更具合理性,本文采用层次聚类(Hierarchical)功能中三种不同求新类相似性的方法:最长距离法、最短距离法和组间连接法分别进行聚类,得到不同的谱系聚类图,根据谱系聚类图整理如下,见表3。表3三种求新类相似性的方法得到的聚类结果类属最长距离法最短距离法组间连接法第一类北京北京北京第二类天津江苏福建重庆天津天津第三类河北山西内蒙古辽宁吉林黑龙江山东河南湖南陕西甘肃宁夏新疆河北山西内蒙古辽宁吉林黑龙江江苏安徽福建江西山东河南湖北湖南广西海南重庆四川贵州云南陕西甘肃青海宁夏新疆河北山西内蒙古辽宁吉林黑龙江安徽江西山东河南湖北湖南广西海南四川贵州云南西藏陕西甘肃青海宁夏新疆第四类安徽江西湖北广西海南四川贵州云南西藏青海上海上海第五类浙江浙江江苏福建重庆6类属最长距离法最短距离法组间连接法第六类上海广东浙江第七类广东西藏广东通过表3,不难看出,运用三种不同的求新类相似性的方法聚类得到的结果中最短距离法、组间连接法的结果大致相同,最长距离法得到的聚类结果中的第三、第四两类与另外两种方法得到的聚类结果差异较大。考虑到聚类分析的目的是要尽量找出样本之间的共性并将他们聚为一类,因此这里主要针对采用最长距离法聚类得到的结果,由此得到2006年截面数据的最终分类结果,见表4。表4最终分类结果类属第一类第二类第三类第四类第五类第六类第七类最长距离法北京天津江苏福建重庆河北山西内蒙古辽宁吉林黑龙江山东河南湖南陕西甘肃宁夏新疆安徽江西湖北广西海南四川贵州云南西藏青海浙江上海广东(二)结果分析1.居民消费结构受地域所处的经济区域影响较大,但有例外居民消费结构受地域所处的经济区域影响较大,但这也不是绝对的。例如分类结果中同属一类的天津、江苏、福建和重庆,辽宁、安徽、江西、湖北、广西等省市,它们之间地理位置相距甚远,但同类地区的居民消费结构却相当相似。虽然从总量上来讲,地区之间经济发展水平的差距悬殊,是影响不同地域居民消费结构的重要因素,而居民消费