编号:201431120134本科毕业论文题目:方差分析在农业中的应用院系:数学科学系姓名:徐进辉学号:1031120131专业:信息与计算科学年级:2011级指导教师:陈敏职称:助教完成日期:2015年5月I摘要近年来,河南省城镇由于商业,工农业,教育等方面的发展,带动了各城镇居民家庭消费支出.为探讨河南省城镇居民的消费结构,本文应用SPSS统计分析软件,对河南省18个地市级城市居民的消费结构进行了聚类分析,结果表明,河南省的18个城市按照消费结构的不同主要分为三大类:较高层次消费,中等层次消费,较低层次消费.关键词:消费结构;相关分析;聚类分析AbstractInrecentyears,duetothedevelopmentofcommercial,industrialandagricultural,andeducationandsoon,thetownofHenanprovincedrivestheconsumptionexpenditureofurbanhouseholds.InordertostudytheconsumptionstructureofurbanresidentsinHenanprovince,inthispaper,wewilluseclusteranalysison18prefecture-levelcityresidents'consumptionstructureofHenanprovincethroughSPSSstatisticalanalysissoftware,andtheresultsshowthat,accordingtotheconsumptionstructure,the18citiesinHenanprovincecanbedividedintothreedifferentcategories:highlevelconsumption,moderatelevelconsumption,lowlevelconsumption.Keywords:consumptionstructure;correlationanalysis;clusteranalysisII目录摘要.............................................................(I)Abstract.........................................................(I)1引言...........................................................(1)2预备知识.......................................................(3)2.1聚类分析的概念..............................................(3)2.2聚类分析的原理..............................................(3)2.3聚类分析的模型..............................................(4)2.4聚类分析的特征..............................................(6)2.5系统聚类法..................................................(7)3河南省城镇居民消费结构的实证研究................................(8)3.1指标选取....................................................(8)3.2数据来源与说明..............................................(8)3.3消费结构指标的相关分析......................................(8)3.4河南省城镇居民消费结构的聚类分析...........................(11)4结论与建议....................................................(15)参考文献........................................................(17)致谢............................................................(18)11引言近年来,河南省宏观经济形势发生了重大变化,经济发展速度加快,城镇居民的收入稳定增加,并且在国家连续出台住房、教育、医疗等各项改革措施和实施“刺激消费、扩大内需、拉动经济增长”经济政策的影响下,河南省各地市城镇居民的消费支出也强劲增长,消费结构发生了巨大的变化,结构不合理现象得到了一定程度的调整.我省经济持续快速发展,人民生活水平不断提高,消费市场规模不断扩大,消费加速转型.由原来的简单的数量增长演变为数量增长与结构调整并行,消费开始升级,由食品—衣着—居住、家庭设备用品及服务、医疗、交通、文化教育、娱乐和旅游产业链不断演化,消费结构向更高层次转变.河南省作为一个重要的经济建设区,经济健康高速的发展,离不开消费市场的稳定发展和消费结构的升级优化.消费结构的合理和居民消费行为的科学文明将对经济的发展有很大的促进作用.消费结构的的变化趋势对经济增长有着很大的关系,合理的消费结构将会对促进我省经济的增长有很大的帮助作用.因此,对消费结构的探讨有利于了解我国居民消费结构的特征,从而制定合理的经济政策,促进经济增长.通过查阅文献及数据对2012年河南省各城镇居民消费结构有了一定的了解,田隽在《中国居民消费结构变化趋势研究》[1]中采用结构分析法和扩展线性支出系统(ELES)模型等方法,量化分析出我国居民消费结构所呈现的总体变化趋势,即从基本生存型消费向享受、发展型消费转变。将研究视角定位在我国居民消费尤其是城镇居民消费上,着重研究可以量化分析的居民消费结构。魏宝滨在《中国城乡居民消费结构变动对比分析》[2]中采用定性与定量、静态与动态相结合的分析方法,着重研究了近十年来我国城乡消费结构演变及发展趋势,归纳了城乡消费结构自身特点及差异状况。运用ELES模型对城乡居民消费倾向、收入弹性、价格弹性进行了研究,并采用灰色系统对城乡消费水平及结构进行预测。胡丽平、何春花在《河南省城镇居民消费结构变动的实证分析》[3]中运用因子分析模型,对河南省城镇居民家庭人均消费性支出状况进行了实证分析,并提出了拉动河南消费需求的政策建议.虽然关于城镇居民家庭消费支出的研究已取得丰硕的成果,以往的研究也表明,对城镇居民消费结构的研究主要集中在全国及个别省份上,所采用的分析方法及结论也不尽相同,因此,本文拟从以往研究出发,采用多元统计分析中的聚类分析,并借助SPSS统计分析软件[4]建立模型,运用系统聚类法,对我省各个城市居民的消费结构2之间的异同进行分析并做比较研究并加以分类,以期发现河南省18个城市在消费结构上的特点和规律,从而提出相关的建议,采取切实有效的措施增加城市居民的可支配收入,提高河南省城市居民的总体消费水平,促进消费结构向着更加健康、合理的方向发展.32预备知识2.1聚类分析的概念聚类分析[5]指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程.其目标就是在相似的基础上收集数据来分类.聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性.从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法.传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等.从实际应用的角度看,聚类分析是数据挖掘的主要任务之一.而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析.2.2聚类分析的原理相类似性是定义一个类的基础,不同数据之间在同一个特征空间相似度的衡量对于聚类步骤是很重要的,由于特征类型和特征标度的多样性,距离度量必须谨慎,它经常依赖于应用,例如,通常通过定义在特征空间的距离度量来评估不同对象的相异性,很多距离度都应用在一些不同的领域,一个简单的距离度量,如Euclidean距离,经常被用作反映不同数据间的相异性,一些有关相似性的度量,例如PMC和SMC,能够被用来特征化不同数据的概念相似性,在图像聚类上,子图图像的误差更正能够被用来衡量两个图形的相似性.将数据对象分到不同的类中是一个很重要的步骤,数据基于不同的方法被分到不同的类中,划分方法和层次方法是聚类分析的两个主要方法,划分方法一般从初始划分和最优化一个聚类标准开始.它的每一个数据都属于单独的类;它的每个数据可能在任何一个类中,CrispClustering和FuzzyClusterin是划分方法的两个主要技术,划分方法聚类是基于某个标准产生一个嵌套的划分系列,它可以度量不同类之间的相似性或一个类的可分离性用来合并和分裂类.评估聚类结果的质量是另一个重要的阶段,聚类是一个无管理的程序,也没有客观的标准来评价聚类结果,它是通过一个类有效索引来评价,一般来说,几何性质,包括类间的分离和类内部的耦合,一般都用来评价聚类结果的质量,类有效索引在决定类的数目时经常扮演了一个重要角色,类有效索引的最佳值被期望从真实的类数目中获取,一个通常的决定类数目的方法是选择一个特定的类有效索引的最佳值,这个索引能否真实的得出类的数目是判断该索引是否有效的标准,很多已经存在的标准对于相互分离的类数据集合都能得出很好的结果.42.3聚类分析的模型设我们测得了p个变量1,,pxx的n组数据:1,,,1,,.ttpxxtn(2-1)这p个变量的n个观测记为nR中的p个向量1,,pxx,和以前一样并写成矩阵形式11(x)(x,,x)(x,,x)ijnpX,还称ix为p个变量的观测样本.常用(1)1221/211(x)(xx)((x)(xx))ntiitjjtijnntiitjjttxrx(2-2)来描述变量ix,jx间的相关性,并称之为ix,jx的相关系数,其中11nititxxn,11.njtjtxxn此外,还常用(2)1221/211()ntitjtijnntitjttxxrxx(2-3)来描述变量ix,jx间的相关程度,为和前者区别,我们称(2-3)为ix,jx的相似系数.其几何意义就是在nR中两向量ix,jx的夹角余弦,如果对(2-2)式引进向量表示1,,iiniiixxxxx,1,,jjnjjjxxxxx,则式(2-2)也表示两向量的夹角余弦.两者都是从不同角度描述变量ix,jx的相近程度.有时为了简单,也可用两个变量ix,jx的观测向量在对应分量上的同号率(数符相同的比值)来衡量它们的相似程度,即设inx和jx相应分量tix和tjx同号的个数,inx和jx相应分量tix和tjx异号的个数,则同异号差率为3ijnnrnn,(2-4)我们称3ijr为变量ix,jx的非参数相关系数.相应的,设'inx和jx相应分量tix和tjx同号的个数,'inx和jx相应分量tix和tjx异号的个数,则同异号差率为54.ijnnrnn(2-5)我们把4ijr叫做变量ix,jx的非参数相似系数.当变量ix,jx的观测向量各分量均大于零时,还常用以下的相似系数,5,,116,11min,max,,2min,.nnijtitjtitjijijttnnijtitjtitjijttrxxxxr