各地区各行业工资水平的分析(2009年数据)小组成员:张艺伟、赵月、陈媛、邹莉、朱海龙、曾磊、胡瑛、候银萍1.研究背景及意义1.1研究背景工资水平是指一定区域和一定时间内劳动者平均收入的高低程度。生产决定分配,只有经济发展才能提供更多的可分配的社会产品,因此一个地区的工资水平在一定程度上反映了其经济发展的水平。1.2研究意义1.通过多元统计分析方法,探究一个地区的工资水平与其经济发展水平之间的内在联系。2.将平均工资水平划分为3类,分析哪些地区、哪些行业的工资水平较高,可以为大学生就业提供宏观上的方向指引。2.数据来源与描述2.1数据来源——《中国劳动统计年鉴─2010》(URL:=N2011010069&floor=1###)主编单位:国家统计局人口和就业统计司,人力资源和社会保障部规划财务司出版社:中国统计出版社简介:《中国劳动统计年鉴─2010》是一部全面反映中华人民共和国劳动经济情况的资料性年刊。本刊收集了2009年全国和各省、自治区、直辖市、香港特别行政区、澳门特别行政区的有关劳动统计数据。本书资料的取得形式主要有国家和部门的报表统计、行政记录和抽样调查。2.2数据描述本数据集记录了全国31个省市(港、澳、台除外)的工资状况,各省市分别记录了其23个主要行业的平均工资水平,这23个主要行业包括:企业、事业、机关、金融业、制造业、建筑业、房地产业、农林牧渔业等等,具体数据格式参见图-0。图-03.分析方法及原理3.1通过描述统计分析方法,判断哪些行业平均工资水平较高描述统计分析方法主要是从基本统计量(诸如均值、方差、标准差、极大/小值、偏度、峰度等)的计算和描述开始的,并辅助于SPSS提供的图形功能,能够把握数据的基本特征和整体的分布特征。在本案例中,通过比较不同行业(诸如企业、事业、机关、建筑业、制造业„„)工资的均值、极大/小值,可以从总体上判断哪些行业的平均工资水平较高,哪些行业的较低。3.2通过聚类分析方法,判断哪些地区平均工资水平较高聚类分析是依据研究对象的个体特征,对其进行分类的方法,分类在经济、管理、社会学、医学等领域,都有广泛的应用。聚类分析能够将一批样本(或变量)数据根据其诸多特征,按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类,产生多个分类结果。类内部个体特征之间具有相似性,不同类间个体特征的差异性较大。在本案例中,我们将采用两种方法进行聚类分析:一种是系统聚类法,另一种是K-均值法(快速聚类法)。3.2.1系统聚类法系统聚类法的基本原理:首先将一定数量的样本或指标各自看成一类,然后根据样本(或指标)的亲疏程度,将亲疏程度最高的两类进行合并,然后考虑合并后的类与其他类之间的亲疏程度,再进行合并。重复这一过程,直到将所有的样本(或指标)合并为一类。系统聚类分为Q型聚类和R型聚类两种:Q型聚类是对样本进行聚类,它使具有相似特征的样本聚集在一起,使差异性大的样本分离开来;R型聚类是对变量进行聚类,它使差异性大的变量分离开来,相似的变量聚集在一起,这样就可以在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数、降低变量维度的目的。在本例中进行的是Q型聚类。类与类之间距离的计算方法主要有以下几种:(1)最短距离法(NearestNeighbor),是指两类之间每个个体距离的最小值;(2)最长距离法(FarthestNeighbor),是指两类之间每个个体距离的最大值;(3)组间联接法(Between-groupsLinkage),是指两类之间个体之间距离的平均值;(4)组内联接(Within-groupsLinkage),是指把两类所有个体之间的距离都考虑在内;(5)重心距离法(Centroidclustering),是指两个类中心点之间的距离;(6)离差平方和法(Ward法),同类样品的离差平方和应当较小,类与类之间的离差平方和应当较大。3.2.2K-均值法(快速聚类法)K-均值法(又称快速聚类法),是由MacQueen于1967年提出的,它将数据看成K维空间上的点,以距离作为测度个体“亲疏程度”的指标,并通过牺牲多个解为代价换得高的执行效率。但是,K-均值法只能产生指定类数的聚类结果,而类数的确定离不开实践经验的积累。快速聚类分析的基本思想是:首先按照一定方法选取一批凝聚点(聚心),再让样本向最近的凝聚点凝聚,形成初始分类,然后再按最近距离原则修改不合理的分类,直到合理为止。因此,在快速聚类中,应首先要求用户自行给出需要聚成多少类,最终也只能输出关于它的唯一解。快速聚类是一个反复迭代的分类过程,在聚类过程中,样本所属的类会不断调整,直到最终达到稳定为止。4.实验操作与结果分析4.1描述统计分析方法在数据编辑窗口的主菜单中选择“分析(A)”→“描述统计”→“描述性分析(D)”(如图-1),图-1打开如下对话框,将左侧框中的所有变量选入右侧框中,如图-2所示,单击“选项(O)”按钮,图-2在“选项”对话框中选择所需要分析的统计量,包括均值、标准差、极大值、极小值,如图-3所示。图-3点击“确定”按钮之后,分析结果如下表-1所示:表-1描述统计量N极小值极大值均值标准差企业31220006204630869.108680.069非农企业31247886209831787.848385.740事业31250216837135282.7711732.956机关31266687473439085.1013350.591农_林_牧_渔业3188414592519413.847964.071采矿业31228466613838030.7411461.961制造业31212424820726453.745509.114电力_燃气及水的生产和供应业31296058626244113.1014812.450建筑业31165836913125769.2310063.993交通运输_仓储和邮政业31257975695535202.777353.178信息传输_计算机服务和软件业312234710541347303.8718924.379批发和零售业31162636026026534.199705.925住宿和餐饮业31135773804019263.715071.244金融业313146618081662972.6532341.917房地产业31159935705228447.458900.469租赁和商务服务业31176715758526310.619099.037科学研究_技术服务和地质勘查业31264658135843211.3514388.981水利_环境和公共设施管理业31159774925124446.457464.077居民服务和其他服务业31162575369625369.587297.780教育31265786696036765.4210879.537卫生_社会保障和社会福利业31225567354436058.8712136.386文化体育和娱乐业31226497103435008.9012451.214公共管理和社会组织31255776942538001.9412356.391有效的N(列表状态)31输出结果分析:分析描述统计量的输出结果可知,平均工资水平较高的三个行业分别是金融业(62972.65元),信息传输_计算机服务和软件业(47303.87元),电力_燃气及水的生产和供应业(44113.10元);平均工资水平较低的三个行业分别是住宿和餐饮业(19263.71元),农_林_牧_渔业(19413.84元),水利_环境和公共设施管理业(24446.45元)。从极大值和极小值方面分析,在所有行业中,极大值最大的行业是金融业(180816元),极小值最小的行业是农_林_牧_渔业(8841元)。4.2聚类分析——系统聚类法在数据编辑窗口的主菜单中选择“分析(A)”→“分类(F)”→“系统聚类(H)”(如图-4所示),图-4弹出“系统聚类分析”对话框,将“地区”变量选入“标注个案(C)”中,将其他变量选入“变量框”中,如图-5所示。在“分群”单选框中选中“个案”,表示进行的是Q型聚类。在“输出”复选框中选中“统计量”和“图”,表示要输出的结果包含以上两项。图-5单击“统计量(S)”按钮,在“系统聚类分析:统计量”对话框中选择“合并进程表”、“相似性矩阵”,如图-6所示,表示输出结果将包括这两项内容。图-6单击“绘制(T)”按钮,在“系统聚类分析:图”对话框中选择“树状图”、“冰柱”,如图-7所示,表示输出的结果将包括谱系聚类图(树状)以及冰柱图(垂直)。图-7单击“方法(M)”按钮,弹出“系统聚类分析:方法”对话框,如下图-8所示。图-8“聚类方法(M)”选项条中可选项包括如图-9所示的几种方法,本例中选择“组间联接”:图-9“度量标准-区间(N)”选项条中可选项包括如图-10所示的几种度量方法,本例中选择“平方Euclidean距离”:图-10“转换值-标准化(S)”选项条中可选项包括如图-11所示的几种将原始数据标准化的方法,本例中选择“全局从0到1”:图-11输出结果分析:表-2显示的是用平方Euclidean距离计算的近似矩阵表,其实质是一个不相似矩阵,其中的数值表示各个样本之间的相似系数,数值越大,表示两样本距离越大。表-2近似矩阵表表-3显示的是聚类表,该表反映的是每一阶段聚类的结果,系数表示的是“聚合系数”,第2列和第3列表示的是聚合的类。聚类表的具体说明可参照教材P91,此处不再赘述。表-3聚类表阶群集组合系数首次出现阶群集下一阶群集1群集2群集1群集212425.07600521820.0780053817.08100641216.118001251824.1382196823.15230137515.15300108428.162001291418.173051110527.191701511714.198091312412.21384181378.2231161814622.226001615529.2721001916613.28814019172131.32200211847.3411213211956.352151623201019.379002521421.3811817222234.450021232335.53222192424330.736230292510261.027200262610111.2292502827191.4840030282101.7660262929233.403282430301211.28527290图-12是冰柱图,是反映样本聚类情况的图,如果按照设定的类数,在那类数的行上从左到右就可以找到各类所包含的样本。冰柱图的具体说明同样可参照教材P91,此处不再赘述。图-12图-13是用“组间联接”聚类法生成的树状聚类图。如果将所有样本分为3类的话,如图所示,第1类包括北京、上海,第2类包括天津、广东、浙江、江苏、西藏,剩下的其他样本属于第3类。图-13树状聚类图(组间联接)不同聚类方法的比较:图-14至图-19分别表示的是用其它6种聚类方法(组内联接法、最近邻元素法、最远邻元素法、质心聚类法、中位数聚类法、Ward法)生成的树状聚类图。图-14树状聚类图(组内联接)图-15树状聚类图(最近邻元素)图-16树状聚类图(最远邻元素)图-17树状聚类图(质心聚类法)图-18树状聚类图(中位数聚类法)图-19树状聚类图(Ward法)纵观7种不同的聚类方法,比较其聚类结果(分为3类),可总结出如下表-4。表-4不同聚类方法的聚类结果比较聚类结果聚类方法第1类第2类第3类组间联接法北京、上海江苏、广东、西藏、浙江、天津其他组内联接法上海北京其他最近邻元素法上海北京其他最远邻元素法北京、上海江苏、广东、西藏、浙江、天津其他质心聚类法北京、上海江苏、广东、西藏、浙江、天津其他中位数聚类法北京、上海江苏、广东、西藏、浙江、天津其他Ward法北京、上