统计软件应用数据分析报告课程名称:统计软件应用专业:2011级注会学号:2011409109姓名:牛牧童SPSS聚类分析实验报告一、实验目的:1、理解聚类分析的相关理论与应用2、熟悉运用聚类分析对经济、社会问题进行分析3、熟练SPSS软件相关操作二、实验要求:1、生成新变量总消费支出=各变量之和2、对变量食品支出和居住支出进行配对样本T检验,并说明检验结果3、对各省的总消费支出做出条形图4、利用K-Mean法把31省分成3类5、对聚类分析结果进行解释说明6、完成实验报告三、实验方法与步骤准备工作:把实验所用数据从Word文档复制到Excel,并进一步导入到SPSS数据文件中。分析:由于本实验中要对31个个案进行分类,数量比较大,用系统聚类法当然也可以得出结果,但是相比之下在数据量较大时,K均值聚类法更快速高效,而且准确性更高。四、实验结果与数据处理:1.用系统聚类法对所有个案进行聚类:生成新变量总消费支出=各变量之和如图所示:2.对变量食品支出和居住支出进行配对样本T检验,如图所示:得出结论:3.对各省的总消费支出做出条形图,如图所示:4.对聚类分析结果进行解释说明:K均值分析将这样的城市分为三类:第一类北京、上海、广东第二类除第一类第三类以外的第三类天津、福建、内蒙古、辽宁、山东第一类经济发展水平高,各项支出占总支出比重高,人民生活水平高。第二类城市位于中西部地区,经济落后,人民消费水平低。第三类城市位于中东部地区,经济发展较好。迭代历史记录a迭代聚类中心内的更改12311250.5921698.8651216.1142416.86470.786173.7313138.9552.94924.819446.318.1233.5465849.114319.1791362.4116805.00415.199606.9157161.001.72475.864832.200.0349.48396.440.0021.185101.2887.815E-5.148初始聚类中心聚类123食品支出7776.983052.575790.72衣着支出1794.061205.891281.25居住支出2166.221245.001606.27家庭设备及服务支出1800.19612.59972.24医疗保健支出1005.54774.89617.36交通和通信支出4076.461340.902196.88文化与娱乐服务支出3363.251229.681786.00其它商品和服务支出1217.70331.14499.30总消费支出23200.409792.6614750.02迭代历史记录a迭代聚类中心内的更改12311250.5921698.8651216.1142416.86470.786173.7313138.9552.94924.819446.318.1233.5465849.114319.1791362.4116805.00415.199606.9157161.001.72475.864832.200.0349.48396.440.0021.185101.2887.815E-5.148a.迭代已停止,因为完成了最大次数的迭代。迭代无法收敛。任何中心的最大绝对坐标更改为1.193。当前迭代为10。初始中心间的最小距离为5782.189。聚类成员案例号地区聚类距离1北京1640.0962浙江12214.8823天津32632.5284福建31136.4495广东11566.9896河北2979.5437山西21491.0898吉林21075.3909黑龙江2599.15210河南2598.22211甘肃21100.43512青海21340.60313宁夏2667.82314新疆2850.72515内蒙古31033.68316辽宁31046.73917山东31402.82218西藏21676.67019广西2989.53520海南21131.08521四川21481.30722云南2927.83023安徽2811.21124江西2420.38125湖北2777.32226湖南21073.33727重庆31086.87128贵州2876.79629陕西21161.34430上海13635.95031江苏3616.506最终聚类中心聚类123食品支出6758.744083.345008.89衣着支出1728.751257.761649.65居住支出1771.691087.121405.68家庭设备及服务支出1325.54703.17977.20医疗保健支出1073.99751.25973.12交通和通信支出3588.561412.741950.42文化与娱乐服务支出2806.811155.731680.80其它商品和服务支出816.58394.99553.85总消费支出19870.6610846.1114199.60最终聚类中心间的距离聚类12319870.1636286.10029870.1633615.50936286.1003615.509ANOVA聚类误差FSig.均方df均方df食品支出12552971.1922339637.5842836.960.000衣着支出635822.817266083.731289.621.001居住支出894351.288236596.0972824.438.000家庭设备及服务支出724161.235229902.4112824.217.000医疗保健支出250143.461236490.474286.855.004交通和通信支出7973401.675288439.5362890.157.000文化与娱乐服务支出4712619.943273922.6272863.751.000其它商品和服务支出317485.863215486.5222820.501.000总消费支出1.450E821348215.43728107.553.000F检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差别。观测到的显著性水平并未据此进行更正,因此无法将其解释为是对聚类均值相等这一假设的检验。每个聚类中的案例数聚类14.000220.00037.000有效31.000缺失.000实验结果分析:第一类城市经济发展最好,第二类城市经济最落后。国家应加大对于第二类城市经济发展的扶持力度,努力缩小经济发展差距,实现地区的公平。