统计专业实验6

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

重庆工商大学数学与统计学院《统计专业实验》课程实验报告实验课程:_统计专业实验六__指导教师:____叶勇专业班级:_2011级统计三班__学生姓名:__杨茂茜____学生学号:_2011101306___2实验报告实验项目实验六聚类分析实验日期2014-4-2实验地点81010实验目的了解聚类分析的原理,并掌握聚类分析的方法和过程。实验内容1.根据信息基础设施的发展状况,已知20个国家和地区信息基础设施基本数据,对世界20个国家和地区进行聚类分析,并对结果进行判断。数据见实验指导书。2.根据2008年全国各省市居民消费结构,进行聚类分析。3.对重庆市各区县的经济发展类型进行聚类分析。实验思考题解答:1.变量的测度类型有哪些?答:变量的测度类型有间隔尺度、顺序尺度、名义尺度。2.系统聚类法的思想是什么?答:首先将一定数量的样品或指标各自看成一类,然后根据样品或指标的亲疏程度,将亲疏程度最高的即距离最近或最相似的样品或指标进行合并。然后考虑合并后的类与其他类之间的亲疏程度再进行合并。重复这一过程直至将所有的样品或指标合为一类,得到这一聚类结果后,我们再根据具体的问题和聚类结果来决定应当分为几类。3.最短距离法是不是一种优良的系统聚类方法,为什么?它适合于什么形态类的聚类?答:不是,因为最短距离法有链接聚合的趋势,合并之后,新的类与其他类的距离会缩短,形成聚类延伸的情况。它适合于样品散点图呈条形,甚至是S形的类。4.组间联结法和组内联结法都是计算所有样本对的平均距离,请说明其区别?答:组间平均链锁法是定义两个小类之间的距离为所有样本对间的平均距离。组内平均链锁法是对所有样本对之间的距离求平均值,包括小类之间的样本对、小类内的样本对。组间联结法利用了所有样本对距离的信息,克服了最短距离和最长距离中的距离易受极端值影响的弱点。而组类联结法与组间联结法相比,它在聚类的每一步都考虑了类内部相似性的变化。3实验运行程序、基本步骤及运行结果:一、根据信息基础设施的发展状况,已知20个国家和地区信息基础设施基本数据,对世界20个国家和地区进行聚类分析,并对结果进行判断1、将分析数据导入SPSS,进行聚类分析,具体步骤为:Analyze-Classify-Hierarchicalcluster,将6项信息基础设施指标选入变量框中,将国家作为分类标准,单击plots选取Dendrogram(树形图)2、输出结果如下:平均联结(组之间)聚类表阶群集组合系数首次出现阶群集下一阶群集1群集2群集1群集2112147972.4850022121717744.376106331917957.646001345728549.08700105101359431.10200961112111361.75302971516117089.6160014846307831.028001691011482865.981561210520751994.250401511891247359.72600171210181905933.370901413232014119.41003151410153118684.1171271715258031137.99413101616242.172E715818178102.364E711141818281.339E816171919123.924E80180116:马15:匈18:印17:泰14:波12:墨11:智13:俄10:巴9:韩8:中6:丹4:瑞20:英7:新5:瑞19:法3:德2:日1:美2XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX3XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX44XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX5XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX6XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX7XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX8XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX9XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX10XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX11XXXXXXXXXXXXXXXXXXXXXXXXXXXXXX12XXXXXXXXXXXXXXXXXXXXXXXXXXXXX13XXXXXXXXXXXXXXXXXXXXXXXXXXXX14XXXXXXXXXXXXXXXXXXXXXXXXXXX15XXXXXXXXXXXXXXXXXXXXXXXXXX16XXXXXXXXXXXXXXXXXXXXXXXXX17XXXXXXXXXXXXXXXXXXXXXXXX18XXXXXXXXXXXXXXXXXXXXXXX19XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX树状图:53、分析:由树状图可以看出,这20个国家和地区可以分为三类,第一类包括墨西哥、波兰、泰国、智利、巴西、俄罗斯、印度、匈牙利、马来西亚、中国台湾、韩国,这些国家和地区都是当时的转型国家和亚洲、拉美的发展中国家,属于信息基础设施比较落后的国家。第二类包括瑞典、丹麦、瑞士、新加坡、英国、德国、法国、日本,它们有的是欧洲发达国家,有的是新兴工业化国家,所以信息基础设施相对发达一些。第三类包括美国,美国首先提出了建立国家信息基础设施,后来又提出建立全球信息基础设施,其信息基础设施是最发达、最先进的。二、根据2008年全国各省市居民消费结构,进行聚类分析1、整理出2008年全国各地区居民消费数据表,包括了食品,衣着,居住,家庭设备用品及服务,医疗保健,交通和通讯,教育文化娱乐服务,杂项商品和服务着八个指标。2、将分析数据表导入SPSS,进行聚类分析,具体步骤为:Analyze-Classify-Hierarchicalcluster,将八项消费数据指标选入变量框中,将地区作为分类标准,单击plots选取Dendrogram(树形图)3、输出结果如下:平均联结(组之间)聚类表阶群集组合系数首次出现阶群集下一阶群集1群集2群集1群集21142431204.23000152282931483.8450083121744225.3980044121849651.4793014531651252.174007673093532.8670012738104418.81750982831139149.5432015934142780.0017012102325165612.4510018112021176933.84700181237180969.275961713515220378.3920023141227223361.8064020151428238385.287181716622286390.576001917314372133.015121523182023383124.76611102019610537113.73316024201220545598.20214182421213599707.8930028622111626975.09100252335851726.35017132724612853311.544192026251191170226.63222028266261199267.5152402727361270345.78823262928121983128.55325212929136307787.93228273030191.941E72900树状图:4、分析:由树状图可以看出,这31个省可以分为三类,江西、贵州、甘肃、青海、新疆、吉林、宁夏、河北、河南、黑龙江、山西、内蒙古、山东、辽宁、重庆、江苏、安徽、湖北、湖南、陕西、四川、云南、广西、海南、西藏为一类,这些地区相对经济较为落后,居民的消费水平也相对较低。天津、福建、北京、浙7江、广东为一类,这些地区为沿海地区与经济发达地区,居民消费结构相对较高。上海单独归为一类,上海是我国的金融中心,经济发达,居民消费结构情况最好。三、对重庆市各区县的经济发展类型进行聚类分析1、将实验一中选择的个区县的经济发展指标数据导入SPSS进行聚类分析,具体步骤为::Analyze-Classify-Hierarchicalcluster,将八项经济指标选入变量框中,将地区作为分类标准,单击plots选取Dendrogram(树形图)。2、输出结果如下:平均联结(组之间)聚类表阶群集组合系数首次出现阶群集下一阶群集1群集2群集1群集212172.875E8008213141.980E9007310124.875E9005411214.984E900651106.150E9037611191.585E10401271132.369E10521282152.669E101015918202.902E10001110794.073E1000131116189.062E100915121119.657E10761613571.793E110101814382.101E110018152163.360E118111716164.535E111201717121.445E1216152018351.961E1214131919343.403E121802020135.952E12171908树状图:3、分析:从树状图可以看出,这21个区县可以分为五类,大渡口区、大足区、南川区、潼南区、荣昌区、綦江区为一类,这类地区发展较欠缺,其经济实力相对较低。长寿区、璧山县、铜梁县、合川区、永川区、涪陵区、江津区、渝中区、南岸区为一类,这类地区大部分属于五大功能区中的城市发展新区,正处于发展中,经济实力也不高。北碚区、巴南区、九龙坡区为一类,这类地区都是主城区,其经济发展相对较好。江北区、渝北区为一类,这类地区属于两江新区,其经济发展速度相对较快,经济综合实力相对较高。沙坪坝区单独为一类,沙坪坝区提出了“三大产业”战略思想,其第三产业发展很好,经济综合实力最高。

1 / 8
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功