我国各地外汇旅游收入聚类分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

-1-初始分类最终分类修改分类选凝聚点分类 是否合理?我国各地国际旅游业外汇收入聚类分析任珊,李茜,袁梅辽宁工程技术大学理学院,辽宁阜新(123000)E-mail:renxk2006@126.com摘要:本文根据国内各地近几年的国际旅游收入数据做动态聚类分析。首先应用K-均值法做动态聚类,再通过计算2R统计量确定类的个数,结合matlab编写相应的程序,最后确定效果较好的国内各省国际旅游业发展程度的分类,进而由所得的分类采取相应的措施,使我国的国际旅游业更进一步发展。关键词:旅游业;动态聚类;K-均值法;2R统计量;聚核;归聚1引言旅游业是一项具有良好的经济效益与社会效益的朝阳产业,享有“无烟工业”、“无形贸易”的美誉。由于它具有投资少、收效快、利润大的特点,对经济发展起着特殊的作用,能够增加外汇收入、加速货币回笼。由于其关联度高,其发展可以引起经济的连锁反应,带动商业和服务业的繁荣,广开就业渠道。此外,旅游业还能够加强各地人民之间的友谊和文化交流、改善国际关系,促进各地之间的经济贸易往来,因而具有深远的经济和社会意义。我国的国际旅游业自70年代末起步以来,发展迅速并已初具规模,但就我们所取得的成绩与旅游业发达的国家相比以及与自身丰富的旅游资源相比仍有很大差距。同时还存在着为数不少的问题,要解决此类问题,可以先根据各地区近几年国际旅游收入做聚类分析,从而把旅游业发展好的省市继续保持,发展差的省市找出存在的问题,采取相应的措施,重点发展,进而是我国国际旅游业更进一步发展。2模型理论假设2.1动态聚类法介绍动态聚类法[1]又称为逐步聚类法,其基本思想是,开始先粗略地分一下类,然后按照某种最优的原则修改不合理的分类,直至类分的比较合理为止,这样就形成一个最终的分类结果。动态聚类法的聚类过程可用下面框图描述。是否图2.1-1动态聚类法流程图步,其步骤如下:a.规定样品间的距离,人为地定出三个数:K(分类数),C(类间距离的最小值)和R(类内距离的最大值);取前K个样品点作为凝聚点。b.计算这K个凝聚点两两之间的距离,如果小的距离C,则将相应的两个凝聚点合并,用这两个点的重心作为新的凝聚点,再重复步骤b,直至所有凝聚点之间的距离均C≥为止。c.将剩下的Kn−个样品逐个归类,对每一个样品,计算该样品与所有凝聚点的距离,如果最小距离R,则该样品作为新凝聚点;如最小距离R≤,则将该样品归入与它距离最近的凝聚点所在的类,随即重新计算这一类的重心,以重心作为新的凝聚点。如凝聚点之间的距离都C≥,则考虑下一个样品,否则用步骤b进行合并后再考虑下一个样品,直至所有样品都归了类。d.将样品从头至尾再逐个按步骤c进行归类,不同之处是:某个样品归类后,如分类与原来一致,则重心不必计算;如分类与原来不同,则涉及到的两类重心要重新计算。如果新的分类与上一次相同,则聚类过程结束,否则重复步骤d。2.3类个数的确定1)2R统计量假定已将n个样品分为k类,记为kGGG,,,21L,tn表示tG类的样品个数(nnnk=++L1),)(tX−表示tG的重心。)()(tiX表示tG中第i个样品(tni,,1L=),−X表示所有样品的重心,则tG类中tn个样品的离差平方和为∑=−−−−=tnittittitXXXXW1)()()(')()()()()((1.3-1)其中)()(tiX,)(tX−和−X均为m维向量,tW为一维数值;所有样品的总离差平方和为)()()()('11)()(−==−−−=∑∑XXXXTtiktnitit(1.3-2)T又可以分解为∑∑==−−−−+−=ktnitttitXXXXT11')()()()()()(LkktktttkttBPXXXXnW+=−−+=−−=−−=∑∑)()()('1)(1(1.3-3)令TPTBRkkk−==12(1.3-4)则2kR值越大,也就是TBk/越大,表示k个类的类间偏差平方和的总和kB在总离差平方和T中占的比例越大,这说明k个类越能够区分开。因此2kR统计量可用于评价合并为k个类时的聚类效果。2kR越大,聚类效果越好。2)半偏2R统计量:半偏22122/kkKLkRRTBR−==+(1.3-5)其中)(2LKMKL−=,表示合并类KG和LG为新类MG后类内离差平方和的增值,该统计量用于评价合并KG和LG的效果。根据以上定义,半偏2kR的值是上一步21+kR与该步骤2kR的差值,故查看2kR变化的大小可以得到半偏2kR.某步骤半偏2kR的值越大,说明上一次合并为1+k个类后效果好,该统计量用于评价一次合并效果3旅游收入的动态聚类模型3.1原始数据的预处理表3-1为我国各地国际旅游业1995、1999-2007年这十年的外汇收入。表3-1各地区国际旅游(外汇)收入地区1995199920002001200220032004200520062007北京2182249627682946311519043173361940264580天津133209232280342329413509626779河北4212414215716785190209243309山西21435059753681116164222内蒙古91120126137149138253352404545辽宁1893043834635504546137389341228吉林41455876866696120137179黑龙江61148189250297244302340492643上海939136416131808227520533041355639044673江苏260620724822105011321763226027873469安徽31678610612483141186227344福建48472589494211009151065130514712169江西25506270724780104140196山东15426531538247237056778010141352湖北73105146201284136192276320413湖南6518522127131146313390503642广东2393327241124484509142675378645775338706广西121202307301321164288359423577海南81105109106928082128229302重庆10097138163218113203264309382四川12597122166200150289316395512数据来源:2008《中国统计年鉴》.数据文件为shuju.mat.数据预处理用来消除各变量的量纲[2]、数量级和取值范围等因素对亲疏程度度量的影响。本文采用标准化变换对数据进行预处理。数据预处理的matlab程序如下:clearloadshuju%调入数据[n,p]=size(shuju);junzhi=mean(shuju);%求各变量的均值bzc=std(shuju);%求各变量的标准差junzhi=ones(n,p)*diag(junzhi);bzc=ones(n,p)*diag(bzc);x=(shuju-junzhi)./bzc;%原始数据标准化3.2K-均值法聚类人为的规定初始分类为5类,利用K-均值法确定初始分类,matlab程序如下:[fenlei,C]=kmeans(x,5);%K-均值聚类3.3类个数的确定3.3.1tP统计量的计算TP为每一类中样品离差平方和的累加和,matlab程序如下:fori=1:5W=0;P=0;forj=1:31iffenlei(j)==iW=W+(x(j,:)-C(i,:))*(x(j,:)-C(i,:))';%第i类所有样品的离差平方和endendP=P+W;endPP=0.86523.3.2所有样品总离差平方和的计算G=[0000000000];forj=1:10fori=1:31G(j)=G(j)+x(i,j);endG(j)=G(j)/31;=1:10G(i);%所有样品的重心endfori=1:5T=0;T1=0;forj=1:31iffenlei(j)==iT1=T1+(x(j,:)-G)*(x(j,:)-G)';endendT=T+T1;endT%所有样品的总离差平方和T=4.50743.3.32R统计量的计算R=1-P./TR=0.80803.3.4确定类个数由上述方法可以分别求得分为2类到10类的2R统计量如下:R=[0.65850.68310.69310.80800.93400.98930.99150.99530.9959];K=2:10;plot(K,R)23456789100.650.70.750.80.850.90.951图3.3.4-1R2统计量曲线图由上图可以看出,当K=5时,半偏2kR=0.1260最大,所以分为6类效果最好。3.3.5分类结果再利用K-均值法将所有样品分为6类,程序如下:[fenlei,C,sumd]=kmeans(x,6)%K-均值聚类分6类fenlei=6422432461121232445424423242222C=0.10090.27200.28400.32250.39980.58030.59170.66680.71760.8425-0.4145-0.4520-0.4488-0.4638-0.4821-0.4792-0.5040-0.5129-0.5203-0.5423-0.1760-0.1116-0.1331-0.1172-0.1096-0.0877-0.1224-0.1028-0.0664-0.0290-0.2964-0.3138-0.3046-0.2997-0.3015-0.3380-0.3290-0.3316-0.3311-0.33783.73743.97114.17164.18464.19454.33923.98584.01874.07473.99942.27232.12361.97541.96311.95781.72752.05971.97081.85761.8254sumd=1.39670.28230.13150.38770.0000结果分析由上述分类结果可以看出:第一类{广东},旅游业外汇收入最高;第二类{北京,上海},外汇收入稍差于广东;第三类{江苏,浙江,福建},外汇收入较高,由以上三类数据可知,这些省份旅游业发展很好,各有各的优势,所以可以各地不同特点,充分利用其优势,使其进一步发展。第四类{辽宁,山东,云南},外汇收入居中,有待提高;第五类{天津,内蒙古,黑龙江,湖北,湖南,广西,重庆,四川,陕西};第六类{河北,山西,吉林,安徽,江西,河南,海南,贵州,西藏,甘肃,青海,宁夏,新疆},第五类与第六类外汇收入较低,需找出其问题,如果该地区不适合旅游业可以开发其适合的产业。5结论聚类分析就是根据已知的观察数据,计算所观察的各个样品或变量之间亲疏关系的统计量。然后,依据某种准则,使同一类内的差别较小,而类与类之间的差别较大,最终将所观察的样品或变量分为若干类。本文正是利用这个原理,通过对我国

1 / 7
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功