模糊聚类分析法在经济区域划分中的应用徐鹏1,杨甲2,蔡成标11西南交通大学牵引动力国家重点实验室,四川成都(610031)2同济大学交通运输工程学院,上海(201804)E-mail:gslzxupeng@163.com摘要:本文针对经济区域划分问题,利用Matlab软件绘制出经济指标所占GDP权重的分布图,得出影响经济发展的主要因素。同时采用模糊数学原理利用贴近度建立模糊相似矩阵,由编网法聚类得到经济区域划分的结果。关键词:模糊聚类分析;经济区域划分;模糊数学;编网法中图分类号:F224.71.引言“十一五”期间我国区域经济发展仍面临区域发展不平衡这一核心问题。目前东中西部人均差距不断扩大;外贸和利用外资不平衡,东部地区处于绝对优势地位;市场经济体制发展和产业结构调整不均衡,东部地区逐渐与国际接轨的同时,中西部地区却在所有制结构和产业结构上的调整缓慢。缓慢的经济发展和区域经济发展不平衡等因素严重制约了我国的经济建设,因而必须坚持从实际出发,深入分析各个地区经济发展的历史过程与现状,贯彻因时、因地制宜的原则,对处于不同发展阶段的地区经济采取不同的管理策略和方法。正确把握我国经济发展规律,找准经济发展的薄弱环节和经济发展的不平衡区域,宏观上给予倾斜性政策调控促使我国经济快速发展。为了对我国各经济区域经济发展水平有较清晰、较具体的认识,本文根据某年我国30个省市自治区(重庆除外)经济发展情况的八项指标的统计数据(来源于中国统计年鉴)采用模糊聚类分析方法按各省市自治区经济发展济发展指标对我国的经济区域进行聚类分析。2.模糊聚类分析方法聚类分析是指对事物按一定要求进行分类的数学方法。聚类分析是数理统计中研究“物以类聚”的一种多元分析方法,即用数学定量地确定样品的亲疏关系,从而客观地分型划类。由于事物本身在很多情况下都带有模糊性,因此把模糊数学的方法引入聚类分析,就能使分类更切合实际。模糊聚类分析应用广泛,如在气象预报、地质、环境、林业、农业科学、经济等多方面已取得可喜的成果。如:王立新和刘华民利用模糊聚类法对我国城市内河水质污染分类作出了研究[1];田丽等利用模糊聚类法对水环境质量进行了评价[2];王云峰和杨冬利用模糊聚类分析法对山东区域经济进行了分类与研究[3]。2.1相关定义与定理定义1设给定的论域U上的一个模糊关系()ijnnRr×=如果它满足:(1)自反性。1iir=(2)对称性。(,1,2)ijjirrijn==(3)传递性RRR⊆。则称是一个模糊等价关系。()ijnnRr×=在这个定义中直观地看,自反性是矩阵的对角线上的元素全是1。对称性是R为对称矩-1-阵,即。而传递性却不易直接看出,需要计算ijjirr=RR(并记作2R),它表示R和它自身的合成,然后看其是否满足:RRR⊆。表1某年30个省市自治区(重庆)除外的经济发展指标省份GDP居民消费水平固定资产投资职工平均工资货物周转量居民消费价格指数商品零售价格指数工业总产值北京1394.892505519.018144373.9117.3112.6843.43天津920.112720345.466501342.8115.2110.6582.51河北2849.521258704.8748392033.3115.2115.81234.85山西1092.481250290.904721717.3116.9115.6697.25内蒙832.881387250.234134781.7117.5116.8419.39辽宁2793.372397387.9949111371.1116.1114.01840.55吉林1129.201872320.454430497.4115.2114.2762.47黑龙江2014.532334435.734145824.8116.1114.31240.37上海2462.575343996.489279207.4118.7113.01642.95江苏5155.2519261434.9559431025.5115.8114.32026.64浙江3524.7922491006.396619754.4116.6113.5916.59安徽2003.581254474.004609908.3114.8112.7824.14福建2160.522320553.975857609.3115.2114.4433.67江西1205.111182282.844211411.7116.9115.9571.84山东5002.3415271229.5551541196.6117.6114.22207.69河南3002.741034670.3543441574.4116.5114.91367.92湖北2391.421527571.684685849.0120.0116.61220.72湖南2195.701408422.6147971011.8119.0115.5843.83广东5381.7226991639.838250656.5114.0111.61396.35广西1606.151314382.595105556.0118.4116.4554.97海南364.171814198.355340232.1113.5111.364.33四川3534.001261822.544645902.3118.5117.01431.81贵州630.07942150.844475301.1121.4117.2324.72云南1206.681261334.005149310.4121.3118.1716.65西藏55.98111017.8773824.2117.3114.95.57陕西1000.031208300.274396500.9119.0117.0600.98甘肃553.351007114.815493507.0119.8116.5468.79青海165.31144547.76575361.6118.0116.3105.80宁夏169.75135561.985079121.8117.1115.3114.40新疆834.571469376.955348339.0119.7116.7428.76定义2设给定的论域U上的一个模糊关系()ijnnRr=×如果它满足:(1)自反性。1iir=-2-(2)对称性。(,1,2)ijjirrijn==则称是一个模糊相似关系。()ijnnRr×=定义3设给定模糊矩阵(),ijRr=对任意[0,1]λ∈,记(ij)Rrλλ=,其中:10ijijijrrrλλλ≥⎧=⎨⎩则称()ijRrλλ=为R的λ截矩阵。定义4记(,)[(1)]2ABABAB=+−i,则(,)AB称之为A和B的贴近度。定理1若模糊关系矩阵R是模糊等价关系,则对于任意[0,1]λ∈,所截得λ截矩阵Rλ也是等价关系。根据这个定理可以知道,模糊等价关系R确定之后,对给定的[0,1]λ∈,便可相应得到一普通等价关系Rλ,这也就是说可以决定一个λ水平的分类。定理2若1201λλ≤≤≤2则Rλ所分出的每一类必是1Rλ的某一类的子类。该定理所述的性质是说明2Rλ的分法比1Rλ的分法细。2.2编网法对于模糊聚类我们一般选取一种标定方法来构成模糊矩阵,往往只满足自反性和对称性,而不一定满足传递性,即这种模糊关系属于模糊相似关系。这就要求我们首先由模糊相似关系改造成模糊等价关系,然后再完成聚类分析。为此有不少人企图寻求直接由模糊相似矩阵直接进行聚类的方法,在1979年吴望名曾提出昀大树的方法,在1980年赵汝怀又提出编网法[4][5],这两种方法都避免了矩阵自乘,因此显得很方便。本文主要采用编网法进行聚类。编网法的主要步骤:(1)通过样本的特征数据,根据实际问题,选择恰当的计算公式计算出;ijr(2)建立相似矩阵的截矩阵Rλ;(3)选取恰当的λ值进行编网,得出符合要求的分类。3.模糊聚类分析法经济区域划分中的应用3.1符号说明(1)对各省市编号北京1,天津2,河北3,山西4,内蒙5,辽宁6,吉林7,黑龙江8,上海9,江苏10,浙江11,安徽12,福建13,江西14,山东15,河南16,湖北17,湖南18,广东19,广西20,海南21,四川22,贵州23,云南24,西藏25,陕西26,甘肃27,青海28,宁夏29,新疆30。(2)对各经济指标进行说明Y:GDP,:居民消费水平,:固定资产投资,:职工平均工资,:货物周转量,:居民消费价格指数,:商品零售价格指数,:工业总产值。:第个省市的第个经济指标的数值。其中1X2X3X4X5X6X7Xmnknmn=(1,2,3,…,30),m(1,2,…,8)。=-3-影响我国经济发展的主要因素利用已知数据建立矩阵,,TyyyyY],,[30321…=1237[,,]TnnnnXxxxx=…n=(1,2,3,…,30),通过Matlab软件编程,求解经济指标矩阵X相对于GDP矩阵Y的权重的分布图如下:图1经济指标矩阵X相对于GDP矩阵Y的权重的分布图图2分布图的拟合程度由图1知前两个指标即居民消费水平,固定资产投资所占权重大,故这是影响我国经济发展的主要因素。居民消费水平是经济活动的起点和归宿,也是推动经济增长的重要因素。一国一地的经济要实现持续性的有效增长,居民消费才是真正的原动力。特别是提高农村居民的生活水平,缩小城乡差距,以保证居民消费水平的提高,居民消费和固定资产投资是经济增长的两大助推器,对经济发展水平用决定性的作用。3.3经济区域划分3.3.1建立模糊集合设表示第n个省市的经济指标的信息量,按照模糊集的定义,各信息量可看成正态模糊集。建立其正态型的隶属函数有:nA2()()nnnkabAkeμ−−=n=(1,2,3,…,30)(3.1)其中:8821111,()109nmnnmnnmmakbka====−∑∑m=(1,2,3,…,30)(3.2)式(3.2)中及为经济指标的均值与均方差。nanb3.3.2利用贴近度建立模糊相似矩阵设,iAjA(1,2,3,…,30)来自于以30个省市信息量为论域中的任意两个正态型模糊集合有:,ij=2iikabiAe⎛⎞−−⎜⎟⎝⎠=2jjkabjAe⎛⎞−−⎜⎟⎜⎟⎝=⎠(3.3)由定义4有:2ijijaabbijAAe⎛⎞−−⎜⎟⎜⎟+⎝=i⎠0ijAA=(3.4)-4-(()/())(,)[1]/2ijijaabbijAAe−−+=+(3.5)利用贴近度由隶属函数建立模糊相似矩阵有:22(()/())((),())[1]/2ijijijaabbijAArNkkeμμ−−+==+(3.6)根据式(3.6)利用Matlab编程得模糊相似矩阵的截矩阵Rλ:由定理2为了得到更细的分类取000.1=λ,取截矩阵Rλ,将对角线填入元素符号,在对角线左下方以*取代,以空格代替其它各元素,将*所在位置称为结点,向对角线引经线(竖线)及纬线(横线)。编网可得:图3编网聚类分析图-5-分类结果由编网聚类分析图,将经过结点处的经纬线捆绑起来,通过打结而能互相联结的点属于同一类,从而得到分类结果:{1,6}{2,17}{4,7,24,25,30}{5,14,21,26,27,28}{9,19}{13,16}∪{23,29}∪{3,8,10,11,12,15,18,20,22},即:{北京,辽宁}∪{天津,湖北}{山西,吉林,云南,西藏,新疆}{内蒙古,江西,海南,陕西,甘肃,青海}∪{上海,广东}∪{福建,河南}∪{贵州,宁夏}∪{河北,黑龙江,江苏,浙江,安徽,山东,湖南,广西,四川}。∪∪∪∪∪∪∪3.3.4分类结果评价显然分类具有意义,第一类,经济发达地区:{上海,广东};第二类,经济较发达地区:{北京,辽宁},{天津,湖北},{河北,黑龙江,江苏,浙江,安徽,山东,湖南,广西,四川},