基于SAS分析的湖南省经济研究

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

基于SAS分析的湖南省经济研究前言本文主要运用SAS编程技术来研究湖南省33个主要的市区的综合经济发展情况,即根据选取的一些指标来判断湖南省33个市区的经济发展情况的排名分类,判断哪些地区是湖南省经济发展的主力。此次的研究分析中主要运用的方法有因子分析和聚类分析等统计分析方法。主要目的是熟练掌握SAS编程的知识,同时对湖南省33个市区的经济发展情况进行分析研究,把理论与实际相结合。关键字:因子分析,聚类分析,SAS编程一、研究对象此次的课程设计主要是为了分析湖南省33个主要的市区的综合经济发展的排名与分类。所谓的综合经济就是指一个地区的经济发展的所有方面,例如生产、消费、人口、居住面积、投资、进出口、旅游等,因此这些用来分析的综合经济指标是数量庞大的。经济发展状况排名就是根据一定的标准对这些地区的发展情况进行排名,由于进行因子分析,所以本文对湖南省33个主要市区的排名标准是每个公共因子的得分。分类就是把经济发展情况类似的地区分为一类,此次用到的分类方法为聚类分析。二、理论基础因子分析是指研究从变量群中提取共性因子的统计技术。它是对主成分分析的推广和发展,也是一种重要的降维方法。因子分析的目的是,试图用几个潜在的、不可观测的随机变量来描述原始变量间的且方差关系。聚类分析的目的是把分类对象按一定规则分成若干类,这些类不是给定的,而是根据数据的特征确定的,对类的数目和类的结构不必作任何假定。在同一类里的这些对象在某种意义上倾向于彼此相似,而在不同类里的对象倾向于不相似。聚类分析也能够用来概括数据而不只是为了寻求“自然的”或“实在的”的分类。因此,此次研究使用聚类分析的目的就是按照选定的指标利用分层聚类的方法对湖南省的124个市区县的经济发展情况进行一个分类,把经济发展相似的地区分为一类,便于研究地区的经济发展类型。总而言之,此次的研究过程是逐渐递进的,每一个环节间都有联系,是从表面到内部的一次分析研究。1三、变量的选择及数据的收集由于用来衡量综合经济的指标是一个庞大的指标系统,在本次论文中不可能将所有的指标都进行分析,因此决定选取一些具有代表性的指标进行分析,此次一共选取了7个指标进行研究,这7个指标分别是:x1:农林牧渔业生产总值x2:固定资产投资总额x3:轻工业x4:重工业x5:综合能源消费量x6:在岗职工工资总额x7:消费品零售总额原始数据,如表一和续表一:表一湖南省各市区县经济指标列表单位:万元地区农林牧渔业生产总值固定资产投资总额轻工业芙蓉区天心区岳麓区开福区雨花区望城区浏阳市荷塘区芦淞区石峰区天元区醴陵市雨湖区岳塘区湘乡市韶山市珠晖区雁峰区石鼓区蒸湘区南岳区耒阳市常宁市汨罗市临湘市2371919484223318807904928347830898224145810242824716044613489040182377851336453587230110555732446539505221737140752383579116554564326707178917959409663631561508181635251472637987331704763880013038001239400147380014347001234300929000722300330200596013612877563211103837011579314205825671481143756776106100897623330818373975886319990431381541246053613659948972532256936645142468968718186953111748083860253857363737271792114520584901706240271106168633511689522津市市永定区武陵源区沅江市洪江市冷水江市涟源市吉首市2331261987161902660267922815111637754462876418332800647400135600772174535296705553667677422300559000257555.95446036567527117317554918955数据来源:《2011湖南省统计年鉴》续表一湖南省各市区县经济指标列表单位:万元地区重工业综合能源消费量在岗职工工资总额消费品零售总额芙蓉区天心区岳麓区开福区雨花区望城区浏阳市荷塘区芦淞区石峰区天元区醴陵市雨湖区岳塘区湘乡市韶山市珠晖区雁峰区石鼓区蒸湘区南岳区耒阳市常宁市汨罗市临湘市津市市永定区武陵源区沅江市洪江市冷水江市15087352662259944376478326215225721.18E+0749641762131523858990534912915416373009604453920389203992016469384434105277626092676081272320761.4801813300021342012531857789609144289427.852261891508157230034.6121.0730.259.4915.6268.2987.1723.145.73221.197.8175.4617.6631.7282.714.7741.6119.5142.12100.88.283.4973.2146.7676.3335.1916.01.60.0547.35150.98781862491415701886551612737153283573502112168305264470283147251872220935271942364023153877209971245101906031846392240621940418274713906821948557361565841217982336010647557779191226435421825055631520740376858340729651841355138999534060816115803131564464519713361344744638549511885102462602414531443521787590791117192638617457291503356396606317900481224702734452871513374974533涟源市吉首市37368976859826.824.82136421142890596892498416数据来源:《2011湖南省统计年鉴》四、SAS操作(一)建立数据集由于所要分析的数据较多,不便使用Cards语句后面直接输入数据,因此选择使用直接导入外部文件的方法导入数据,所导入的数据集命名为Eco并保存在逻辑库Sasuser中,SAS程序如下:datasasuser.Eco;/*建立数据集*/infile'D:\STADY\课件\sas\新建文件夹\123.txt'delimiter='09'xfirstobs=2;/*引用外部文件*/inputx0$x1-x8@;/*规定要输入的变量*/labelx0='地区'x1='农林牧渔业生产总值'x2='固定资产投资总额'x3='轻工业'x4='重工业'x5='综合能源消费量'x6='在岗职工工资总额'x7='消费品零售总额'x8='编号';/*为每一个变量设定对应的名称*/run;1.datasasuser.Eco,语句是规定建立新的数据集Eco,并保存在逻辑库Sasuser中。2.infile'D:\STADY\课件\sas\新建文件夹\123.txt',是指定要导入文件的路径,从中可以知道要导入的文件是txt文本格式的,且文件名为123。3.delimiter='09'x,是选择对数据的分割方法。4.firstobs=2,表示的是原始数据的读入从第二行开始(因为第一行为变量名)。5.inputx0$x1-x8@,表示的是规定输入的变量为x0-x8,且说明变量X0为字符型数据,变量x1-x8为数值型数据,同时规定执行input语句是指针移到下一记录行,要求一条记录必须对应一个数据行。6.Label,表示的是对每一个变量贴上对应的标签,即为每一个变量命名。(二)因子分析1、公共因子的提取现在将对数据集进行因子分析,主要目的是为了分析了解在湖南省主要4的33个市区,在提取的公共因子下哪些地区经济发展情况较好,哪些较差。SAS程序如下:procfactordata=sasuser.Eco;/*对数据集Eco进行因子分析*/varx1-x7;/*进行因子分析的变量为x1-x7*/run;1.procfactordata=sasuser.Eco,表示对数据集进行因子分析。2.varx1-x7,选定进行因子分析的变量为x1-x7。程序主要输出结果为:图一主成分表图一中的Eigenvalue代表的是每个变量所对应的特征根,Difference表示两个相邻的特征根之差,Proportion表示的是每个主成分的贡献率,Cumulative表示主成分的累积贡献率。根据特征根大于1原则提取公共因子,因此决定选取3个公共因子。5图二因子载荷矩阵从图二中的因子载荷矩阵的输出结果可以看出,第二和第三公共因子的结果并不好解释,因此决定使用方差最大化法进行因子旋转。SAS程序如下:procfactordata=sasuser.Econ=3rotate=varimaxscoreout=sasuser.score;varx1-x7;run;1.procfactordata=sasuser.Eco,表示对数据集进行因子分析。2.n=3,规定进行因子分析时提取三个公共因子。3.rotate=varimax,进行因子旋转的方法设定为方差最大化法。4.score,输出因子得分。5.out=sasuser.score,规定因子得分的数据输出结果保存在逻辑库Sasuser中,取名为score。程序主要输出结果为:图三旋转后的因子载荷矩阵从图三显示的旋转后的因子载荷矩阵中可以看出,第一公共因子在变量x2、x6、x7上的载荷较大,且这三个变量能反映经济的三个不同方面,因此6把第一公共因子命名为综合经济发展因子;第二公共因子在变量x1、x2上有较大的载荷,但是为了方便解释,且x1上的载荷远大于x2上的载荷,因此把第二公共因子命名为农业发展因子;第三公共因子在变量x4、x5上有较大的因子载荷,因此把第三公共因子命名为工业发展因子。图四因子得分矩阵根据因子得分矩阵可以写出因子得分函数:76543211345.0340.0069.0059.0083.0313.0131.0XXXXXXXF76543211031.0069.0126.0026.0533.0010.0613.0XXXXXXXF76543211108.0090.0611.0532.0079.0002.0036.0XXXXXXXF2、因子得分排名下面进行因子得分排序,首先按照第一因子得分排序,SAS程序如下:procsortdata=sasuser.scoreout=sasuser.F1;/*对数据集score进行排序*/bydescendingfactor1;/*按照factor1降序排序*/run;1.procsortdata=sasuser.scoreout=sasuser.F1,对数据集score进行排序,排序的输出结果保存在逻辑库Sasuser中,取名为F1。2.bydescendingfactor1,按照变量factor1降序排序。得到结果如表二:7表二按第一公共因子排名结果地区Factor1Factor2Factor3雨花区2.449520.48849-0.76891开福区2.19298-0.45866-0.83085芙蓉区2.08796-0.50534-0.5505天心区1.88982-1.00297-0.2474岳麓区1.45699-0.580941.23258浏阳市0.826113.176740.20181望城区0.698291.185261.45853芦淞区0.2121

1 / 17
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功