高级统计学课程论文题目:基于主成分的因子分析统计方法对全国各省经济发展水平分析姓名:马文涛学院:工学院专业:物流工程(硕)班级:硕142学号:2014812093指导教师:魏瑜职称:2014年12月28日南京农业大学教务处制基于主成分的因子分析统计方法对于全国各省经济发展水平的分析硕物流工程1422014812093马文涛指导老师:魏瑜摘要:本文首先对于统计学中基于主成分的因子分析方法做系统的介绍,由于目前评价各地区经济的指标繁杂,指标各不统一,对全国各地区的经济发展评价造成了一定的影响。本文将先查找文献,总结出常用的衡量全国省市的经济指标体系中,GDP(X1),居民消费水平(X2),固定资产水平(X3),职工工资水平(X4),货物周转量(X5),居民消费价格水平(X6),商品零售价格指数(X7),工业总产值(X8)的八项指标,并利用基于主成分的因子分析方法利用SPSS软件对于衡量全国省市经济指标进行分析,提取主成分,解释公因子,找出衡量省市经济的主要因子,为建立衡量各省市经济的最佳指标和方法提供参考。关键词:主成分;因子分析;经济指标;发展水平;AnalysisfortheeconomicallevelsbasedonfactorfactoranalysismethodLogisticEngineering142MawentaoTutorWeiYuAbstract:Atthebeginingofthisarticle,itintroducessystematicallyaboutFactoranalysismethodwhichbasedonmaincomponent.Asthediversityofevaluationaswellindexondifferentregions,ithasacertaininfluencetoevaluatethedevelopmentacrossthenation.Inthisarticle,itputsonquiteafewreferenceliteraturetosummarysomeconventionalindexasGDP(X1),consumptionlevelofresidents(X2),fixedassetslevel(X3),levelofwage(X4),turnoveroffreighttraffic(X5),CPI(X6),Commodityretailpriceindex(X7),grossindustrialoutputvalue(X8),andtakeadvantageoffactoranalysismethodbasedonmaincomponentandusingSPSSsoftwaretoanalysiseconomicindexofallnationmaincomponent,explaincommonfactor,findingbestmethodandindextoevaluatedifferentprovinceeconomic.1.主成份和因子分析方法介绍1.1主成分方法介绍1.1.1主成分主要解决的问题在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具1.1.2主成分分析方法的原理在统计分析中,主成分分析是一种分析、简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。主成分分析法是一种降维的统计方法,在损失很少信息的前提下把多个指标转化为几个综合指标的多元统计方法。表达式如下:ppppppppppXuXuXuFXuXuXuFXuXuXuF22112222112212211111且满足下面的条件:(1)每个主成分的系数平方和为1;1.....2p232221iiiiuuuu(2)主成分之间相互独立,即无重叠信息。即0),(JIFFCOVjii,j=1,2,3....p(3)主成分的方差依次递减,重要性依次递减即)(.....)()(21pFVarFVarFVar通常把转化生成的综合指标称之为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,使之指向样本点散布最开的p个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。1.1.3主成分的主要作用主成分分析的主要作用体现在五个方面,第一,主成分分析能降低所研究的数据空间的维数。第二,可通过因子负荷的结论,弄清X变量间的某些关系。第三,可用于多为数据的一种图形表现方法。第四,可由主成分分析构造回归模型,即把各个主成分作为新自变量代替原来自变量做回归分析。第五,用主成分分析筛选回归变量些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。1.1.4主成分解决问题的步骤(1)将原始数据标准化;(2)根据标准化变量求出协方差矩阵(标准化后协方差矩阵与相关矩阵完全一样);(3)求出相关矩阵的特征值及其对应的特征向量;(4)确定主成分,结合专业知识给各主成分所蕴藏的信息以恰当的解释,并利用它们来判断样品的特性。1.2因子分析1.2.1因子分析的定义因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,是因为它是不可观测的,即不是具体的变量),以较少的几个因子反映原资料的大部分信息。因子分析法(FactorAnalysis)就是寻找这些公共因子的模型分析方法,它是在主成分的基础上构筑若干意义较为明确的公因子,以它们为框架分解原变量,以此考察原变量间的联系与区别。1.2.2因子分析的主要作用(1)减少分析变量个数;(2)通过对变量间相关关系探测,将原始变量进行分类(3)即将相关性高的变量分为一组,用共性子代替该组变量;(4)既可以进行探索性因子分析,也可以部分验证因子分析;1.2.3因子分析原理因子分析法是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。它的基本思想是将观测变量进行分类,将相关性较高,即联系比较紧密的分在同一类中,而不同类变量之间的相关性则较低,那么每一类变量实际上就代表了一个基本结构,即公共因子。对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。因子分析模型描述如下:111112211122112222221122mmmmppppmmppxaFaFaFaxaFaFaFaxaFaFaFa即X=AF+a模型中,F为因子变量或公共因子,可以理解为在高维空间中互相垂直的m个坐标轴;A为因子载荷矩阵,aij称为因子载荷,是第i个原有变量在第j个因子变量上的负荷。相当于多元回归分析模型中的标准回归系数;ε为特殊因子,表示原有变量不能被公共因子所解释的部分,相当于多元回归分析模型中的残差项。次模型称为因子分析模型,由于该模型是针对变量进行的,各因子又是正交的,所以也称为R型正交因子模型1.2.4因子分析的过程(1)确认待分析的原变量是否适合作因子分析;(2)构造因子变量;(3)利用旋转方法使因子变量更具有可解释性;(4)计算因子变量得分;1.3因子分析和主成分的区别和联系1.3.1因子分析和主成分的联系首先主成分分析可以作为因子分析提取公因子的一种方法;其次两种方法的出发点都是变量的相关系数矩阵,在损失较少信息的前提下,把多个变量(这些变量之间要求存在较强的相关性,以保证能从原始变量中提取主成分)综合成少数几个综合变量来研究总体各方面信息的多元统计方法,且这少数几个综合变量所代表的信息不能重叠,即变量间不相关1.3.1因子分析和主成分的区别(1)主成分分析是通过变量变换把注意力集中在具有较大变差的那些主成分上,而舍弃那些变差小的主成分;因子分析是因子模型把注意力集中在少数不可观测的潜在变量(即公共因子)上,而舍弃特殊因子。(2)主成分分析是将主成分表示为原观测变量的线性组合,而因子分析则是对原观测变量分解成公共因子和特殊因子两部分。(3)主成分的各系数,是唯一确定的、正交的。不可以对系数矩阵进行任何的旋转,且系数大小并不代表原变量与主成分的相关程度;而因子模型的系数矩阵是不唯一的、可以进行旋转的,且该矩阵表明了原变量和公共因子的相关程度(5)主成分分析,可以通过可观测的原变量X直接求得主成分Y,并具有可逆性;因子分析中的载荷矩阵是不可逆的,只能通过可观测的原变量去估计不可观测的公共因子,即公共因子得分的估计值等于因子得分系数矩阵与原观测变量标准化后的矩阵相乘的结果。还有,主成分分析不可以像因子分析那样进行因子旋转处理(6)综合排名。主成分分析一般依据第一主成分的得分排名,若第一主成分不能完全代替原始变量,则需要继续选择第二个主成分、第三个等等,此时综合得分=∑(各主成分得分×各主成分所对应的方差贡献率),主成分得分是将原始变量的标准化值,代入主成分表达式中计算得到;而因子分析的综合得分=∑(各因子得分×各因子所对应的方差贡献率)÷∑各因子的方差贡献率,因子得分是将原始变量的标准化值,代入因子得分函数中计算得到2.案例分析2.1背景介绍自1978年中国实行改革开放以来,全国各地区都有一定程度的经济增长。中国的对外开放已经从沿海向内地发展,形成经济特区——沿海开放城市——沿海经济开放区——内地的对外开放格局。改革开放以来,我国经济迅猛发展取得了举世瞩目的成就。目前,我国人民生活总体上已达到小康水平,但是也出现了收入差距不断拉大和贫富分化现象。各地区发展的差距不断扩大,经济发展以及资源配置出现明显的不均衡,给国家整体经济的增长带来一定的影响。本文主要选取了多个省市自治区的的多项经济指标,并进行主成分分析来研究影响各地区经济发展的主要指标(数据来源中国统计年鉴),对各地区经济发展做出较合理的分析评价。并在评价结果的基础上对我国地区经济全面健康发展,科学规划产业布局,优化产业结构,均衡资源配置等方面提出了相应的政策建议。2.2指标的建设本文选取全国31个省市的数据包涵GDP(X1),居民消费水平(X2),固定资产水平(X3),职工工资水平(X4),货物周转量(X5),居民消费价格指数(X6),商品零售价格指数(X7),工业总产值(X8)等八项指标,选取的原因如下:GDP,国内生产总值(GrossDomesticProduct,简称GDP)是指在一定时期内(一个季度或一年),一个国家或地区的经济中所生产出的全部最终产品和劳务的价值,常被公认为衡量国家或地区的经济状况的最佳指标。它不但可反映一个国家或地区的经济表现,还可以反映一国或地区的的竞争力与财富。居民消费水平,是指居民在物质产品和劳务的消费过程中,对满足人们生存、发展和享受需要方面所达到的程度。通过消费的物质产品和劳务的数量和质量反映出来。居民消费水平可以反应居民的消费能力以及生活与富足程度,从来反应了当地的经济发展状况。固定资产投资,是指投资主体垫付货币或物资,以获得生产经营性或服务性固定资产的过程。固定资产投资包括改造原有固定资产以及构建新增固定资产的投资。由于固定资产投资在整个社会投资中占据主导地位,通常所说的投资主要是