多元统计分析课程论文1四川理工学院《多元统计分析课程设计》报告题目:中国国有控股工业行业的经济效益评价学生:雷鹏程何君李西京曾学成白俊明专业:统计学指导教师:柏宏斌四川理工学院理学院二零一四年十二月多元统计分析课程论文2中国国有控股工业行业的经济效益评价摘要本文主要研究了中国国有控股工业行业的经济效益,对反映行业经济效益的总资产贡献率、资产负债率、流动资产周转次数、工业成本费用利润率和产品销售率等五个经济指标进行主成分分析,提取反映行业盈利能力和市场能力的两个综合指标。然后通过因子分析法分析反映经济效益的各指标的内部结构,表明行业经济效益主要由盈利能力和市场能力两个公因子决定。根据各行业在盈利能力上的得分和市场能力上的得分将工业行业分为五类,并对各行业经济效益进行综合评价。然后用聚类分析对综合评价结果进行验证,表明综合评价较为客观合理。最后,本文给出相应的政策建议。关键字:主成分分析、因子分析、聚类分析。多元统计分析课程论文3一、引言改革开放以来,工业始终是我国经济发展的主要支柱。作为社会主义国家,我国国有及国有控股工业行业掌控着国家工业发展命脉,对国民经济、社会协调发展具有巨大推动作用。因此,考核工业行业的经济效益,对挖掘重点行业和弱势行业,提高整个国有工业企业的经济效益等具有重大的现实意义。企业或行业的经济效益由众多因素来刻画,目前反映行业经济效益主要有总资产贡献率、资产负债率、流动资产周转次数、工业成本费用利润率和产品销售率等五个经济指标1。这些众多指标虽然能从多方面对行业的经济效益进行全面考察,但也在一定程度增加了分析问题的复杂性。在损失少量信息的前提下,设计一个或少数几个综合指标,并用较少的综合指标对工业经济效益进行分析评价,能够简化问题。此外,挖掘出反映经济效益的众多指标的内在基本结构,有助于指出各行业经济效益的主要决定因素及瓶颈,也有助于对各行业经济效益进行综合评价。二、文献综述大量国内文献从灰色系统理论、多元统计分析方法、层次分析法、模糊综合评判法、数据包络分析法等理论与方法,考察了中国各行业、企业或地区经济效益的研究与综合评价。华中生、梁梁等用模糊聚类方法与数据包络分析分类法考察了合肥工业行业的经济状况,将各工业行业按经济效益的状况分为高、较高、一般、较差和差等五类[1](华中生、梁梁,1995)。王树岭等人利用TOPSIS模型,对吉林省轻工业17个主要行业的经济效益进行了综合评价与排序,确定出相应的优势行业(王树岭等,1999)。本文以2008年国有及国有控股的主要工业行业为研究对象,通过主成分分析和因子分析法,再次对各工业行业的经济效益进行分析与评价,并结合聚类分析法来验证综合评价的结果。三、数据来源反映经济效益的指标较多,不同文献中选取的指标不尽相同。本文采用国家统计局最新公布的五个指标:总资产贡献率、资产负债率、流动资产周转次数、工业成本费用利润率和产品销售率,分别记为1X至5X。总资产贡献率(1X)反映企业全部资产的获利能力。资产负债率(2X)既反映企业经营风险的大小,也反映企业利用债权人提供的资金从事经营活动的能力。流动资产周转次数(3X)反映投入工业企业流动资金的周转速度。成本费用利润率(4X)反映企业投入的生产成本及费用的经济效益。产品销售率(5X)反映工业产品已实现销售的1《国家统计年鉴2009年》用这五大指标来反映工业行业的经济效益。多元统计分析课程论文4程度。选取39个主要工业行业的数据整理如附录表1所示。四、模型基本理论建立4.1主成分分析的基本理论设对某一事物的研究涉及p个指标,分别用1X,2X,…,PX表示,这p个指标构成的p维随机向量为),,(21PXXXX。设随机向量X的均值为,协方差矩阵为。对X进行线性变换,可以形成新的综合变量,用Y表示,也就是说,新的综合向量可以由原来的变量线性表示,即满足下式:PppppPPpPpXuXuXuYXuXuXuYXuXuXuY22112222121212211111由于可以任意地对原始变量进行上述线性变换,由不同的线性变换得到综合变量Y的统计特征也不尽相同。因此为了取得较好的效果,我们总希望XuYii的方差尽可能大且各iY之间相互独立,由于iiiiuuXuY)var()var(,面对任意常数c,有iiiuucXcu2)var(因此对iu不加限制时,可以使)var(iY任意增大,问题将变得没有意义。我们将线性变换约束在下面的原则之下:(1)1iiuu(pi,,2,1)。(2)iY与jY相互无关。(ji;pji,,2,1,)(3)1Y是1X,2X,…,PX的所有线性组合中方差最大者;2Y是与1Y不相关的1X,2X,…,PX的所有线性组合中方差最大者;…,pY是与1Y,2Y,…,1pY不相关的1X,2X,…,PX的所有线性组合中方差最大者。基于以上这三条原则决定综合变量1Y,2Y,…,pY分别称为原始变量的第一,第二……第p个主成分。其中,各综合变量在总方差所占比重依次递减。在实际研究工作中,通常指挑选前几个方差较大的主成分,从而达到简化系统结构,抓住问题实质的目的。4.2因子分析的基本理论设有n个样品,每个样品观测p个指标,这些p个指标之间有较强的相关性。为了方便研究,并消除由观测量纲的差异及数量级不同所造成的影响,将样本的多元统计分析课程论文5观测数据进行标准化处理,使标准化的变量均值为0,方差为1。为方便,把原始变量及标准后的变量向量均用X表示,用1F,2F,…,mF(mp)表示标准化的的公因子。如果:(1)),,(21PXXXX是可观测随机变量,且均值向量0)(XE,协方差矩阵)(Xcov=,且协方差矩阵与相关阵R相等;(2)),,,(21MFFFF(mp)是不可观测变量,其均值向量0)(FE,协方差矩阵IF)cov(,即向量F的各分量是相互独立的;(3)),,,(21P与F相互独立,且0)(E,的协方差矩阵是对角方阵:)cov(=2222211pp即的各分量之间也是相互独立的,则模型:pmpmpppmmmmFaFaFaXFaFaFaXFaFaFaX2211222221212112121111称为因子模型,模型的矩阵形式为:AFX其中A称为因子载荷矩阵,而在因子模型中,公共因子的个数少于原始变量的个数,且公共因子是不可观测的隐变量,载荷矩阵A不可逆,因而不能直接求得公共因子用原始变量表示的精确线性组合。解决该问题的一种方法是用建立回归思想求出线性组合系数的估计值,即建立如下以公共因子为因变量、原始变量为自变量的回归方程:PjpjjjXXXF2211j=1,2,…,m此处因为原始变量与公共因子变量均为标准化量,因此回归方程中没有常数项。在最小二乘意义下,可以得到F估计值:XRAF1ˆ式中,A为因子载荷矩阵;R原始变量的相关阵;X为原始变量向量。这样,在得到一组样本值之后,就可以带入上面的关系式求出公共因子的估计得分,从多元统计分析课程论文6而用少数的公共因子去描述原始变量的数据结构,用公共因子得分去描述原始变量的取值,在估计出公共因子得分后,可以利用因子得分去进行进一步分析,如样本点的聚类分析,当因子数m较少时,还可以方便地把各样本点在图上表示出来,直观地描述样本分布情况,从而便于把研究工作引向深入。五、模型的求解与检验5.1工业行业经济效益的综合指标确定由主成分模型的基本原理可得,利用SPSS(19.0)软件对中国国有工业行业的经济效益指标进行主成分分析得到下表1、2:TotalVarianceExplainedComponentInitialEigenvaluesExtractionSumsofSquaredLoadingsRotationSumsofSquaredLoadingsTotal%ofVarianceCumulative%Total%ofVarianceCumulative%Total%ofVarianceCumulative%12.68353.66953.6692.68353.66953.6692.44348.86848.86821.18423.68577.3541.18423.68577.3541.03920.77369.6413.63012.59389.948.63012.59389.9481.01520.30789.9484.3767.52797.4755.1262.525100.000ExtractionMethod:PrincipalComponentAnalysis.表1解释总方差表RotatedComponentMatrixaComponent123总资产贡献率X1(%).946.037-.071资产负债率X2(%)-.847.085.159流动资产周转次数X3(次/年).050.976-.172成本费用利润率X4(%).892.211-.154产品销售率X5(%)-.180-.183.965表2旋转过后的主成分矩阵由上表可得,我们选取的5个经济效益指标被提取出了3个主成分,提取的3个主成分集中了5个原始量信息的89.948%。能够很好的反映5个经济效益指标。多元统计分析课程论文7故三个公因子表示为:543213543212543211965.0154.0172.0159.0071.0183.0211.0976.0085.0037.018.0892.005.0847.0946.0ZZZZZFZZZZZFZZZZZF其中iZ为原始变量的相应标准化变量。第一主成分对原始变量的贡献率为48.868%,第二主成分的贡献率为20.773%,第三个主成分对原始变量的贡献率为20.307%,其累计贡献率为89.948%,结果表明前三个个主成分提取了原始变量的绝大部分信息。由上可知,第一主成分中1Z、2Z和4Z的系数绝对值较大,第二主成分中3Z的系数绝对值较大,第三个成分中5Z的系数绝对值较大。因此,第一主成分主要由总资产贡献率、资产负债率和工业成本费用利润率组成,第二主成分主要由流动资产周转次数和产品销售率组成。因此,第一个公因子主要由“总资产贡献率”、“资产负债率”、“成本费用利用率”组成,该三个指标主要反映一个行业的盈利能力,所以第一个综合指标可以表示为“盈利能力”,第二个公因子可得主要反映行业的运行能力,第二个综合指标可以表示为“行业运行能力”,第三个综合指标可以表示为“市场能力”。我们把5个影响行业的经济效益的自变量最终用3个综合指标进行表示,接下来我们利用这三个综合指标对每个行业进行综合评价。5.2基于因子分析的经济效益的综合评价利用SPSS(19.0)软件对中国国有工业行业的经济效益指标进行因子分析得到每个行业的经济效益的最终评分,得到下表KMO和球形Bartlett检验结果:KMOandBartlett'sTestKaiser-Meyer-OlkinMeasureofSamplingAdequacy..684Bartlett'sTestofSphericityApprox.Chi-Square83.527df10Sig..000表3KMO和Bartlett检验首先巴特利特球度检验表明:巴特利特球度统计量值为83.527,显著性水平少于0.001,即拒绝相关系数矩阵是一个单位阵的原假设。KMO统计量为0.684,表明简单相关系数平方和远大于偏相关系数平方和,比较适合做因子分析2。2KMO值越接近1,则越适合做因子分析,反之亦反。Kaiser认为0.9以上就非常适合,0.8-09很适合,0.7-0.8适合,0.6-0.7比较适合,0.5-0.6勉强,0.5以下不适合。多元统计分析课程论文8为了能够计算出各行业的因子得分,我们需要将公共因子表示成原始变量的线性组合。公共因子对原始变量基于最小