20--20学年第学期学院期末考试卷《数据分析方法》(课程论文试卷)学号:姓名:班级:成绩:评语:(考试题目及要求)题目及要求:1.以自己感兴趣的问题,设计统计分析模型,并用SPSS软件对其做实证分析。课程论文格式要求:1.研究问题阐述及理论依据2.模型设计3.指标选取、数据来源及处理4.模型分析和检验5.结论分析和政策建议6.参考文献7.原始数据附录8.论文查重结果附录(查重率低于20%)装订线[1]基于因子分析的分行业主要工业企业经济指标评价摘要:基于国家统计局的统计数据采用因子分析的方法对全国分行业的工业企业发展现状进行实证分析和综合评估,可为下一步工业企业实施方案以促进经济协调合理发展提供决策参考。关键词:工业企业、经济指标、SPSS1研究问题阐述及理论依据因子分析以最少的信息丢失为前提,将众多的原有变量综合成几个较少的综合指标。而综合指标之间彼此不相关。它的基本目的是用较少的相互独立的因子反映原有变量的绝大部分信息综合指标分别综合存在于各变量中的各类信息,这种分析方法称为因子分析,代表各类信息的综合指标就称为因子。2因子分析的模型设有p个原有变量X1,X2,X3,X4,…,Xp。且每个变量(经标准化处理后)的均值为0,标准差均为1。现将每个原有变量用k(kp)个因子f1,f2,f3,…fk的线性组合来表示,则有X1=a11f1+a12f2+a13f3+…+a1kfk+ε1X2=a21f1+a22f2+a23f3+…+a2kfk+ε2X3=a31f1+a32f2+a33f3+…+a3kfk+ε3::Xp=ap1f1+ap2f2+ap3f3+…+apkfk+ε4以上是数学模型,也可用矩阵的形式表现为:X=AF+ε(F称为公共因子,A成为因子载荷矩阵,aij表示xi在坐标轴fi上的投影,ε成为特殊因子)3指标选取、数据来源及处理收集到42个分行业主要工业企业的资产、收入以及盈利状况,现在希望对全国各个工业企业的资产、收入及盈利状况的差异性和相似性进行研究。本文选取一下9项指标:X1表示资产合计,X2表示主营业务收入,X3表示主营业务成本,X4销售费用,X5管理费用,X6财务费用,X7利息支出,X8利润总额,X9亏损企业亏损额。具体原始数据数据详见附录一。由于原始数据指标单位相同(亿元),所以不需要对所选指标数据进行标准化处理以消除由观测量纲的差异[2]所造成的影响,本文运用SPSS21.0统计分析软件进行数据计算。4模型分析和检验4.1相关性检验因子分析的目的是从众多原有变量中综合出少数具有代表性的因子,这必定有一个潜在的前提要求,即原有变量间应具有较强的相关关系。本文选用KMO和Bartlett的检验来验证原有变量是否适合做因子。由表4-1可知,Bartlett值为1865.393,自由度为36,sig的值为0.000,对应的概率p=0.000α,则应拒绝原假设,认为相关系数矩阵不太可能是单位阵,原有变量适合做引子分析。KMO是用于比较变量间简单相关系数和偏相关系数的指标,KMO的值越接近1,意味着变量间的相关性越强,在本文的分析中KMO的值为0.843,因此,原有变量适合做引子分析。4.2公因子方差该表为公因子提取前后的公因子方差表,初始是在因子提取之前的个变量的公因子方差,该值是要被分析的矩阵(即上面的相关系数矩阵)的对角元素。对因子分析来说,这些值是用其他变量作为预测变量时每个变量的载荷的平方和提取是各变量的未旋转的公因子方差,是用作预测因子变量的多重相关的平方。表4-2中的公因子方差都较高,它表明提取的成分能较好的描述这些变量。表4-1KMO和Bartlett的检验取样足够度的Kaiser-Meyer-Olkin度量。.843Bartlett的球形度检验近似卡方1865.393df36Sig..000表4-2公因子方差初始提取资产合计1.000.999主营业务收入1.000.999主营业务成本1.000.998销售费用1.000.996管理费用1.000.999财务费用1.000.999利息支出1.0001.000利润总额1.000.999亏损企业亏损额1.000.999提取方法:主成份分析。[3]4.3总方差分解表由表可知,初始特征值是相关矩阵或协方差矩阵的特征值。合计是各成分的特征值,本例中只有第一个因子的特征值大于1,且成分解释的方差占总方差的百分比比较大,即因子特征值占特征值总和的百分比。累计表示累计百分比,可以看到前三个因子的累计百分比为99.859%。提取平方和的载入为因子提取结果,是未旋转的因子载荷的平方和。它给出的是每个因子的特征值说明的方差占总方差的百分比和累计百分比。旋转平方和的载入为旋转后的因子提取结果。详见表4-34.4特征值碎石图图中表现各成分特征值的碎石图,通过碎石图可以看出因子1,因子2~3,因子3~9之间的特征值差值均比较小,而这三组因子之间差值均值比较大。可以初步得出提取3个因子比较合适,保留3个因子将能概括大部分信息子将能概括大部分信息。详见图4-4。表4-3解释的总方差成份初始特征值提取平方和载入旋转平方和载入合计方差的%累积%合计方差的%累积%合计方差的%累积%18.91599.05299.0528.91599.05299.0524.52750.29650.2962.057.63599.687.057.63599.6874.36348.48398.7793.015.17299.859.015.17299.859.0971.08099.8594.007.07899.9365.004.04199.9776.002.01899.9957.000.00499.99985.111E-005.001100.00092.411E-005.000100.000提取方法:主成份分析。[4]4.5因子载荷矩阵表4-5显示了因子载荷矩阵,是因子分析的核心内容。根据该表可以写出本案例的因子分析模型:资产合计=0.999f1+0.39f2+0.10f3主营业务收入=0.999f1-0.33f2-0.13f3主营业务成0.998f1-0.029f2-0.017f3::销售费用=0.991f1-0.120f2+0.014f3由表4-5可知9个因子在第一个因子上的载荷很高,意味着他们与第一个因子的相关程度高,第一个因子很重要;第二个和第三个因子与原有变量变量的相关均较小,它对原有变量的解释作用不显著。显著另外还可以看到:这三个因子的实际含义比较模糊。由表4-6可知:销售费用、管理费用、利润总额、主营业务收入、主营业务成本在第一个因子上有较大的载荷,财务费用、利息支出、资产合计在第二个因子上有较大的载荷,企业亏损额在第三个因子上有较大的载荷,与旋转前相比,因子含义较清晰。成份1231.710.697.0962-.701.713.0033.066.069-.995提取方法:主成份。旋转法:具有Kaiser标准化的正交旋转法。表4-7显示了三个因子的协方差矩阵。可以看出:因子之间没有线性相关性,实现了因子分析的设计目标。表4-5成份矩阵a成份123资产合计.999.039.010主营业务收入.999-.033-.013主营业务成本.998-.029-.017管理费用.996-.082-.025利润总额.995-.051.073亏损企业亏损额.995.038-.088利息支出.993.118.025财务费用.992.121.020销售费用.991-.120.014提取方法:主成份。a.已提取了3个成份。表4-6旋转成份矩阵a成份123销售费用.789.606.081管理费用.763.634.120利润总额.748.663.022主营业务收入.732.672.108主营业务成本.728.674.112财务费用.621.779.075.624.778.070资产合计.683.725.086亏损企业亏损额.674.715.183提取方法:主成份。旋转法:具有Kaiser标准化的正交旋转法。aa.旋转在4次迭代后收敛。[5]表4-8成份得分系数矩阵成份123资产合计-.355.606-.612主营业务收入.430-.392.840主营业务成本.362-.3571.082销售费用1.614-1.363-.890管理费用.979-1.0551.586财务费用-1.3151.676-1.285利息支出-1.2571.662-1.617利润总额1.017-.230-4.700亏损企业亏损额-.763.1575.677提取方法:主成份。旋转法:具有Kaiser标准化的正交旋转法。构成得分表4-7成份转换矩阵成份1231.710.697.0962-.701.713.0033.066.069-.995提取方法:主成份。旋转法:具有Kaiser标准化的正交旋转法。根据表4-8可写出以下因子得分函数:F1=-0.355资产+0.430主营业务收入+0.362主营业务成本+1.614销售费用+0.979管理费用-1.315财务费用-1.257利息支出+1.017利润总额-0.763亏损企业亏损额F2=0.606资产-0.392主营业务收入-0.357主营业务成本-1.363销售费用-1.055管理费用+1.676财务费用+1.662利息支出-0.230利润总额+0.157亏损企业亏损额F3=-0.612资产+0.840主营业务收入+1.082主营业务成本-0.890销售费用+1.586管理费用-1.285财务费用-1.617利息支出-4.700利润总额+5.667亏损企业亏损额根据表4-3中的各公因子旋转后的方差贡献率,计算其综合因子得分为:F=(50.296%F1+48.483%F2+1.080%F3)/99.859%表4-7显示了两因子的协方差矩阵。可以看出:两因子没有相关性,实现了因子分析的目标。5结论分析由表4-4方差分解表可知,三个因子的方差累计贡献率为99.859%。用各因子的贡献率为权重对三个因子得分进行加权平均,计算出各行业的总得分,详见附录二。由附录二可得电力、热力生产和供应业、化学原料和化学制品制造业计算机、通信和其他电子设备制造业的综合排名比较高,表明它们对工业企业的经济发展做了很大的贡献,是推动工业企业经济增长的主力军。同时,我们也可以看到由于其他采矿业、金属制品和开采辅助活动的成本消费打,综合得分比较低,排名靠后,表明它们对经济发展作用较小。[6]