SPSS软件应用-因子分析

哈世
2 ℃
2020-04-24

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

SPSS软件应用-因子分析一、数据来源：各地区年平均收入.sav二、基本结果本例中，由于涉及的变量较多，直接进行地区间的比较分析较为烦琐，因此，首先考虑采用因子分析方法，减少变量个数，之后再进行比较和综合评价。1.考察原有变量是否适合进行因子分析首先考察收集到的原有变量之间是否存在一定的线性关系，是否适合采用因子分析提取因子。这里，借助变量的相关系数矩阵、反映像相关矩阵、巴特利特球度检验和KMO检验方法进行分析。分析结果如表1所示。同时，由于数据存在缺失值，采用均值替代法处理缺失值。相关矩阵（1a）国有经济单位集体经济单位联营经济单位股份制经济单位外商投资经济单位港澳台经济单位其他经济单位相关国有经济单位1.000.825.595.773.742.786.574集体经济单位.8251.000.716.740.824.849.654联营经济单位.595.7161.000.689.598.676.482股份制经济单位.773.740.6891.000.765.849.571外商投资经济单位.742.824.598.7651.000.898.698港澳台经济单位.786.849.676.849.8981.000.747其他经济单位.574.654.482.571.698.7471.000KMO和Bartlett的检验(1b)取样足够度的Kaiser-Meyer-Olkin度量。.882Bartlett的球形度检验近似卡方182.913df21Sig..000由表1（a）可以看到：大部分的相关系数都较高，各变量呈较强的线性关系，能够从中提取公共因子，适合进行因子分析。由表1（b）可知：巴特利球度检验统计量关键值为182.913，相应的概率P-值接近0。如果显著性水平α为0.05，由于概率P-值小于显著性水平α，则应拒绝原假设，认为相关系数矩阵与单位阵有显著差异。同时，KMO值为0.882，根据Kaiser给出的KMO度量标准可知，原有变量适合进行因子分析。2.提取因子这里首先进行尝试性分析：根据原有变量的相关系数矩阵，采用主成分分析法提取因子并选取大于1的特征值。分析结果如表2所示。公因子方差(2a)初始提取国有经济单位1.000.760集体经济单位1.000.851联营经济单位1.000.599股份制经济单位1.000.785外商投资经济单位1.000.830港澳台经济单位1.000.913其他经济单位1.000.592提取方法：主成份分析。表2（a）显示了所有的变量共同度数据。第一列数据是因子分析初始解下的变量共同度，它表明：如果对原有7个变量采用主成分分析方法，提取所有特征值（7个），那么原有变量的所有方差都可被解释，变量的共同度均为1。事实上，因子个数小于原有变量的个数才是因子分析的目标，所以不可提取全部特征值。第二列数据是在按制定提取条件（这里为特征值大于1）提取特征值时的变量共同度。可以看到：港澳台经济单位、集体经济单位、以及外商投资经济单位等变量的绝大部分信息（大于83%）可被因子解释，这些变量的信息丢失较少。但联营经济单位、其他经济单位两个变量的信息丢失较为严重（近40%）。因此，本次因子提取的总体效果并不理想。重新指定提取特征值的标准，指定提取两个因子。分析结果如表2（b）（c）（d）所示。公因子方差(2b)初始提取国有经济单位1.000.767集体经济单位1.000.854联营经济单位1.000.813股份制经济单位1.000.816外商投资经济单位1.000.855港澳台经济单位1.000.922其他经济单位1.000.871提取方法：主成份分析。表2（b）是指定提取两个特征值下的变量共同度数据。由第二列数据可知，此时所有变量的共同度均较高，各个变量的信息丢失都较少。因此，本次因子提取的总体效果比较理想。解释的总方差(2c)成份初始特征值提取平方和载入旋转平方和载入合计方差的%累积%合计方差的%累积%合计方差的%累积%15.33176.15176.1515.33176.15176.1513.16845.26145.2612.5688.10884.259.5688.10884.2592.73038.99784.2593.4105.85990.1174.2783.97694.0945.2333.32797.4216.1071.53198.9517.0731.049100.000提取方法：主成份分析。表2（c）中，第一组数据项（第二列到第四列）描述了因子分析初始解的情况。可以看到：第一个因子的特征值为5.33，解释原有7个变量总方差的76.2%，；累计方差贡献率为76.2%；第二个因子的特征值为0.57，解释原有7个变量总方差的8.1%；累计方差贡献率为84.3%。其余数据含义相似，在初始解中，由于提取了7个因子，因此原有变量的总方差均被解释，累计方差贡献率为100%。表2（b）的第二列也说明了这点。第二组数据项（第五列到第七列）描述了因子解的情况。可以看到：由于指定提取两个因子，两个因子共解释了原有变量总方差的84.3%。总体上，原有变量的信息丢失较少，因子分析效果较理想。第三组数据项（第八列到第十列）描述了最终因子解的情况。可见，因子旋转后，总的累计方差贡献率没有改变，也就是没有影响原有变量的共同度，但却重新分配了各个因子解释原有变量的方差，改变了各因子的方差贡献，使得因子更易于解释。在图1中，横坐标为因子数目，纵坐标为特征值。可以看到：第一个因子的特征值很高，对解释原有变量的贡献最大；第三个以后的因子特征值都较小，对解释原有变量的贡献很小，可以忽略，因此提取2个因子是合适的。成份矩阵a(2d)成份12港澳台经济单位.955-.095集体经济单位.923.057外商投资经济单位.911-.159股份制经济单位.886.176国有经济单位.872.086联营经济单位.774.462其他经济单位.770-.527提取方法:主成份。a.已提取了2个成份。表2（d）显示了因子载荷矩阵，是因子分析的核心内容。根据该表可以写出本案例中的因子分析模型：港澳台经济单位=0.955f1-0.095f2集体经济单位=0.923f1+0.057f2外商投资经济单位=0.911f1-0.159f2股份制经济单位=0.886f1+0.176f2国有经济单位=0.872f1+0.086f2联营经济单位=0.774f1+0.462f2图1其他经济单位=0.770f1-0.527f2由表2（d）可知，7个变量在第一个因子上的载荷都很高，意味着它们与第一个因子的相关程度高，第一个因子很重要；第二个因子与原有变量的相关性均较小，它对原有变量的解释作用不显著。另外还可以看到：这两个因子的实际含义比较模糊。3.因子的命名解释这里，采用方差极大法对因子载荷矩阵实行正交旋转，以使因子具有命名解释性。指定按第一个因子载荷降序的顺序输出旋转后的因子载荷，并绘制旋转后的因子载荷图，分析结果如表3所示。旋转成份矩阵a(表3a)成份12联营经济单位.883.180股份制经济单位.773.467集体经济单位.720.579国有经济单位.702.524其他经济单位.213.908外商投资经济单位.566.731港澳台经济单位.642.714提取方法:主成份。旋转法:具有Kaiser标准化的正交旋转法。a.旋转在3次迭代后收敛。由表3（a）可知，联营经济单位、股份制经济单位、集体经济单位、国有经济单位在第一个因子上有较高的载荷，第一个因子主要解释了这几个变量，可解释为内部投资经济单位；其他经济单位、外商投资经济单位、港澳台经济单位在第二个因子上有较高的载荷，第二个因子主要解释了这几个变量，可解释为外来投资经济单位。与旋转前相比，因子含义较清晰。成份得分协方差矩阵（3b）成份1211.000.0002.0001.000提取方法:主成份。旋转法:具有Kaiser标准化的正交旋转法。构成得分。表3（b）显示了两因子的协方差矩阵。可以看出：两因子没有线性相关性，实现了因子分析的设计目标。由图2可直观看出：联营经济单位、其他经济单位比较靠近两个因子坐标轴，表明如果分别用第一个因子刻画联营经济单位，用第二个因子刻画其他经济单位，信息丢失较少，效果较好。但如果只用一个因子分别刻画其他变量，则效果不太理想。4.计算因子得分这里，采用回归法估计因子得分系数，并输出因子得分系数。具体结果如表4所示成份得分系数矩阵成份12国有经济单位.223-.002集体经济单位.196.042联营经济单位.656-.504股份制经济单位.331-.117外商投资经济单位-.062.322港澳台经济单位.020.244其他经济单位-.519.784提取方法:主成份。旋转法:具有Kaiser标准化的正交旋转法。构成得分。根据表4可以写出以下因子得分函数：F1=0.223国有+0.196集体+0.656联营+0.331股份-0.062外商+0.202港澳台-0.519其他F2=-0.02国有+0.042集体-0.504联营-0.117股份+0.322外商+0.244港澳台+0.784其他由此可见，计算两个因子得分变量的变量值时，联营经济单位和其他经济单位的权重较高，但方向相反，这与因子的实际含义相吻合。另外，因子得分的均值为0，标准差为1。正值表示高于平均水平，负值表示图2低于平均水平。5.各省市自治区的综合评价。首先，绘制两因子得分变量的散点图。观察图3可见，北京、上海、广东是较为特殊的点（省市），其他样本（地区）较相似。北京的第二因子得分最高，表明外来投资经济单位的人均年收入远远高于其他省市。第一因子得分居平均值，表明内部投资经济单位的人均年收入与其他地区差异不大，处在平均水平上。上海的两个因子得分均比较高，都高于平均水平，因此总体上上海的人均年收入是较高的。广东的第一因子得分最高，表明内部投资经济单位的人均年收入远高于其他省市；第二因子得分略低于平均值，表明外来投资经济单位的人均年收入与其他地区差异不明显。三、结论对各地区人均年收入进行综合分析。这里采用计算因子加权总分的方法，其中权重的确定是关键。通常的做法是根据实际问题由专家组研究决定。这里，仅从单纯的数量上考虑，以2个因子的方差贡献率为权数。于是，计算公式为：F=0.45/（0.45+0.39）F1+0.39/（0.45+0.39）F2人均年收入较高的省市区有北京、上海、广东、浙江、天津、福建和江苏等，他们多属经济文化中心或东南沿海地区。人均年收入较低省市有内蒙古、山西、青海、黑龙江等，他们多为内陆或西北边远地区。四、建议与对策图3一般进行因子分析时，探索性分析很关键，党多个变量信息丢失情况比较严重时，应重新指定提取特征值的标准。直到结果显示提取的总体效果理想时，方可进行后续工作。另外，对于因子个数的选择很重要。通过碎石图，可以比较清晰地看出因子选择多少个是合适的。本实验中，极大方差旋转前，因子2解释较弱，两因子区别较模糊，而通过方差极大法，对因子载荷矩阵实行正交旋转以后，可以对因子具有命名解释性。