SPSS在主成分分析中的应用

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1SPSS在主成分分析中的应用摘要主成成分分析是一种对数据进行分析的技术,最重要的应用是对原有数据进行简化。本文首先对主成成分分析方法的原理进行了简单的阐述。介绍了进行主成成分分析的工具SPSS,并以分析全国31个省市的8项经济目标为例,给出了详尽的分析。实验结果表明,主成成分分析能有效的将原有的复杂数据降维,同时包含原数据的大部分信息。关键词SPSS主成分分析经济发展指标一.主成分分析的原理。主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现再F2中,用数学语言表达就是要求Cov(F1,F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分。主成分模型:pp221p1ppp22221122p1p2211111aaaaaaaaaXXXFXXXFXXXFpp满足以下条件:1.每个主成分系数平方和为1即:),2,1(122221miaaapiii2.主成分之前互不相关即:0),cov(iiFF3.主成分方差依次递减,即)()()(21pFVarFVarFVar二.利用SPSS进行主成成分分析实例以全国31个省市的8项经济指标为例,进行主成分分析。第一步:录入或调入数据(图1)。2图1原始数据(未经标准化)第二步:打开“因子分析”对话框。沿着主菜单的“Analyze→DataReduction→Factor”的路径(图2)打开因子分析选项框(图3)。图2打开因子分析对话框的路径3图3因子分析选项框第三步:选项设置。首先,在源变量框中选中需要进行分析的变量,点击右边的箭头符号,将需要的变量调入变量(Variables)栏中(图3)。在本例中,全部8个变量都要用上,故全部调入(图4)。因无特殊需要,故不必理会“Value”栏。下面逐项设置。图4将变量移到变量栏以后⒈设置Descriptives选项。4单击Descriptives按钮(图4),弹出Descriptives对话框(图5)。图5描述选项框在Statistics栏中选中Univariatedescriptives复选项,则输出结果中将会给出原始数据的抽样均值、方差和样本数目(这一栏结果可供检验参考);选中Initialsolution复选项,则会给出主成分载荷的公因子方差(这一栏数据分析时有用)。在CorrelationMatrix栏中,选中Coefficients复选项,则会给出原始变量的相关系数矩阵(分析时可参考);选中Determinant复选项,则会给出相关系数矩阵的行列式,如果希望在Excel中对某些计算过程进行了解,可选此项,否则用途不大。其它复选项一般不用,但在特殊情况下可以用到(本例不选)。设置完成以后,单击Continue按钮完成设置(图5)。⒉设置Extraction选项。打开Extraction对话框(图6)。因子提取方法主要有7种,在Method栏中可以看到,系统默认的提取方法是主成分.因此对此栏不作变动,就是认可了主成分分析方法。在Analyze栏中,选中Correlationmatirx复选项,则因子分析基于数据的相关系数矩阵进行分析;如果选中Covariancematrix复选项,则因子分析基于数据的协方差矩阵进行分析。对于主成分分析而言,由于数据标准化了,这两个结果没有分别,因此任选其一即可。在Display栏中,选中Unrotatedfactorsolution(非旋转因子解)复选项,则在分析结果中给出未经旋转的因子提取结果。对于主成分分析而言,这一项选择与否都一样;对于旋转因子分析,选择此项,可将旋转前后的结果同时给出,以便对比。5选中ScreePlot(“山麓”图),则在分析结果中给出特征根按大小分布的折线图(形如山麓截面,故得名),以便我们直观地判定因子的提取数量是否准确。在Extract栏中,有两种方法可以决定提取主成分(因子)的数目。一是根据特征根(Eigenvalues)的数值,系统默认的是1c。我们知道,在主成分分析中,主成分得分的方差就是对应的特征根数值。如果默认1c,则所有方差大于等于1的主成分将被保留,其余舍弃。如果觉得最后选取的主成分数量不足,可以将c值降低,例如取9.0c;如果认为最后的提取的主成分数量偏多,则可以提高c值,例如取1.1c。主成分数目是否合适,要在进行一轮分析以后才能肯定。因此,特征根数值的设定,要在反复试验以后才能决定。一般而言,在初次分析时,最好降低特征根的临界值(如取8.0c),这样提取的主成分将会偏多,根据初次分析的结果,在第二轮分析过程中可以调整特征根的大小。第二种方法是直接指定主成分的数目即因子数目,这要选中Numberoffactors复选项。主成分的数目选多少合适?开始我们并不十分清楚。因此,首次不妨将数值设大一些,但不能超过变量数目。本例有8个变量,因此,最大的主成分提取数目为8,不得超过此数。在我们第一轮分析中,采用系统默认的方法提取主成分。图6提取对话框需要注意的是:主成分计算是利用迭代(Iterations)方法,系统默认的迭代次数是25次。但是,当数据量较大时,25次迭代是不够的,需要改为50次、100次乃至更多。对于本例而言,变量较少,25次迭代足够,故无需改动。设置完成以后,单击Continue按钮完成设置(图6)。6⒊设置Scores设置。选中Saveasvariables栏,则分析结果中给出标准化的主成分得分(在数据表的后面)。至于方法复选项,对主成分分析而言,三种方法没有分别,采用系统默认的“回归”(Regression)法即可。图7因子得分对话框选中Displayfactorscorecoefficientmatrix,则在分析结果中给出因子得分系数矩阵及其相关矩阵。设置完成以后,单击Continue按钮完成设置(图7)。⒋其它。对于主成分分析而言,旋转项(Rotation)可以不必设置;对于数据没有缺失的情况下,Option项可以不必理会。全部设置完成以后,点击OK确定,SPSS很快给出计算结果(图8)。7图8主成分分析的结果第四步,结果解读。在因子分析结果(Output)中,首先给出的DescriptiveStatistics,第一列Mean对应的变量的算术平均值,计算公式为niijjxnx11第二列Std.Deviation对应的是样本标准差,计算公式为2/112])(11[nijijjxxn第三列AnalysisN对应是样本数目。这一组数据在分析过程中可作参考。8DescriptiveStatistics1921.0931474.80603301745.933861.6419330511.5083402.88548305457.6331310.2180530666.1400459.9669930117.28672.0253130114.90671.8980830862.9980584.5872630国内生产居民消费固定资产职工工资货物周转消费价格商品零售工业产值MeanStd.DeviationAnalysisN接下来是CorrelationMatrix(相关系数矩阵),一般而言,相关系数高的变量,大多会进入同一个主成分,但不尽然,除了相关系数外,决定变量在主成分中分布地位的因素还有数据的结构。相关系数矩阵对主成分分析具有参考价值,毕竟主成分分析是从计算相关系数矩阵的特征根开始的。相关系数阵下面的Determinant=1.133E-0.4是相关矩阵的行列式值,根据关系式0)det(RI可知,det(λI)=det(R),从而Determinant=1.133E-0.4=λ1*λ2*λ3*λ4*λ5*λ6*λ7*λ8。这一点在后面将会得到验证。CorrelationMatrixa1.000.267.951.191.617-.273-.264.874.2671.000.426.718-.151-.235-.593.363.951.4261.000.400.431-.280-.359.792.191.718.4001.000-.356-.135-.539.104.617-.151.431-.3561.000-.253.022.659-.273-.235-.280-.135-.2531.000.763-.125-.264-.593-.359-.539.022.7631.000-.192.874.363.792.104.659-.125-.1921.000国内生产居民消费固定资产职工工资货物周转消费价格商品零售工业产值国内生产居民消费固定资产职工工资货物周转消费价格商品零售工业产值Determinant=1.133E-04a.在Communalities(公因子方差)中,给出了因子载荷阵的初始公因子方差(Initial)和提取公因子方差(Extraction),后面将会看到它们的含义。9Communalities1.000.9451.000.8001.000.9021.000.8751.000.8571.000.9571.000.9291.000.903国内生产居民消费固定资产职工工资货物周转消费价格商品零售工业产值InitialExtractionExtractionMethod:PrincipalComponentAnalysis.在TotalVarianceExplained(全部解释方差)表的InitialEigenvalues(初始特征根)中,给出了按顺序排列的主成分得分的方差(Total),在数值上等于相关系数矩阵的各个特征根λ,因此可以直接根据特征根计算每一个主成分的方差百分比(%ofVariance)。由于全部特征根的总和等于变量数目,即有m=∑λi=8,故第一个特征根的方差百分比为λ1/m=3.755/8=46.939,第二个特征根的百分比为λ2/m=2.197/8=27.459,……,其余依此类推。然后可以算出方差累计值(Cumulative%)。在ExtractionSumsofSquaredLoadings,给出了从左边栏目中提取的三个主成分及有关参数,提取的原则是满足λ1,这一点我们在图6所示的对话框中进行了限定。TotalVarianceExplained3.75546.93946.9393.75546.93946.9392.19727.45974.3982.19727.45974.3981.21515.18689.5841.21515.18689.584.4025.03194.615.2132.66097.275.1381.72498.9996.5E-02.81899.8171.5E-02.183100.000Component12345678Total%ofVarianceCumulative%Total%ofVarianceCumulative%InitialEigenvaluesExtractionSumsofSquaredLoadingsExtractionMethod:PrincipalComponentAnalysis.10ScreePlotComponentNumber87654321Eigenvalue43210图8特征根数值衰减折线图(山麓图)主成分的数目可以根据相关系数矩阵的特征根来判定,如前所说,相关系数矩阵的特征根刚好等于主成分的方差,而方差是变量数据蕴涵信息的重要判据之一。根据λ值决定主成分数目的准则有三:i只

1 / 17
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功