实验报告课程多元统计分析实验名称实验4主成分分析学号2012072102姓名蔡雨尧实验日期:2014.12.14实验4SPSS在主成分分析中的应用实验目的:用SPSS软件实现主成分分析、因子分析及其应用。实验原理:主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现再F2中,用数学语言表达就是要求Cov(F1,F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,„„,第P个主成分。实验内容:1下面是十个省的经济数据,请用主成分分析提取主成分,并将标准化后的数据保存在原数据集中,并对结果进行分析。2请对下面的数据作主成分分析,并分析结果。身高x1(cm)胸围x2(cm)体重x3(kg)149.5162.5162.7162.2156.569.577.078.587.574.538.555.550.865.549.0156.1172.0173.2159.5157.774.576.581.574.579.045.551.059.543.553.5第一题:实验步骤:(1)单击分析-降维-因子分析,进入因子分析窗口,选中所有变量加入右边框;(2)单击描述-相关矩阵-,勾选系数,单击继续;(3)单击旋转,勾选无,单击继续;(4)单击得分,勾选“保存为变量”、“回归”、“显示因子得分系数矩阵”,单击继续;(5)返回因子分析对话窗口,单击确定。实验结果:CommunalitiesInitialExtractionGDP1.000.939人均GDP1.000.690农业增加值1.000.471工业增加值1.000.957第三产业增加值1.000.977固定资产投资1.000.970基本建设投资1.000.897社会消费品零售总额1.000.985海关出口总额1.000.642地方财政收入1.000.927ExtractionMethod:PrincipalComponentAnalysis.TotalVarianceExplainedComponentInitialEigenvaluesExtractionSumsofSquaredLoadingsTotal%ofVarianceCumulative%Total%ofVarianceCumulative%17.22072.20072.2007.22072.20072.20021.23412.34484.5431.23412.34484.5433.8778.77093.3134.5475.47198.7845.086.85799.6416.021.20899.8507.012.12199.9718.002.01899.9899.001.011100.00010-1.722E-16-1.722E-15100.000ExtractionMethod:PrincipalComponentAnalysis.ComponentMatrixaComponent12GDP.949.195人均GDP.112-.823农业增加值-.109.677工业增加值.978-.005第三产业增加值.986.068固定资产投资.983-.068基本建设投资.947-.024社会消费品零售总额.977.176海关出口总额.800-.051地方财政收入.954-.128a.2componentsextracted.ComponentScoreCoefficientMatrixComponent12GDP.131.158人均GDP.016-.667农业增加值-.015.549工业增加值.136-.004第三产业增加值.137.055固定资产投资.136-.055基本建设投资.131-.020社会消费品零售总额.135.143海关出口总额.111-.041地方财政收入.132-.104ComponentScoreCovarianceMatrixComponent1211.000.0002.0001.000实验分析:第一个表格就是相关矩阵,现实的是各个变量之间的相关系数,通过相关系数,你可以看到各个变量之间的相关,进而了解各个变量之间的关系。第二个表格显示的主成分分析的过程,我们看到eigenvalues下面的total栏,他的意思就是特征根,他的意义是主成分影响力度的指标,一般以1为标准,如果特征根小于1,说明这个主因素的影响力度还不如一个基本的变量。所以我们只提取特征根大于1的主成分。如图所示,前两个主成分就是大于1的,所以我们只能说有两个主成分。另外,我们看到第一个主成分方差占所有主成分方差的72.2%,第二个占12.344%,这两个累计达到了84.5%。第二题:实验步骤:(1)单击分析-降维-因子分析,进入因子分析窗口,选中所有变量加入右边框;(2)单击描述-相关矩阵-,勾选系数,单击继续;(3)单击旋转,勾选无,单击继续;(4)单击得分,勾选“保存为变量”、“回归”、“显示因子得分系数矩阵”,单击继续;(5)返回因子分析对话窗口,单击确定。实验结果:CorrelationMatrix身高x1(cm)胸围x2(cm)体重x3(kg)Correlation身高x1(cm)1.000.545.609胸围x2(cm).5451.000.951体重x3(kg).609.9511.000CommunalitiesInitialExtraction身高x1(cm)1.000.601胸围x2(cm)1.000.890体重x3(kg)1.000.930ExtractionMethod:PrincipalComponentAnalysis.TotalVarianceExplainedComponentInitialEigenvaluesExtractionSumsofSquaredLoadingsTotal%ofVarianceCumulative%Total%ofVarianceCumulative%12.42180.68780.6872.42180.68780.6872.53417.80998.4963.0451.504100.000ExtractionMethod:PrincipalComponentAnalysis.ComponentMatrixaComponent1身高x1(cm).775胸围x2(cm).943体重x3(kg).964ComponentScoreCoefficientMatrixComponent1身高x1(cm).320胸围x2(cm).390体重x3(kg).398ComponentScoreCovarianceMatrixComponent111.000实验分析:第一个表格就是相关矩阵,现实的是各个变量之间的相关系数,通过相关系数,你可以看到各个变量之间的相关,进而了解各个变量之间的关系。第二个表格显示的主成分分析的过程,我们看到eigenvalues下面的total栏,他的意思就是特征根,他的意义是主成分影响力度的指标,一般以1为标准,如果特征根小于1,说明这个主因素的影响力度还不如一个基本的变量。所以我们只提取特征根大于1的主成分。如图所示,第一个主成分就是大于1的,所以我们只能说有一个主成分。另外,我们看到这一个主成分方差占所有主成分方差的80.687%,这一个便达到了84.5%。实验结论:通过本次实验,了解SPSS软件的运行管理方式,熟悉各主要操作模块,窗口及其功能,相关的系统参数设置等。基本掌握了应用SPSS软件对数据进行主成分分析,但是在操作过程和文字分析上还是有些生疏,有待进一步的熟练。