电子科技大学政治与公共管理学院本科教学实验报告(实验)课程名称:数据分析技术系列实验电子科技大学教务处制表1电子科技大学实验报告学生姓名:学号:指导教师:一、实验室名称:电子政务可视化实验室二、实验项目名称:因子分析三、实验原理主成分分析:由于多个变量之间都存在着相关性,故为了使复杂的问题更加清晰,因此就设计将原来的变量重新线性组合成若干个互不相关的综合指标来代替原来的变量,并尽可能提取原来变量的信息来解释原有变量的协方差结构,这就是主成分分析法(PrincipalComponentAnalysis)。主成分分析的数学模型:设有n个变量,每个样品有p个变量,,..,,21pxxx对其作线性组合得到:ppppppppppxaxaxaFxaxaxaFxaxaxaF22112222121212121111这里限制性要求:),,2,1(122221pjaaapjjj2第i主成分的贡献率为:piii1表明第i个主成分综合pxxx,,,21的信息的能力累计贡献率为:piimii11表示前m个主成分包含了原变量所具有的信息量。因子分析:因子分析是多元统计分析中处理降维的一种统计方法,它主要将具有错综复杂关系的变量或者样品综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系。3其中X是可实测的p个指标所构成的p维随机向量;F是公共因子或潜因子,即前面所说的综合变量;称aij为因子载荷,是第i个变量在第j个公共因子上的负荷;矩阵A称为因子载荷矩阵;ε是X的特殊因子。因子分析的几个重要概念:1、因子载荷实际上jiFXijra,即第i个变量与第j个公共因子的相关系数,它的统计意义就是第i个变量在第j个公共因子上的负荷,反映了第i个变量在第j个公共因子上的相对重要性。2、变量共同度Communalities43、公共因子Fj的方差贡献4、因子旋转因子旋转的目的是为了使得因子载荷阵的结构简化,便于对公共因子进行解释。这里所谓的结构简化是使每个变量仅在一个公共因子上有较大的载荷,而在其余公共因子上载荷比较小。这种变换因子载荷阵的方法称为因子轴的旋转。旋转的方法有很多种,如正交旋转,斜交旋轴等。5、因子得分因子分析的数学模型是将变量表示成公共因子的线性组合,而在实际应用中,往往需要用公共因子去代表原始变量,即将公共因子表示为变量的线性组合,即上式是因子得分函数,用它来计算每个样品的公共因子得分。估计因子得分有很多种方法,比如加权最小二乘法,回归法等。四、实验目的理解因子分析的基本原理,掌握在SPSS软件中因子分析的主要参数设置及其含义,掌握SPSS软件分析结果的含义及其分析。五、实验内容及步骤实验内容一:以城市基础设施调查数据为基础,运用因子分析方法对数据进行分析。(1)问题描述对我国主要城市的市政基础设施情况进行因子分析。5(2)因子分析FactorAnalysis过程调用(3)分析变量设置及参数选择67实验内容二:以主要城市日照数调查数据为基础,运用因子分析方法对数据进行分析。(1)问题描述对主要城市日照数进行因子分析。(2)因子分析FactorAnalysis过程调用8(3)分析变量设置及参数选择9六、实验器材(设备、元器件):计算机、打印机、硒鼓、碳粉、纸张七、实验数据及结果分析实验一分析结果及讨论10分析结果如下列表示。[DataSet1]C:\Users\a\Desktop\罗应婷书配套光盘\配套数据文件\第12章\各地区城市市政设施.savCorrelationMatrix年末实有道路长度(公里)年末实有道路面积(万平方米)城市桥梁(座)Correlation年末实有道路长度(公里)1.000.983.783年末实有道路面积(万平方米).9831.000.738城市桥梁(座).783.7381.000城市排水管道长度(公里).939.940.759城市污水日处理能力(万立方米).896.853.873城市路灯(盏).883.867.719CorrelationMatrix城市排水管道长度(公里)城市污水日处理能力(万立方米)城市路灯(盏)Correlation年末实有道路长度(公里).939.896.883年末实有道路面积(万平方米).940.853.867城市桥梁(座).759.873.719城市排水管道长度(公里)1.000.845.916城市污水日处理能力(万立方米).8451.000.822城市路灯(盏).916.8221.000表1.1从表1.1可以看出,各个变量之间都具有一定的相关关系而且有些相关系数还比较大,接近于1,所以本例很适合使用主成分分析。KMOandBartlett'sTestKaiser-Meyer-OlkinMeasureofSamplingAdequacy..856Bartlett'sTestofSphericityApprox.Chi-Square281.248df15Sig..00011表1.2KMO检验是为了看数据是否适合进行因子分析,从表1.2可以看出KMO的值为0.856,表示可以进行因子分析。Bartlett检验是为了看数据是否来自于服从多元正态分布的总体,从表1.2可以看出,Sig.的值为0.000,说明数据来自正态分布总体,适合进一步分析。CommunalitiesInitialExtraction年末实有道路长度(公里)1.000.954年末实有道路面积(万平方米)1.000.919城市桥梁(座)1.000.742城市排水管道长度(公里)1.000.924城市污水日处理能力(万立方米)1.000.882城市路灯(盏)1.000.859ExtractionMethod:PrincipalComponentAnalysis.表1.3变量共同度表示的是各变量中所含原始信息能被提取的公因子所解释的程度。从表1.3可以看出,大多变量共同度在85%以上,所以提取的这几个公因子对变量的解释能力很强。TotalVarianceExplainedComponentInitialEigenvaluesExtractionSumsofSquaredLoadingsTotal%ofVarianceCumulative%Total15.28088.00188.0015.2802.3906.50394.5043.1622.70797.2114.1041.73898.9505.051.84999.7996.012.201100.000TotalVarianceExplained12ComponentExtractionSumsofSquaredLoadings%ofVarianceCumulative%188.00188.00123456表1.4从表1.4可知,只有第一个的特征值大于1,所以只选择第一个成分,方差贡献率为88.001%,几乎涵盖了原变量的全部信息。ExtractionMethod:PrincipalComponentAnalysis.13表1.5ComponentMatrixaComponent1年末实有道路长度(公里).977年末实有道路面积(万平方米).959城市桥梁(座).862城市排水管道长度(公里).961城市污水日处理能力(万立方米).939城市路灯(盏).927ExtractionMethod:PrincipalComponentAnalysis.a.1componentsextracted.表1.6从表1.6可以看出,因子在年末实有道路长度(公里)、年末实有道路面积(万平方米)、城市桥梁(座)、城市排水管道长度(公里)、城市污水日处理能力(万立方米)及城市路灯(盏)上有较大的负荷。ComponentScoreCoefficientMatrixComponent1年末实有道路长度(公里).185年末实有道路面积(万平方米).182城市桥梁(座).163城市排水管道长度(公里).182城市污水日处理能力(万立方米).178城市路灯(盏).176ExtractionMethod:PrincipalComponentAnalysis.表1.7从表1.7可以看出,公因子的表达式为14实验二结果及分析:[DataSet1]C:\Users\a\Desktop\罗应婷书配套光盘\配套数据文件\第12章\主要城市日照时数.savCorrelationMatrix一月日照时数二月日照时数三月日照时数四月日照时数Correlation一月日照时数1.000.897.897.714二月日照时数.8971.000.855.756三月日照时数.897.8551.000.860四月日照时数.714.756.8601.000五月日照时数.742.785.799.857六月日照时数.464.410.541.588七月日照时数.027.175.150.380八月日照时数.110.033.234.282九月日照时数.487.505.579.508十月日照时数.551.569.498.397十一月日照时数.781.827.656.515十二月日照时数.558.445.365.139CorrelationMatrix五月日照时数六月日照时数七月日照时数八月日照时数Correlation一月日照时数.742.464.027.110二月日照时数.785.410.175.033三月日照时数.799.541.150.234四月日照时数.857.588.380.282五月日照时数1.000.725.335.319六月日照时数.7251.000.367.699七月日照时数.335.3671.000.624八月日照时数.319.699.6241.000九月日照时数.666.777.248.561十月日照时数.574.640.386.546十一月日照时数.645.452.190.14015CorrelationMatrix五月日照时数六月日照时数七月日照时数八月日照时数Correlation一月日照时数.742.464.027.110二月日照时数.785.410.175.033三月日照时数.799.541.150.234四月日照时数.857.588.380.282五月日照时数1.000.725.335.319六月日照时数.7251.000.367.699七月日照时数.335.3671.000.624八月日照时数.319.699.6241.000九月日照时数.666.777.248.561十月日照时数.574.640.386.546十一月日照时数.645.452.190.140十二月日照时数.286.309-.016.218CorrelationMatrix九月日照时数十月日照时数十一月日照时数十二月日照时数Correlation一月日照时数.487.551.781.558二月日照时数.505.569.827.445三月日照时数.579.498.656.365四月日照时数.508.397.515.139五月日照时数.666.574.645.286六月日照时数.777.640.452.309七月日照时数.248.386.190-.016八月日照时数.561.546.140.218九月日照时数1.000.798.553.445十月日照时数.7981.000.728.606十一月日照时数.553.7281.000.699十二月日照时数.445.606.6991.000表2.1从表2.1可以看出,各个变量之间都具有一定的相关系数而且有的相关系数还比较大,接近于1,所以适合使用主成分分析。16KMOandBartlett'sTestKaiser-Meyer-OlkinMeasureofSamplingAdequacy..798Bartlett'sTestofSphericityApprox.Chi-Square437.331df66Sig..000表2.2KMO检验是为了看数据是否适合进行因子分析,从表2.2可以看出KMO的值为0.798,表示可以进行因