第十一章主成分分析第一节主成分分析及其基本思想地理系统是多要素的复杂系统,在地理学研究中,经常会遇到多变量问题。变量太多,会增加分析问题的难度与复杂性,而在许多实际问题中,多个变量之间是具有一定的相关关系的。能否在相关分析的基础上,通过某些线性组合使原始变量减少为有代表意义的少数几个新的变量,而且这些较少的新变量尽可能多地保留原来变量所反映的信息?解决这个问题的数学方法就是主成分分析。主成分分析的数学原理简单易懂,在地理学研究中应用较为广泛。主成分分析(PrincipalComponentsAnalysis,PCA)也称为主分量分析,是一种通过降维来简化数据结构的方法:如何把多个变量(指标)化为少数几个综合变量(综合指标),而这几个综合变量可以反映原来多个变量的大部分信息。为了使这些综合变量所含的信息互不重叠,应要求它们之间互不相关。一、主成分分析的基本思想主成分分析在数学上就是将原来m个指标作线性组合,求得新的综合指标,并选取几个具有代表性的综合指标(原指标的线性组合)。下面介绍这种选择的方法原理和实现过程。如果将选取的第一个线性组合即第一个综合指标记为z1,自然希望z1尽可能多地反映原来的指标信息,这里的“信息”用什么来表示呢?最经典的方法就是用z1的方差来表示,z1的方差越大,表示z1包含的信息越多。因此,在所有的线性组合中,选取的z1应该是方差最大的,称z1为第一主成分。如果z1没有包含原来m个指标的绝大部分信息,则需要考虑选取第二个线性组合z2,且希望z1中已有的信息不出现在z2中,即z1与z2的协方差Cov(z1,z2)=0。那么z2就是第二主成分,依此可以建立第三、第四等主成分,要求这些主成分互不相关,且方差依次减小。二、主成分分析的几何意义和数学模型为了方便,下面通过一个例子在二维空间中讨论主成分的几何意义。图17-115主成分的几何意义设有n个样品,每个样品测量了两个变量x1和x2,在由x1和x2确定的样品空间中,n个样品点的分布如图所示。从图可以看到,变量x1和x2都有较大的波动(方差较大),而且二者具有明显的相关性。如果作一坐标旋转,取z1和z2为新坐标轴。在新坐标系中,n个样品点的新坐标的相关性很小,几乎为0;n个点的方差大部分归结为z1的方差,而z2的方差很小,故用z1就可以反映变量的大部分信息;z1和z2与x1和x2之间的关系为:11111222211222zlxlxzlxlx将以上结果推广到m维的情况,设有n个样品,每个样品有m个变量,经过适当的线性组合,可以得到m个新变量:11111221221122221122mmmmmmmmmmzlxlxlxzlxlxlxzlxlxlx系数ijl由下列原则决定(1)iz与jz(,,1,2,,ijijm)互相无关;(2)z1是原始变量12,,,mxxx的一切线性组合中方差最大的;z2与z1不相关且除z1外在原始变量12,,,mxxx的一切线性组合中方差最大;……;zm与121,,,mzzz不相关且除121,,,mzzz外在原始变量12,,,mxxx的一切线性组合中方差最大。这样确定的新变量12,,,mzzz称为原始变量的第一,第二,……,第m主成分,其中z1在总的方差中占的比例最大,其余的23,,,mzzz的方差依次递减,其重要性也依次减小,这样就可以取前面少数几个主成分对样本数据的主要性质进行分析。第二节主成分分析的计算步骤找主成分就是确定原始变量12,,,mxxx在诸主成分12,,,mzzz上的载荷ijl。从数学上可以得到证明,它们分别是12,,,mxxx的相关矩阵中较大特征值所对应的特征向量。根据主成分分析的基本思想和基本原理,可以把主成分分析的计算步骤归纳如下:1、对地理数据进行标准化处理。由于变量的量纲的数值的差别,在做主成分分析时,需要对变量进行标准化处理,常用的标准化处理方法是标准差标准化法。设原始数据为n个样品,每个样品p个观察值组成的矩阵。2、计算相关系数矩阵R3、计算特征值和特征向量4、计算贡献率和累计贡献率5、计算主成分载荷6、计算主成分得分第三节主成分分析在PASWStatistics中的实现表13-1给出了某农业生态经济系统各个区域单元的有关数据,下面我们对这个农业生态经济做主成分分析,得出维度较少的几个代表性因子。表13-1某农业生态经济系统各个区域单元的有关数据样本序号人口密度x1/(人·.km-2)人均耕地面积x2/hm2)森林覆盖率x3/%农民人均纯收入x4/(元·人-1)人均粮食产量x5(kg·人-1)经济作物占农作物播面比例x6/%耕地占土地面积比率x7/%果园与林地面积之比x8/%灌溉田占耕地面积之比x9/%1363.9120.35216.101192.110295.34026.72418.4922.23126.2622141.5031.68424.3011752.350452.26032.31414.4641.45527.0663100.6951.06765.6011181.540270.12018.2660.1627.47412.4894143.7391.33633.2051436.120354.26017.48611.8051.89217.5345131.4121.62316.6071405.090586.59040.68314.4010.30322.932668.3372.03276.2041540.290216.3908.1284.0650.0114.861795.4160.80171.106926.350291.5208.1354.0630.0124.862862.9011.65273.3071501.240225.25018.3522.6450.0343.201986.6240.84168.904897.360196.37016.8615.1760.0556.1671091.3940.81266.502911.240226.51018.2795.6430.0764.4771176.9120.85850.302103.520217.09019.7934.8810.0016.1651251.2741.04164.609968.330181.3804.0054.0660.0155.4021368.8310.83662.804957.140194.0409.1104.4840.0025.7901477.3010.62360.102824.370188.09019.4095.7215.0558.4131576.9481.02268.0011255.420211.55011.1023.1330.0103.4251699.2650.65460.7021251.030220.9104.3834.6150.0115.59317118.5050.66163.3041246.470242.16010.7066.0530.1548.70118141.4730.73754.206814.210193.46011.4196.4420.01212.94519137.7610.59855.9011124.050228.4409.5217.8810.06912.65420117.6121.24554.503805.670175.23018.1065.7890.0488.46121122.7810.73149.1021313.110236.29026.7247.1620.09210.078注:数据来源于徐建华《计量地理学》(2006年第1版)PASWStatistics中的实现步骤:步骤1:在“分析”菜单的“降维”子菜单中选择“因子分析”命令,如图11-1所示。图11-1菜单中选择“因子分析”命令步骤2:在弹出的如图11-2所示的“因子分析”对话框中,从左侧的变量列表中选择这9个变量,添加到“变量”框中。步骤3:单击“描述”按钮,弹出“因子分析:描述统计”对话框,如图13-3所示。图11-2“因子分析”对话框图11-3“因子分析:描述统计”对话框“统计量”框用于选择输出哪些相关的统计量,选项如下。★单变量描述性:要求输出各变量的平均数与标准差。★原始分析结果:表示输出初始分析结果。输出的是因子提取前分析变量的公因子方差,是一个中间结果。对主成分分析来说,这些值是要进行分析变量的相关或协方差矩阵的对角元素;对因子分析模型来说,输出的是每个变量是否合适作因子分析的检验方法。“相关矩阵”框中提供了以下几种变量是否适合作因子分析的方法。★系数:要求计算相关系数矩阵★显著性水平:选择此项给出每个相关系数的单尾假设检验的水平。★行列式:相关系数矩阵的行列式。★逆模型:相关系数矩阵的逆矩阵★再生:再生相关阵。选择此项给出因子分析后的相关阵,还给出残差,即原始相关与再生相关之间的差值。★反映像:反映像相关矩阵检验。反映像相关阵,包括偏相关系数的取反;反映像协方差阵,偏协方差的取反。★KMO和Bartlett的球形度检验:即KMO检验和巴特利特球形检验。KMO检验,检验变量间的偏相关是否很小;巴特利特球形检验,检验相关阵是否为单位阵。在本例中,选择该对话框中所有选项。单击“继续”,返回“因子分析”对话框。步骤4:单击“抽取”按钮,弹出“因子分析:抽取”对话框,选择因子提取方法。如图11-4所示。图11-4“因子分析:抽取”对话框因子提取方法在“方法”下拉框中选取,PASWStatistics提供了7种方法。★主成份(主成分分析法)★未加权最小平方法★综合最小平方法★最大似然(极大似然估计法)★主轴因子分解(主轴因子法)★α因子分解(α因子法)★映像因子分解(映像因子提取法)“分析”框用于选择提取因子变量的依据,选项如下:★相关性矩阵:表示依据相关系数矩阵★协方差矩阵:表示依据协方差矩阵“抽取”框用于指定因子个数的标准,选项如下。★基于特征值:表示该选项下面“特征值大于”后面文本框中可以输入一个特征值,PASWStatistics将提取特征值大于该值的因子,PASWStatistics默认为1。指定特征值提取因子个数是PASWStatistics默认的方法。★因子的固定数量:表示该选项下面“要提取的因子”后面文本框中可以输入要提取因子的个数。PASWStatistics将提取指定个数的因子。“输出”框用于选择哪些与因子提取有关的信息,选项如下。★未旋转的因子解:输出未经旋转的因子载荷矩阵★碎石图:输出因子与其特征值的碎石图,按特征值大小排列。“最大收敛性迭代次数”框用于指定因子分析收敛的最大迭代次数,系统默认的最大迭代次数为25。本例选用“主成份”方法,选择相关系数矩阵作为提取因子变量的依据。选中“未旋转的因子解”和“碎石图”项,输出未经旋转的因子载荷矩阵和因子与其特征值的碎石图;选择“基于特征值”项,在该选项的后面输入“1”,指定提出特征值大于1的因子。单击“继续”按钮,返回“因子分析”对话框步骤5:单击“因子分析”对话框中的“旋转”按钮,弹出“因子分析:旋转”对话框,如图11-5所示。该对话框用于选择因子载荷矩阵的旋转方法。旋转的目的是为了简单化结构,以帮助我们解释因子。PASWStatistics默认不进行旋转(无)。“方法”框用于选择因子旋转方法,选项出。★无:不作因子旋转★最大方差法:方差极大法旋转,又称正交旋转。★直接Oblimin方法:直接斜交旋转★最大四次方值法:四分最大正交旋转★最大平衡值法:平均正交旋转★Promax:斜交旋转方法“输出”框用于选择输出哪些与因子旋转有关的信息,选项如下。★旋转解:输出旋转后的因子载荷矩阵★载荷图:输出载荷散点图本例选择方差极大法旋转“最大方差法”,并选中“旋转解”和“载荷图”项,表示输出旋转后的因子载荷矩阵和载荷散点图。单击“继续”按钮,返回“因子分析”对话框步骤6:单击“因子分析”对话框中的“得分”按钮,弹出“因子分析:因子得分”对话框,如图11-6所示。图11-5“因子分析:旋转”对话框图11-6“因子分析:因子得分”对话框该对