第八章地理系统要素关系的主成分分析地理工作者在地理系统的区域构成分析中,常常用多个指标来分析、比较各个地理区域的特征和“职能”,为地理区域类型的划分和制定区域发展战略提供依据。但由于指标多会增加分析问题的复杂性,能否通过某些线性组合,使原始变量减少为有代表意义的少数几个新的变量,以少数几个指标或“成分”来代表多数指标?这是对地理系统进行分析的关键问题。例如在环境研究中,需要对许多环境要素进行观测;在土地资源研究中,需要对土壤样品进行多指标的分析化验。而这些要素和指标之间,常存在密切关系,要考察全部要素和测试指标,常常要做大量重复的工作。例如有30测试指标,也许10多种指标即可代表。由此可见减少研究的要素,使系统简化,是地理学研究中的重要环节。事实上,如果复杂的地理系统,不加以任何简化,不抓住对地理系统影响的主要矛盾,要对之进行深入的研究,几乎是不可能的。本章介绍主成分分析方法就是解决上述问题的数学方法。§1主成分分析方法原理主成分分析是把原来多个指标化为少数几个综合指标的一种统计方法,达到降维和去相关目的,既由多个变量变换为少数几个相互独立的综合变量。主成分分析也称K-L变换。因子分析不仅可以用来研究变量之间的相关关系,还可用来研究样品之间的相关关系,通常将前者称之为R型因子分析,后者称之为Q型因子分析。假设有n个地理样本,每个样本观测p个指标,如何从这么多指标的数据中抓住地理事物的内在规律性呢?如前所述,多数情况下,指标之间存在着相关关系,这时要弄清它们的规律须在p维空间中加以考察,这是比较麻烦的。为了克服这一困难,一个自然的想法是找比较少的综合指标来代表原来较多的指标,而这些较少的综合指标既能尽量多地反映原来较多指标的信息,它们彼此之间又是独立的。综合指标如何选取呢?通常是取原指标的线性组合,适当调它们的系数,使综合指标之间相互独立且代表性最好。记原来的变量指标为12,...,pxxx,综合指标(新综合变量)为12,,...,mzzz(mp)即pmpmmmppppxlxlxlzxlxlxlzxlxlxlz2211222121212121111可以要求22212...1kkkplll(单位向量)以限制iz取值大小,利于对比。系数ijl由下列原则来决定:(1)iz与jz(,,1,2,...,)ijijm互相无关(独立);(2)1z是12,...,pxxx的一切线性组合中方差最大者;2z为与1z不相关的12,...,pxxx的所有线性组合中方差最大者;…mz为与121,,...,mzzz都不相关的12,...,pxxx的所有线性组合中方差最大者。12,,...,mzzz分别称做原指标的第一,第二,…,第m个主成分。1z在总方差中占的比例最大,其余主成分2,...,mzz所占方差比例依次递减。从几何上看,找主成分的问题,就是找出p维空间中椭球体的主轴问题,从数学上容易得到它们是12,...,pxxx的相关矩阵中m个较大特征值对应的特征向量。也就是说寻找这样的坐标系旋转角,使得样本点在新坐标系中对主成分轴上的投影具有极大的方差。主成分分析的实质就是要求出方差—协方差矩阵的特征向量及其对应的特征值,即要找出方差—协方差矩阵所确定的椭球的主轴,并确定其长度。由于提取主成分的主要原则是使方差最大,为了排除量纲、数量级的影响,对原始数据先进行标准化处理(标准差标准化),这样方差—协方差矩阵即为相关系数矩阵。计算步骤:(1)计算相关系数矩阵R(原始数据已进行标准化处理变换,也就是方差—协方差矩阵)(2)计算特征值和特征向量0IR求出特征值,按大小排序12...0;p然后,求出对应的特征向量12,,...,Tiiiiplllli=1,2,…,p(3)计算主成分贡献率和累积贡献率可以证明:1z的方差等于1;2z的方差等于2;…pz的方差等于p;主成分iz的贡献率1pikki=1,2,…,p累积贡献率11pmkkkk一般取累积贡献率达85-90%的特征值12,,...,m()mp对应的主成分即可。(4)计算主成分载荷(,)kkikiiilpzxS(i=1,2,..,p;k=1,2,…,m)ikp是主成分kz与变量ix之间的相关系数(5)计算主成分得分**22*11*2*222*1212*1*212*1111pmpmmmppppxlxlxlZxlxlxlZxlxlxlZ*ix是ix标准差标准化后的数据得到主成分得分矩阵nmnnmmZZZZZZZZZ212222111211主成分几大性质:性质1:主成分的协方差矩阵对角阵性质2:主成分的总方差等于原始变量的总方差:性质3:(,)kkikiiilpzxS(i=1,2,..,p;k=1,2,…,m)ikp是主成分kz与变量ix之间的相关系数§2因子分析法对p个变量进行因子分析的目的是研究它们有哪些共同因素,哪些是特殊因素,这些因素在变量分析中起什么作用。为研究方便,设着p个变量已进行标准差标准化变换,记为12,,...,pxxx,或表示为向量形式12(...)pXxxx。上述的p个因子(变量)会有一些共同因素,这些共同因素称为公共因子,记为12,,...,mfff(公共因子数目m通常要比原因子个数p要少),也可记为向量形式12(...)mFfff。对每一因子,除了可以有一些公共因素的部分外,还有一些自身特殊因素,称为特殊因子。因而因子模型可表示为下面形式:对第k个因子kx有1122...kkkkmmkxafafafu式中12,,...kkkmaaa称为m个公共因子的荷载,ku为第k个因子的特殊部分。U为特殊因子向量,记为12(...)pUuuu因子模型的向量形式为XAFU式中矩阵A为因子荷载,记为111212122212..........................mmpppmaaaaaaAaaa为求得矩阵A,对模型还要作些假定(样本容量为n):(1)公共因子部分与特殊因子部分是无关的110FUUFnn(2)公共因子是标准化变量,不同公共因子之间无关,即公共因子之间的协方差矩阵为单位阵1FFIn(3)各特殊因子之间是无关的,第k个特殊因子的方差为2kkc,它们的协方差阵为C1UUCn在上述假定下,p个变量之间的相关阵可表为11()()RXXAFUAFUnn由上述假定RAAC上述矩阵中的第k行第k列元素为212kkmjkjkkcar该式表明第k个变量的方差可表示为公共性部分的方差和特殊性部分的方差之和。记公共性部分的方差为221mkkjjha2kh称为第k个变量的公共性,它反映了第k个变量被公共因子所解释的那部分方差。从几何意义上来说,因子模型中的因子荷载kja可看成为第k个变量在m个公共因子空间中第j个因子轴上的投影,变量数据可看成为在该空间中的一个向量;2kh可看成为第k个变量在该空间中的向量长度的平方。kx作了标准化处理,kx与jf的协方差cov(,)kjxf就是第k个变量与第j个公共因子之间的相关系数kjr。即11cov(,)cov,cov,cov(,)mkjkiikjimkiijkjikjxfaffafffa由以上假定得知,cov(,)kjkjxfkjxfra经常地,对F进行正交变换后,得到新矩阵的各分量仍然不相关,各自方差仍然为1(斜交变换后不能保证各分量独立性,各自方差也不为1)。旋转以后得到的因子,有时它的实际意义比较明显。例如,可经旋转变换,使得荷载矩阵中的每一行的数值尽可能两极化(接近1或0),这样有利于发现公因子的实际意义。例子:以各个城市第三产业发展水平评价为例:选用20个指标:1x:人口数2x:GDP3x:第三产业增加值4x:货用总量5x:批、零、贸商品销售总额6x:外贸收购总额7x:年末银行贷款总额8x:社会零售的物价指数9x:实际利用外资10x:万名职工中科技人员的人数11x:旅游外汇收入12x:第三产业就业比例13x:邮电业务总量14x:职工人均工资15x:人口数人均居住面积16x:用水普及率17x:煤气普及率18x:人均道路面积19x:人均公共绿地面积20x:政策体制对上述指标进行因子分析,从旋转后因子荷载矩阵来看,五个因子意义比较明确,也就是将五个因子分成五大类:1、第三产业的基本经济因子1x2x3x4x5x6x7x9x11x12x13x2、基础环境因子15x16x17x18x19x3、政策性因子8x14x20x4、人员素质因子10x5、补充因子§3典型相关分析典型相关分析是研究两组变量之间相关关系的一种多元统计方法。它能够揭示出两组变量之间的内在联系。一元统计分析中,(偏)相关系数来衡量两个随机变量的线性相关关系;用复相关系数来衡量一个随机变量与多个随机变量的线性相关关系。不能用于研究两组变量之间相关关系。比如生理指标与训练指标的关系、居民生活环境与健康状况的关系、人口统计变量与消费变量之间的关系等。典型相关分析由霍特林提出,其基本思想与主成分分析非常相似。首先在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。然后选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此继续下去,直到两组变量之间的相关性被提出完毕为止。被选取的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。典型相关系数度量了这两组变量之间联系的强度。§4对应(相应)分析对应分析是R型因子分析与Q型因子分析的结合,它也是利用降维的思想以达到简化数据结构的目的,不过,与因子分析不同的是,它同时对数据表中的行与列进行处理,寻求以低维图形表示数据表中行与列之间的关系。对应分析的思想首先由理查森(Richardson)和库德(Kuder)在1933年提出,后来法国统计学家让一保罗·贝内泽(Jean—PaulBenzkcri)和日本统计学家林知己夫(HayashiChikio)对该方法进行了详细的论述而使其得到了发展。对应分析方法广泛用于对由属性变量构成的列联表数据的研究,利用对应分析可以在一张二维图上同时画出属性变量不同取值的情况,列联表的每一行及每一列均以二维图上的一个点来表示,以直观、简洁的形式描述属性变量各种状态之间的相互关系及不同属性变量之间的相互关系。由于对应分析是在R型因子分析和Q型因子分析基础上发展起来的一种多元统计分析方法,它把两种因子分析结合起来,对变量和样品统一进行分析研究,因而更有利于地质学等一些领域解释应用。如前所述,两种因子分析都可以用少数几个公因子去提取研究对象的绝大部分信息,因而,不仅简化了原有的观测系统,抓住了控制原有观测数据的主要矛盾,而且通过研究公因子的特征,比较容易揭示研究对象在成因上或空间上的联系,也就便于直接进行地质解释和逻辑推断。但是,R型因子分析与Q型因子分析把变量与样品孤立起来分析,割断了它们的联系,这将会漏掉许多有用的地质信息。事实上,对于同一个地质问题,往往需要同时研究地质成因和不同类型样品的地质特征,前者要通过对样品的研究,而后者则是通过对变量的分析,才能得到合理的地质解释。这说明两种因子分析是同一问题的不可分割的两个部分。另外,样品的数目一般远远大于变量的数目,在进行Q型因子分析时,样品的相似矩阵占用大量的内存,这对于一般的微型计算机来说是难以胜任的。还有一个问题就是不能对变量和样品用同一种标准化方法进行处理,这就给寻找R型与Q型因子分析之间的联系带来了困难。鉴于上述原因,在R型因子分析和Q型因子分析的基础上产生了对应分析。它的主要优点是可由R型因子分析的结果,很容易地导出Q型因子分析结果,从而克服了Q型因子分析受计算机内存容量的限制并提高了计算速度,更重要的是把变量和样品