计量地理学11第十一章 主成分分析2011

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第十一章主成分分析第十一章主成分分析主成分分析的基本原理主成分分析的计算步骤主成分分析的软件实现主成分分析方法应用实例主成分-回归分析的综合地理系统是多要素的复杂系统。在地理学研究中,多变量问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。因此,人们会很自然地想到,能否在相关分析的基础上,用较少的新变量代替原来较多的旧变量,而且使这些较少的新变量尽可能多地保留原来变量所反映的信息?问题的提出:事实上,这种想法是可以实现的,主成分分析方法就是综合处理这种问题的一种强有力的工具。主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。从数学角度来看,这是一种降维处理技术。一、主成分分析的基本原理假定有n个地理样本,每个样本共有p个变量,构成一个n×p阶的地理数据矩阵npnnppxxxxxxxxxX212222111211(3.5.1)当p较大时,在p维空间中考察问题比较麻烦。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息,同时它们之间又是彼此独立的。定义:记x1,x2,…,xP为原变量指标,z1,z2,…,zm(m≤p)为新变量指标pmpmmmppppxlxlxlzxlxlxlzxlxlxlz22112222121212121111............(3.5.2)系数lij的确定原则:①zi与zj(i≠j;i,j=1,2,…,m)相互无关;②z1是x1,x2,…,xP的一切线性组合中方差最大者,z2是与z1不相关的x1,x2,…,xP的所有线性组合中方差最大者;…;zm是与z1,z2,……,zm-1都不相关的x1,x2,…xP,的所有线性组合中方差最大者。则新变量指标z1,z2,…,zm分别称为原变量指标x1,x2,…,xP的第1,第2,…,第m主成分。从以上的分析可以看出,主成分分析的实质就是确定原来变量xj(j=1,2,…,p)在诸主成分zi(i=1,2,…,m)上的荷载lij(i=1,2,…,m;j=1,2,…,p)。从数学上可以证明,它们分别是相关矩阵m个较大的特征值所对应的特征向量。二、主成分分析的计算步骤(一)计算相关系数矩阵rij(i,j=1,2,…,p)为原变量xi与xj的相关系数,rij=rji,其计算公式为pppppprrrrrrrrrR212222111211(3.5.3)nknkjkjikinkjkjikiijxxxxxxxxr11221)()())(((3.5.4)(二)计算特征值与特征向量①解特征方程,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列;0RI021p②分别求出对应于特征值的特征向量,要求=1,即,其中表示向量的第j个分量。i),,2,1(pieiie112pjijeijeie③计算主成分贡献率及累计贡献率贡献率),,2,1(1pipkki累计贡献率),,2,1(11pipkkikk一般取累计贡献率达85%~95%的特征值所对应的第1、第2、…、第m(m≤p)个主成分。m,,,21④计算主成分载荷⑤各主成分的得分),,2,1,(),(pjiexzplijijiij(3.5.5)nmnnmmzzzzzzzzzZ212222111211(3.5.6)三、主成分分析的软件实现ComponentMatrixa.739-.532-.061.123.887-.028-.964.096.095.042.868.037.813.444-.011.819.179.125.933-.133-.251.197-.100.970.964-.025.092x1x2x3x4x5x6x7x8x9123ComponentExtractionMethod:PrincipalComponentAnalysis.3componentsextracted.a.F1F2F3表示:Fj与Xi的相关系数四、主成分分析方法应用实例实例1下面,我们根据表3.5.1给出的数据,对某农业生态经济系统做主成分分析。样本序号人口密度x1/(人.km-2)人均耕地面积x2/hm2森林覆盖率x3/%农民人均纯收入x4/(元.人-1)人均粮食产量x5/(kg.人-1)经济作物占农作物播面比例x6/%耕地占土地面积比率x7/%果园与林地面积之比x8/%1363.9120.35216.101192.11295.3426.72418.4922.2312141.5031.68424.3011752.35452.2632.31414.4641.4553100.6951.06765.6011181.54270.1218.2660.1627.4744143.7391.33633.2051436.12354.2617.48611.8051.8925131.4121.62316.6071405.09586.5940.68314.4010.303表某农业生态经济系统各区域单元的有关数据668.3372.03276.2041540.29216.398.1284.0650.0114.861795.4160.80171.106926.35291.528.1354.0630.0124.862862.9011.65273.3071501.24225.2518.3522.6450.0343.201986.6240.84168.904897.36196.3716.8615.1760.0556.1671091.3940.81266.502911.24226.5118.2795.6430.0764.4771176.9120.85850.302103.52217.0919.7934.8810.0016.1651251.2741.04164.609968.33181.384.0054.0660.0155.4021368.8310.83662.804957.14194.049.114.4840.0025.791477.3010.62360.102824.37188.0919.4095.7215.0558.4131576.9481.02268.0011255.42211.5511.1023.1330.013.4251699.2650.65460.7021251.03220.914.3834.6150.0115.59317118.510.66163.3041246.47242.1610.7066.0530.1548.70118141.470.73754.206814.21193.4611.4196.4420.01212.94519137.760.59855.9011124.05228.449.5217.8810.06912.65420117.611.24554.503805.67175.2318.1065.7890.0488.46121122.780.73149.1021313.11236.2926.7247.1620.09210.078步骤如下:(1)将表3.5.1中的数据作标准差标准化处理,然后将它们代入公式(3.5.4)计算相关系数矩阵(表3.5.2)。x1x2x3x4x5x6x7x8x9x11-0.327-0.714-0.3360.3090.4080.790.1560.744x2-0.331-0.0350.6440.420.2550.009-0.0780.094x3-0.71-0.03510.07-0.74-0.755-0.93-0.109-0.924x4-0.340.6440.0710.3830.069-0.05-0.0310.073x50.3090.42-0.740.38310.7340.6720.0980.747x60.4080.255-0.7550.0690.73410.6580.2220.707x70.790.009-0.93-0.0460.6720.6581-0.030.89x80.156-0.078-0.109-0.0310.0980.222-0.0310.29x90.7440.094-0.9240.0730.7470.7070.890.291表3.5.2相关系数矩阵(2)由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率(表3.5.3)。由表3.5.3可知,第1,第2,第3主成分的累计贡献率已高达86.596%(大于85%),故只需要求出第1、第2、第3主成分z1,z2,z3即可。主成分特征值贡献率/%累计贡献率/%z14.66151.79151.791z22.08923.21675.007z31.04311.58986.596z40.5075.63892.234z50.3153.50295.736z60.1932.1497.876z70.1141.27199.147z80.04530.50499.65z90.03150.35100表3.5.3特征值及主成分贡献率(3)对于特征值=4.6610,=2.0890,=1.0430分别求出其特征向量e1,e2,e3,再用公式(3.5.5)计算各变量x1,x2,…,x9在主成分z1,z2,z3上的载荷(表3.5.4)。z1z2z3占方差的百分数/%x10.739-0.532-0.006182.918x20.1230.887-0.002880.191x3-0.9640.00960.009592.948x40.00420.8680.003775.346x50.8130.444-0.001185.811x60.8190.1790.12571.843x70.933-0.133-0.25195.118x80.197-0.10.9798.971x90.964-0.00250.009292.939表3.5.4主成分载荷上述计算过程,可以借助于SPSS或Matlab软件系统实现。(1)第1主成分z1与x1,x5,x6,x7,x9呈现出较强的正相关,与x3呈现出较强的负相关,而这几个变量则综合反映了生态经济结构状况,因此可以认为第1主成分z1是生态经济结构的代表。(2)第2主成分z2与x2,x4,x5呈现出较强的正相关,与x1呈现出较强的负相关,其中,除了x1为人口总数外,x2,x4,x5都反映了人均占有资源量的情况,因此可以认为第2主成分z2代表了人均资源量。分析:显然,用3个主成分z1、z2、z3代替原来9个变量(x1,x2,…,x9)描述农业生态经济系统,可以使问题更进一步简化、明了。(3)第3主成分z3与x8呈现出的正相关程度最高,其次是x6,而与x7呈负相关,因此可以认为第3主成分在一定程度上代表了农业经济结构。(4)另外,表3.5.4中最后一列(占方差的百分数),在一定程度上反映了3个主成分z1、z2、z3包含原变量(x1,x2,…,x9)的信息量多少。实例2-0.20000.00000.20000.40000.60000.80001.0000198019851990199520002005人口综合发展指数资源环境综合指数人口-资源环境协调发展度多项式(人口综合发展指数)多项式(资源环境综合指数)多项式(人口-资源环境协调发展度)图119985-2004年中国人口、资源环境综合指数及其协调度变动y=-0.0027x2+10.838x-10852R2=0.9118-0.20000.00000.20000.40000.60000.80001.0000198019851990199520002005年份人口综合发展指数图219985-2004年中国人口综合指数发展变动y=-0.001x2+3.8247x-3786.2R2=0.933-0.2

1 / 76
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功