[计算机软件及应用]主成分分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第5节主成分分析主成分分析的基本原理主成分分析的计算步骤主成分分析方法应用实例图地理数据立方体地理系统是多要素的复杂系统。在地理学研究中,多变量问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。因此,人们会很自然地想到,能否在相关分析的基础上,用较少的新变量代替原来较多的旧变量,而且使这些较少的新变量尽可能多地保留原来变量所反映的信息?问题的提出:例对安徽省进行综合开发与治理。战略目标O1——资源开发;O2——发展农林牧生产;O3——改善生态环境,力争达到良性循环。发展战略C1——发展统配煤矿;C2——发展地方、乡镇煤矿;C3——发展电力工业;C4——发展重工业、化工、电子工业;C5——发展地方工业、乡镇企业;C6——发展粮食生产;C7——建设肉蛋奶基地;C8——建设果品蔬菜基地;C9——水土保持;C10——环境治理。制约因素S1——运输能力低下;S2——资金严重不足;S3——人力、技术力量(包括技术工人、工程技术人员、科研人员、教员等)缺乏;S4——水资源不足;S5——地方乡镇经济不发达;S6——粮食及农副畜产品供应紧张;S7——水土流失,水污染严重;S8——厂矿建设要占用大部分良田。方针措施P1——引入国外资金,引进技术;P2——国家投资;P3——地方集资;P4——现有水资源开发节流,合理使用;P5——引水;P6——开发地下水;P7——种草种树,发展畜牧;P8——加强农田基建,提高单产;P9——对可能污染环境的厂矿,提前采取措施;P10——各省内自行解决人才、技术问题;P11——从全国引进人才,引进技术;P12——本地区自行解决人才、技术问题;P13——各省内解决农副畜产品供应问题;P14——地方解决粮食供应;P15——省内解决粮食供应;P16——从全国调入粮食;P17——改善公路运输条件,新建公路;P18——修建铁路;P19——对重点工矿,加强水保工作及沙化治理。事实上,这种想法是可以实现的,主成分分析方法就是综合处理这种问题的一种强有力的工具。主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。从数学角度来看,这是一种降维处理技术。主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标。同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来的指标的信息。一、主成分分析的基本原理假定有n个地理样本,每个样本共有p个变量,构成一个n×p阶的地理数据矩阵npnnppxxxxxxxxxX212222111211(3.5.1)当p较大时,在p维空间中考察问题比较麻烦。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息,同时它们之间又是彼此独立的。主成分分析就是通过适当的变量替换,使新变量成为原变量的线性组合,并寻求主成分来分析事物的一种方法.定义:记x1,x2,…,xP为原变量指标,z1,z2,…,zm(m≤p)为新变量指标(3.5.2)系数lij的确定原则:①zi与zj(i≠j;i,j=1,2,…,m)相互无关;②z1是x1,x2,…,xP的一切线性组合中方差最大者,z2是与z1不相关的x1,x2,…,xP的所有线性组合中方差最大者;…;zm是与z1,z2,……,zm-1都不相关的x1,x2,…xP,的所有线性组合中方差最大者。则新变量指标z1,z2,…,zm分别称为原变量指标x1,x2,…,xP的第1,第2,…,第m主成分。主成分分析的几何解释2121212211cossinsincoscossinsincosxxyyxxyxxyx1x2y1y2旋转变换的目的是为了使得n个样本点在y1轴方向上的离散程度最大,即y1的方差最大,变量y1代表了原始数据的绝大部分信息,在研究某地理问题时,即使不考虑变量y2也损失不多的信息。Y1与y2除起了浓缩作用外,还具有不相关性。Y1称为第一主成分,y2称为第二主成分。从以上的分析可以看出,主成分分析的实质就是确定原来变量xj(j=1,2,…,p)在诸主成分zi(i=1,2,…,m)上的荷载lij(i=1,2,…,m;j=1,2,…,p)。从数学上可以证明,它们分别是相关矩阵m个较大的特征值所对应的特征向量。成绩数据(student.sav)100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。从本例可能提出的问题目前的问题是,能不能把这个数据的6个变量用一两个综合变量来表示呢?这一两个综合变量包含有多少原来的信息呢?能不能利用找到的综合变量来对学生排序呢?这一类数据所涉及的问题可以推广到对企业,对学校进行分析、排序、判别和分类等问题。-4-2024-4-2024先假定只有二维,即只有两个变量,它们由横坐标和纵坐标所代表;因此每个观测值都有相应于这两个坐标轴的两个坐标值;如果这些数据形成一个椭圆形状的点阵(这在变量的二维正态的假定下是可能的)推广开来,对于p维总体,寻求正交变换,使得在所有正交变换中,所选正交矩阵U,使最大;与不相关;并且在所有与不相关的变量中最大;与、不相关,同时在所有与、不相关的变量中最大;依次类推。为的主成分总体,为第一主成分,为第二主成分。。。n,,,21ppijuU)(pjjppjjpjjppuuuUUU112112121)(1D2111)(2D3221)(3DU12主成分分析的数学原理对原有变量作坐标变换,其中:ppppppppppxuxuxuzxuxuxuzxuxuxuz...............22112222112212211111jijiiiiipkkkUxDUzzUxDUxDUzuuu)(),cov()()()var(1...222221如果z1=u1’x满足①②则称z1为x的第一主成分。若z1不足以代表原变量所包含的信息,就考虑采用z2。Z2满足①②③Z2为第二主成分111uu)var(max)var(1xuz0),cov(21zz122uu)var(max)var(2XUz主成分总体存在的必要条件对于P维总体,其主成分总体存在的必要条件是,相应正交矩阵U满足条件其中p,...,21U0ipiUIEpiiipiiiDUUUU2121)(),,,(证明:pppppjijijijippdiagDDDdiagDDDjiDDDU2121212121,,,),cov(0),cov(,,的协方差矩阵与的协方差与互不相关且的主成分总体为0221121212121ipiiiipppppptUIUUUUUUUUUUUUUUUUUUUUUUEUUEEU的协方差矩阵又xAx0)(xIA对比从公式的计算推导可以发现:主成分方程中的系数向量U恰好是原有变量协方差矩阵的特征向量;其特征根是主成分的方差。ppppppppppxuxuxuzxuxuxuzxuxuxuz...............22112222112212211111量纲对于主成分分析的影响及消除方法对数据进行标准化处理,以使每一个变量的均值为0,方差为1。iiiiDE*数据标准化后,总体的协方差矩阵与总体的相关系数相等.),cov()()(),cov())(())())(((),cov(**************jijijiijjijjiijiDDEEEE二、主成分分析的计算步骤(一)计算相关系数矩阵rij(i,j=1,2,…,p)为原变量xi与xj的相关系数,rij=rji,其计算公式为pppppprrrrrrrrrR212222111211(3.5.3)nknkjkjikinkjkjikiijxxxxxxxxr11221)()())(((3.5.4)定义设A是一个n阶方阵,若存在着一个数和一个非零n维向量x,使得则称是方阵A的特征值,非零向量x称为A对应于特征值的特征向量,或简称为A的特征向量。xAx(二)计算特征值与特征向量回顾一下:特征值与特征向量的求法可改写为这实际上是一个n个未知数n个方程的齐次线性方程组,特征向量可看成是它的一个非零解。而此齐次线性方程组有非零解的充要条件是,即(称为方阵A的特征方程)xAx0)(xIA0IA0212222111211nnnnnnaaaaaaaaa从A的特征方程中解出的值就是A的特征值。然后通过求解方程组就可以求出A的特征向量。0)(xIA(二)计算特征值与特征向量①解特征方程,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列;雅可比算法主要是通过正交相似变换将一个实对称矩阵对角化,从而求出该矩阵的全部特征值和对应的特征向量。因此可以用一系列的初等正交变换逐步消去A的非对角线元素,从而使矩阵A对角化.0RI021p②分别求出对应于特征值的特征向量,要求=1,即,其中表示向量的第j个分量。i),,2,1(pieiie112pjijeijeie③计算主成分贡献率及累计贡献率贡献率),,2,1(1pipkki累计贡献率),,2,1(11pipkkikk一般取累计贡献率达85%-95%的特征值所对应的第1、第2、…、第m(m≤p)个主成分。m,,,21④计算主成分载荷⑤各主成分的得分),,2,1,(),(pjiexzplijijiij(3.5.5)nmnnmmzzzzzzzzzZ212222111211(3.5.6)三、主成分分析方法应用实例下面,我们根据表3.5.1给出的数据,对某农业生态经济系统做主成分分析。样本序号人口密度x1/(人.km-2)人均耕地面积x2/hm2森林覆盖率x3/%农民人均纯收入x4/(元.人-1)人均粮食产量x5/(kg.人-1)经济作物占农作物播面比例x6/%耕地占土地面积比率x7/%果园与林地面积之比x8/%1363.9120.35216.101192.11295.3426.72418.4922.2312141.5031.68424.3011752.35452.2632.31414.4641.4553100.6951.06765.6011181.54270.1218.2660.1627.4744143.7391.33633.2051436.12354.2617.48611.8051.8925131.4121.62316.6071405.09586.5940.68314.4010.303表3.5.1某农业生态经济系统各区域单元的有关数据668.3372.03276.2041540.29216.398.1284.0650.0114.861795.41

1 / 47
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功