主成分分析方法

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

主成分分析方法主成分分析的基本原理主成分分析的计算步骤主成分分析方法应用实例主成分分析(PrincipalComponentsAnalysis)是由Hotelling于1933年首先提出的,它是利用降维的思想,把多指标转化为少数几个综合指标的多元统计分析方法。从数学角度来看,这是一种降维处理技术。主成分分析的目的与功能在多变量分析中,分析者所面临的最大难题是解决众多变量之间的关系问题。进行数据降维可以用尽可能少的新指标取代原来较多的指标变量,并能包含原来指标变量所包含的大部分信息。解决多元回归分析中的多重共线性问题。综合评价中,人们总是尽可能多地选取评价指标,而这些评价指标之间往往相互重叠,信息冗余是不可避免的。主成分分析则可以把这众多指标所蕴含的信息压缩到少数几个主成分指标,然后给出这几个主成分指标的权重,综合到一个评价指标中。主成分的主要功能数据降维(DimensionReduction)变量筛选(VariablesScreening)一、数据处理采集m维随机向量x=(x1,x2,…,xm)T的n个样品xi=(xi1,xi2,…,xim)T,i=1,2,…,n,nm,构造样本阵Xx1Tx11x12┅x1mx2Tx21x22┅x2mX=┇=┇┇┇xnTxn1xn2┅xnm1.对样本阵X中的元进行如下变换xij,对正指标Yij=-xij,对逆指标得Y=Yijn×p2对Y中元进行如下标准化变换ijjjyyijs1,2,,;1,2,,injm其中得标准化矩阵Z:2211,1nnijijjiijjyyyysnnZ=z1Tz11z12┅z1mz2T=z21z22┅z2m┇┇┇┇znTzn1zn2┅znm一、主成分分析的基本原理假定有n个样本,每个样本共有m个变量,构成一个n×m阶的数据矩阵(标准化后的数据)111212122212mmnnnmxxxxxxXxxx(3.5.1)当m较大时,在m维空间中考察问题比较麻烦。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息,同时它们之间又是彼此独立的。定义:记x1,x2,…,xm为原变量指标,F1,F2,…,Fp(p≤m)为新变量指标11111221221122221122mmmmppppmmFexexexFexexexFexexex(3.5.2)系数eij的确定原则:①Fi与Fj(i≠j;i,j=1,2,…,p)相互无关;②F1是x1,x2,…,xm的一切线性组合中方差最大者,F2是与F1不相关的x1,x2,…,xm的所有线性组合中方差最大者;……Fp是与F1,F2,……,Fp-1都不相关的x1,x2,…xm,的所有线性组合中方差最大者。则新变量指标F1,F2,…,Fp分别称为原变量指标x1,x2,…,xm的第一,第二,…,第p主成分。从以上的分析可以看出,主成分分析的实质就是确定原来变量xj(j=1,2,…,m)在诸主成分Fi(i=1,2,…,p)上的权重eij(i=1,2,…,p;j=1,2,…,m)。从数学上容易知道,从数学上可以证明,它们分别是的相关系数矩阵的p个较大的特征值所对应的单位化特征向量。二、计算步骤(一)计算相关系数矩阵rij(i,j=1,2,…,m)为原变量xi与xj的相关系数,rij=rji,其计算公式为:111212122212mmmmmmrrrrrrRrrr(3.5.3)nknkjkjikinkjkjikiijxxxxxxxxr11221)()())(((3.5.4)(二)计算特征值与特征向量:①解特征方程,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列;0RI12,0m②分别求出对应于特征值的特征向量,要求=1,即,其中表示向量的第j个分量。i(1,2,,)ieimie211mijjeijeie③计算主成分贡献率及累计贡献率▲贡献率:1(1,2,,)imkkim▲累计贡献率:11(1,2,,)ikkmkkim一般取累计贡献率达85—95%的特征值所对应的第一、第二、…、第p(p≤m)个主成分。12,,,p(三)确定主成分12(,,,)Tiiimeee11221iiiimmFeXeXeXip其中为第i个特征值所对应的特征向量2.计算主成分载荷1.主成分表达式:(,)(1,2,,,1,2,,)ijijiijlpFxeipjm表示主成分与对应变量的相关系数(四)排序问题:11221iiiimmYeXeXeXip1212111ppmmmkkkkkkYYYY2.综合得分:选取综合评价函数为1.主成分得分三、主成分分析实例1下表是10名初中男学生的身高(cm),胸围(cm),体重(kg)的数据,试进行主成分分析。身高x1胸围x2体重x3149.569.538.5162.577.055.5162.778.550.8162.287.565.5156.574.549.0156.174.545.5172.076.551.0173.281.559.5159.574.543.5157.779.053.5Matlab程序%cwfac.mfunctionresult=cwfac(vector);fprintf('相关系数矩阵:\n')std=corrcoef(vector)%计算相关系数矩阵fprintf('特征向量(vec)及特征值(val):\n')[vec,val]=eig(std)%求特征值(val)及特征向量(vec)newval=diag(val);[y,i]=sort(newval);%对特征根进行排序,y为排序结果,i为索引fprintf('特征根排序:\n')forz=1:length(y)newy(z)=y(length(y)+1-z);endfprintf('%g\n',newy)rate=y/sum(y);fprintf('\n贡献率:\n')newrate=newy/sum(newy)Matlab程序sumrate=0;newi=[];fork=length(y):-1:1sumrate=sumrate+rate(k);newi(length(y)+1-k)=i(k);ifsumrate0.85break;endend%记下累积贡献率大85%的特征值的序号放入newi中fprintf('主成分数:%g\n\n',length(newi));fprintf('主成分载荷:\n')forp=1:length(newi)forq=1:length(y)result(q,p)=sqrt(newval(newi(p)))*vec(q,newi(p));endend%计算载荷disp(result)主成分分析实例2表1是某市工业部门13个行业的8项重要经济指标的数据,这8项经济指标分别是:X1:年末固定资产净值,单位:万元;X2:职工人数据,单位:人;X3:工业总产值,单位:万元;X4:全员劳动生产率,单位:元/人年;X5:百元固定资产原值实现产值,单位:元;X6:资金利税率,单位:%;X7:标准燃料消费量,单位:吨;X8:能源利用效果,单位:万元/吨。利用Matlab求解1.00000.54500.60920.54501.00000.95150.60920.95151.0000R相关系数矩阵为特征值为2.420.530.045对应的特征向量为0.49830.8638-0.07470.6063-0.4088-0.68220.6198-0.29470.7274贡献率为0.80690.17810.0150前两个的累计贡献率为98.5%选取两个主成分11230.560.420.71yxxx21230.830.330.45yxxx1y是反映学生身材魁梧与否的综合指标是反映学生体形特征的综合指标。2y表1是某市工业部门13个行业的8项重要经济指标的数据,这8项经济指标分别是:X1:年末固定资产净值,单位:万元;X2:职工人数据,单位:人;X3:工业总产值,单位:万元;X4:全员劳动生产率,单位:元/人年;X5:百元固定资产原值实现产值,单位:元;X6:资金利税率,单位:%;X7:标准燃料消费量,单位:吨;X8:能源利用效果,单位:万元/吨。X1X2X3X4X5X6X7X8冶金9034252455101091192728216.11974350.172电力4903197320351031334.27.15920770.003煤炭6735211393767178036.18.27263960.003化学4945436241815572250498.125.93482260.985机器1391902035052158981060993.212.61395720.628建材122151621910351638262.58.71458180.066森工23726572810312329184.422.2209210.152食品11062230785493523804370.441654860.263纺织17111239075210821796221.521.5638060.276缝纫12063930612615586330.429.518400.437皮革21505704620010870184.21289130.274造纸525161551038316875146.427.5787960.151文教1434113203193961469194.617.863541.574表1某市工业部门13个行业8项指标我们要考虑的是:如何从这些经济指标出发,对八个指标进行适当的缩减,便于我们对某市经济状态做定性分析?0.002442000000000.032184000000000.086598000000000.30408000000000.64212000000000.93022000000002.8974000000003.1049-0.245-0.75762-0.065854-0.184220.0453030.104190.295990.47665-0.527110.51841-0.0484510.30545-0.174430.162980.277890.472810.780540.174040.0990480.0174750.058670.156260.377950.42385-0.220130.249430.28786-0.539410.51609-0.00854430.45141-0.21289-0.030623-0.232970.582290.4499-0.199420.321130.33094-0.388460.042355-0.056436-0.713570.316840.279260.145140.40274-0.35243-0.04116-0.0528420.193590.41820.758170.14046-0.377410.214830.0032996-0.0671110.122170.32220.071855-0.891160.272740.055034序号特征根方差贡献率%累计贡献率%13.104938.811438.811422.897436.218075.029430.930211.627786.657140.64218.026594.683650.30413.801198.484760.08661.082599.567270.03220.402399.969580.00240.0305100.0000表2特征根和累计贡献率特征向量1特征向量2特

1 / 34
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功