主成分分析主成分分析((PCAPCA--PrincipalComponentAnalysisPrincipalComponentAnalysis))1.1.主成份概念主成份概念2.2.主成份模型及其计算主成份模型及其计算3.3.主成份性质与几何意义主成份性质与几何意义4.4.标准化主成份标准化主成份5.5.确定主成份数目确定主成份数目6.6.主成份分析步骤主成份分析步骤7.7.主成份应用主成份应用1.1.主成分概念主成分概念为什么要使用主成分影响环境变化的因素很多:主要因素,次要因素。选择研究对象的所有因素:增加难度与复杂性。变量之间多存在着错综复杂的相互关系;全面选择因素会增加各种成本,甚至不可能实现。选择次要因素反而可能降低精度;目标:希望在原m个变量基础上:用较少的综合变量代替原来较多的变量保留大部分信息新变量之间互不相关什么是主成分分析?什么是主成分分析?定义–在不损失或很少损失原有讯息的前提下,将原来个数较多、且彼此相关的变量,转换为新的个数较少而彼此独立或不相关的综合变量的一种多元统计分析方法。2.2.主成分模型主成分模型2.12.1两个变量的主成份模型(简单情况下)两个变量的主成份模型(简单情况下)设有两个变量x1和x2,数据如下表。no123456…25x1346667…20x221058102…20变量x1和x2的特征统计量为:Sx12=20.3Sx22=24.1Sx12+Sx22=44.4目标(两变量情况下的主成分)找到由这两个变量线性组合构成的变量y1和y2,使新变量的总方差sy12+sy22)等于原变量的总方差(sx12+sx22)新变量间的方差分配尽量扩大差异且不相关,一个变量方差占主要方差量,另一个占次要方差量。①令:–y1=0.66x1+0.75x2y2=0.75x1-0.66x2no123456…25y13.4910.147.729.9711.466,14…28.23y20.92-3.641.18-0.81-2.413.91…1.70②得:③变换后新变量y1和y2的特征统计量Sy12=37.9Sy22=6.5Sy12+sy22=44.4④可以看出–变换前后,原变量总方差与新变量总方差相等。⑤变量变换前X1的方差占总方差的百分比Sx12/(Sx12+Sx22)=20.3/44.4=46%X2的方差占总方差的百分比Sx22/(Sx12+Sx22)=24.1/44.4=54%⑥变量变换后y1的方差占总方差的百分比Sy12/(Sy12+Sy22)=37.9/44.4=86%y2的方差占总方差的百分比Sy22/(Sy12+Sy22)=6.5/44.4=14%⑦可以看出变换前后总方差不变;变换前变量方差占总方差比率差别不大,变换后变量方差占总方差的比率有很大差别;y1和y2称为x1和x2的主成分,其中y1为第一主成分,y2为第二主成分;y1的方差占总方差比率很大,可反映原变量x1和x2的变化。2.22.2一般主成份模型一般主成份模型假设我们收集到n个样品,每个样品观测到p个变量(记为pxxx,,,21,为简单起见不妨设ix均值为0,方差为1,pi1),构成一个n×p阶的地理数据矩阵X:npnnppxxxxxxxxxX212222111211主成分分析的目的在于利用p个原始变量(pxxx,,,21)构造少数几个新的综合变量,使得新变量为原始变量的线性组合,新变量互不相关,新变量包含p个原始变量的绝大部分信息。这样我们定义x1,x2,…,xP为原变量指标,z1,z2,…,zm(m≤p)为新的综合变量指标,每一个新综合变量指标是p个原始变量的线性组合:pmpmmmppppxlxlxlzxlxlxlzxlxlxlz22112222121212121111同时要求满足一下几个条件:(1)zi与zj(i≠j;i,j=1,2,…,m)相互无关;(2)z1是x1,x2,…,xP的一切线性组合中方差昀大者;z2是与z1不相关的x1,x2,…,xP的所有线性组合中方差昀大者;……zm是与z1,z2,…,zm-1都不相关的x1,x2,…,xP的所有线性组合中方差昀大者。则新变量z1,z2,…,zm分别称为原变量x1,x2,…,xP的第一,第二,…,第m主成分。主成分分析的实质就是确定原来变量xj(j=1,2,…,p)在诸主成分zi(i=1,2,…,m)上的系数lij(i=1,2,…,m;j=1,2,…,p)。从数学上可以证明,它们分别是p个原始变量(pxxx,,,21)协方差矩阵的前m个具有较大特征值所对应的特征向量,而各个综合变量Zi的方差var(Zi)恰好是相应的特征根i。各主成分的方差贡献大小按特征根顺序排列,是依次递减的,即1≥2≥…≥p≥0。3.3.主成分的计算主成分的计算3.13.1两个变量的主成分计算两个变量的主成分计算((最简单情况最简单情况))两个原变量为x1和x2原变量组合成一个新变量y=v1x1+v2x2(1)使得y有极大的方差,即:)2()(112极大niiyyn将(1)式代入(2)式,得)3(2))((12)(1)(1)(121212222212112211211122222211211222112211xxxxniiininiiiniiiSvvSvSvxxxxnvvxxnvxxnvxvxvxvxvn以方差表示:使得(2)昀大转换为使得(3)式昀大的极值问题。)4(12221vv)1(22221212122222121vvSvvSvSvQxxxx为了便于不同变量之间进行相互比较,加条件:求极大值问题加上条件(4),变为:式中λ为拉格朗日算子。根据微积分求极值,有:0)(20)(22211222212122111vSvSvvQvSvSvvQxxxxxx对两个微积分算式整理,得:)6(0)(VIS2122212121vvVSSSSSxxxxxx22211211211001vvvvVI令:根据线性代数知识,方程组(5)可以写成矩阵形式:(6)式中,I为单位矩阵,λ为S特征根(EigenValueEigenValue),V为特征向量(EigenVectorEigenVector)求出λ和V后,可以得到新变量(主成分):22212122121111xvxvyxvxvy3.23.2多个变量的主成分计算多个变量的主成分计算求多维变量(变量数大于2)的主成分与二维变量相同。计算原变量的协方差阵S;解特征方程,得特征根λ与特征向量V;计算主成分得分(p为主成分数,n为样品数):ppppppppxxx...vvv...vvvvvvy...yy21212222111211210)(VIS3.33.3主成分的导出主成分的导出主主成份模型的矩阵表达:成份模型的矩阵表达:XAY'其中:pppppppaaaaaaaaaaaaA21222211121121)(①①主成份表达式中的组合系数为主成份表达式中的组合系数为协方差矩协方差矩阵阵cov(xcov(x))的特征向量矩阵的特征向量矩阵QQ。。②②主成份的方差即为协方差矩阵主成份的方差即为协方差矩阵cov(xcov(x))的特的特征根。征根。4.4.主成分性质主成分性质①主成分方差分别为原变量协方差阵S的特征根:Var(yi)=入i②主成分间互不相关:Corr(yi,yk)=0ik③主成分系数(vi1,vi2,…,vip)构成的向量为单位向量;④各主成分的方差贡献大小按矩阵S特征根顺序排列,是依次递减的,即入i≥入2≥…≥入p≥0⑤第k个主成分的方差贡献大小为:p1iikk/Rp1iik1iik/G⑥前k个主成分的累积方差贡献百分比:⑦主成分总方差不增不减,即:Var(y1)+Var(y2)+…+Var(yp)=Var(x1)+Var(x2)+…+Var(xp)=p⑧主成份yi与原变量xj的相关系数r(yi,xj)称为因子载荷(factorloading)。因子载荷等于:),,2,1,(),(pjiaxyprijijiij5.5.主成分的几何意义主成分的几何意义(以(以22维变量为例)维变量为例)原变量x1,x2,其主成分为:y1=v11x1+v21x2y2=v12x1+v22x2令:cosθ=v11sinθ=v21-sinθ=v12cosθ=v22则主成分可写成:y1=(cosθ)x1+(sinθ)x2y2=(-sinθ)x1+(cosθ)x21.主成分可看成是原变量组成的坐标空间的旋转,而θ为旋转角。2.主成分分析就是寻找坐标空间旋转角,使得样本在新的坐标系中对某一坐标轴上的投影具有极大方差。主主成份几何意义续成份几何意义续11主成份几何意义续主成份几何意义续226.6.标准化主成分标准化主成分所谓标准化主成分,指在进行主成分分析前,将分析数据进行标准化。数据标准化方法:xiiij*ijSx-xx数据标准化化后计算主成分,协方差阵即为相关阵,计算相关阵的特征值和特征向量。采用协方差阵S求出的特征根和特征向量不同于相关阵R求出的特征根和特征向量。采用相关阵求特征根和特征向量,不受变量单位的影响,比较客观公正,研究中得到广泛应用。7.7.主成分数目的保留主成分数目的保留①累积方差分析–保留多少个主成分,取决于保留部分的累积方差在方差总和中所占百分比,它标志前几个主成分包含信息之多寡。–一般取累计贡献率达85%~95%的特征值。)1(11pkGpiikiik累积贡献率:),,2,1(1pipkki贡献率:②选用所有入i≥1的主成分。③选用累积特征值乘积大于1的主成分。④画出特征值变化曲线,以转折点位置为标准判断。保留多少主成分为宜主要根据实际问题和经验决定,并无严格统计规则。8.8.主成分用途主成分用途①①降低变量维数,方便系统解释;降低变量维数,方便系统解释;②②主成份回归;主成份回归;回归分析当变量较多时,可先对自变量进行主成回归分析当变量较多时,可先对自变量进行主成分分析,然后选择主要主成分作为新的自变量进分分析,然后选择主要主成分作为新的自变量进入方程(逐步回归也是减少因子数目的方法,但入方程(逐步回归也是减少因子数目的方法,但可能遗漏一些有物理意义的因子)。可能遗漏一些有物理意义的因子)。③③主成分判别;主成分判别;④④时空分异分析;时空分异分析;⑤⑤……9.9.主成份一般分析步骤主成份一般分析步骤①①确定分析变量,收集数据;确定分析变量,收集数据;设有设有nn个样品,个样品,pp个变量,观测值为个变量,观测值为②②对原始数据进行标准化对原始数据进行标准化;;③③由标准化后的数据求协方差矩阵由标准化后的数据求协方差矩阵ΣΣ((即原始数据的相关矩即原始数据的相关矩阵阵););ijxni,,2,1pj,,2,1jjijijsxxxniijjxnx11nijijjxxns1211pppppp212222111211nkkjkiijxxn111④④计算计算ΣΣ的特征根与特征向量的特征根与特征向量;;解方程解方程,,得出所有特征根:得出所有特征根:及其所对应的标准正交特征及其所对应的标准正交特征向量向量..⑤⑤确定保留的主成分数目;确定保留的主成分数目;GGkk一般要求大于对于一般要求大于对于8585%。%。0I021p