小结方差逐步减少的p个线性无关的主成分为:11112121212122221122ppppppppppFuXuXuXFuXuXuXFuXuXuX写为矩阵形式:FUX1112121222112(,,)pppppppuuuuuuUuuuuu12(,,,)pXXXX§3主成分的性质1.主成分向量的均值和协方差矩阵2.主成分的总方差3.原始变量Xi与主成分Fk之间的相关系数4.原始变量被主成分的提取率5.原始变量对主成分的影响1.主成分向量的均值和协方差矩阵协方差矩阵V(F)=Λ其中Λ=diag(λ1,λ2,⋯,λp),即V(Fi)=λi,i=1,2,⋯,p,且F1,F2,⋯,Fp互不相关。均值()(U)UEFEX2.主成分的总方差由于所以或trtrtrtrATΣTΣTTΣ11ppiiiii11ppiiiiVFVx若存在mp,使得11pmiiiii,则p个原始变量所提供的总信息(总方差)的绝大部分只需用前m个主成分来代替。总方差中属于第i主成分Fi(或被Fi所解释)的比例为:称为主成分Fi的贡献率。第一主成分F1的贡献率最大,表明它解释原始变量X1,X2,⋯,Xp的能力最强,而F2,F3,⋯,Fp的解释能力依次递减。主成分分析的目的就是为了减少变量的个数,因而一般是不会使用所有p个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来大的影响。1piii前m个主成分的贡献率之和称为主成分F1,F2,⋯,Fm的累计贡献率,它表明F1,F2,⋯,Fm解释X1,X2,⋯,Xp的能力。通常取(相对于p)较小的m,使得累计贡献达到一个较高的百分比(如80%~90%)。此时,F1,F2,⋯,Fm可用来代替X1,X2,⋯,Xp,从而达到降维的目的,同时信息的损失却不多。11pmiiii我们进行主成分分析的目的之一是希望用尽可能少的主成分F1,F2,…,Fk(k≤p)代替原来的p个指标。到底应该选择多少个主成分,在实际工作中,主成分个数的多少取决于能够反映原来变量80%以上的信息量为依据,即当累积贡献率≥80%时的主成分的个数就足够了。最常见的情况是主成分为2到3个。83、原始变量与主成分之间的相关系数1,2,,,jmmp1112111221222212ppppppppuuuXFXuuuFXFuuuFUXXUF1122jjjpjpFuXuXuX91122(,)(,)ijiiippjijjCovXFCovuFuFuFFu(,)ijjijjijiijuuXF可见,和的相关的密切程度取决于对应线性组合系数的大小。iXjF104、原始变量被主成分的提取率前面我们讨论了主成分的贡献率和累计贡献率,他们度量了F1,F2,……,Fm分别从原始变量X1,X2,……,Xp中提取了多少信息。那么X1,X2,……,Xp各有多少信息分别F1,F2,……,Fm被提取了。应该用什么指标来度量?我们考虑到当讨论F1分别与X1,X2,……,Xp的关系时,可以讨论F1分别与X1,X2,……,Xp的相关系数,但是由于相关系数有正有负,所以只有考虑相关系数的平方。1122()()iiiippVarXVaruFuFuF222221122iiimmippiuuuu则2ijju22/ijjiu如果我们仅仅提出了m个主成分,则第i原始变量信息的被提取率为:22211/mmijijiijjju是Fj能说明的第i原始变量的方差;是Fj提取的第i原始变量信息的比重.4、原始变量被主成分的提取率主成分个数的选择进行主成分分析的目的之一是简化数据结构,用尽可能少的主成分12,,,mFFFmp代替原来的p个指标。在实际工作中,主成分个数的选取通常有两个标准一个是按累积贡献率达到一定的程度(如70%或80%以上)来确定m;另一个先计算协方差矩阵或相关矩阵的特征值的均值,取大于的特征值的个数作为m.大量实践表明,当20p时,第一个标准容易取太多的主成分,第二个标准容易取太少的主成分,故最好将两者结合起来使用,并考虑m个主成分对iX的贡献率。例1设的协方差矩阵为:123,,XXX120250002解得特征根为:1583.2200.3017.1038309240000...U2001U3092403830000...U第一个主成分的贡献率为5.83/(5.83+2.00+0.17)=72.875%,尽管第一个主成分的贡献率并不小,但在本题中第一主成分不含第三个原始变量的信息,所以应该取两个主成分。Xi与F1的相关系数平方Xi与F2的相关系数平方信息提取率Xi10.9250.855000.8552-0.9980.996000.99630011111(,)iiXF21i22i22(,)iiXFi2111111583038310925.*..u21212122092450998*(.).u1305.原始变量对主成分的影响Fk=t1kX1+t2kX2+⋯+tpkXp称tik为第k主成分Fk在第i个原始变量Xi上的载荷,它度量了Xi对Fk的重要程度。在解释主成分时,我们需要考察载荷,同时也应考察一下相关系数。方差大的那些变量与具有大特征值的主成分有较密切的联系,而方差小的另一些变量与具有小特征值的主成分有较强的联系。通常我们取前几个主成分,因此所取主成分会过于照顾方差大的变量,而对方差小的变量却照顾得不够。例2设X=(X1,X2,X3)′的协方差矩阵为经计算,Σ的特征值及特征向量为λ1=109.793,λ2=6.469,λ3=0.738相应的主成分分别为:F1=0.305X1+0.041X2+0.951X3F2=0.944X1+0.120X2−0.308X3F3=−0.127X1+0.992X2−0.002X316230214304100Σ1230.3050.9440.1270.041,0.120,0.9920.9510.3080.002ttt可见,方差大的原始变量X3在很大程度上控制了第一主成分F1,方差小的原始变量X2几乎完全控制了第三主成分F3,方差介于中间的X1则基本控制了第二主成分F2。F1的贡献率为这么高的贡献率首先归因于X3的方差比X1和X2的方差大得多,其次是X1,X2,X3相互之间存在着一定的相关性。F3的特征值相对很小,表明X1,X2,X3之间有这样一个线性依赖关系:−0.127X1+0.992X2−0.002X3≈c其中c=−0.127μ1+0.992μ2−0.002μ3为一常数。11231097930938117..§4主成分分析的步骤在实际问题中,X的协方差通常是未知的,样品有12(12)X,,,,,,lllplxxxln111ˆ()()nxilijljlppxxxxn第一步:由X的协方差阵Σx,求出其特征根,即解方程,可得特征根。021p一、基于协方差矩阵0ΣI第二步:求出分别所对应的特征向量U1,U2,…,Up,12iiipiUuuu,,,第三步:计算累积贡献率,给出恰当的主成分个数。12()iiFUXikkp,,,,第四步:计算所选出的k个主成分的得分。将原始数据的中心化值:代入前k个主成分的表达式,分别计算出各单位k个主成分的得分,并按得分值的大小排队。1122*iiiipipXXXxxxxxx,,,一、基于协方差矩阵二、基于相关系数矩阵如果变量有不同的量纲,则必须基于相关系数矩阵进行主成分分析。不同的是计算得分时应采用标准化后的数据。21记2,()iiiiEXVarx,令*,1,2,,iiiiXXip,则标准化后的随机变量****12,,,pXXXX的协方差阵*就是原随机向量X的相关阵R。从R出发求得的主成分****12,,,pFFFF,有与总体主成分相同的性质。从R出发的主成分性质(1)E(F*)=0,V(F*)=Λ*,其中(2)。(3)变量与主成分之间的相关系数即有***12*diag,,,pΛ*1piip*iX*kF****,1,2,,ikkikXXtikp,,1212**********pkkkkkkpkXFXFXFttt,,,因此,在解释主成分时,由相关矩阵R求得的载荷和相关系数所起的作用是完全相同的,只需选其一用来作主成分解释即可。(4)主成分对变量的贡献率(5)。*kF***12,,,kkpkttt****12,,,kkxyxy,,**pkxy,***12,,,mFFF*iX22****21,,11mmimikkikkkxyt,2****2111ppikkikkkxyt,例3在例2中,X的相关矩阵R的特征值及特征向量为相应的主成分分别为:10.50.750.510.40.750.41R=***123***1232.114,0.646,0.2400.6270.2410.7410.497,0.856,0.1420.6000.4570.656ttt****1123****2123****31230.6270.4970.6000.2410.8560.4570.7410.1420.656FXXXFXXXFXXX的贡献率为和累计贡献率为现比较本例中从R出发和例2中从Σ出发的主成分计算结果。从R出发的的贡献率0.705明显小于从Σ出发的F1的贡献率0.938,事实上,原始变量方差之间的差异越大,这一点也就倾向于越明显。可用标准化前的原变量表达如下:*1F***123,,FFF*33112211122330.6270.4970.60041100.1570.4970.060XXXFXXX*1F*1F*2F*12.1140.70533**122.1140.6460.92033可见,在原变量X1,X2,X3上的载荷相对大小与例2中Fi在X1,X2,X3上的载荷相对大小之间有着非常大的差异。这说明,标准化后的结论完全可能会发生很大的变化,因此标准化不是无关紧要的。*33112221122330.2410.8560.45741100.0600.8560.046XXXFXXX*33112231122330.7410.1420.65641100.1850.1420.066XXXFXXX*iF根据主成分分析的定义及性质,我们已大体上能看出主成分分析的一些应用。概括起来说,主成分分析主要有以下几方面的应用。1.主成分分析能降低所研究的数据空间的维数。即用研究m维的F空间代替p维的X空间(m<p),而低维的F空间代替高维的X空间所损失的信息很少。即:使只有一个主成分Fl(即m=1)时,这个Fl仍是使用全部X变量(p个)得到的。例如要计算Fl的均值也得使用全部x的均值。在所选的前m个主成分中,如果某个Xi的系数全部近似于零的话,