第七章主成分分析§7.1引言§7.2总体的主成分§7.3样本的主成分1§7.1引言主成分分析(principalcomponentanalysis)由皮尔逊(Pearson,1901)首先引入,后来被霍特林(Hotelling,1933)发展了。主成分分析是一种通过降维技术把多个变量化为少数几个主成分(综合变量)的统计分析方法。这些主成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的某种线性组合。2习题7.6下表给出的是美国50个州每100000个人中七种犯罪的比率数据。这七种犯罪是:x1:杀人罪x5:夜盗罪x2:强奸罪x6:偷盗罪x3:抢劫罪x7:汽车犯罪x4:斗殴罪试图用降维的方式对50个州的犯罪情况进行比较分析。34statex1x2x3x4x5x6x7Alabama14.225.296.8278.31135.51881.9280.7Alaska10.851.696.82841331.73369.8753.3Arizona9.534.2138.2312.32346.14467.4439.5Arkansas8.827.683.2203.4972.61862.1183.4California11.549.42873582139.43499.8663.5Colorado6.342170.7292.91935.23903.2477.1Connecticut4.216.8129.5131.813462620.7593.2Delaware624.9157194.21682.63678.4467Florida10.239.6187.9449.11859.93840.5351.4Georgia11.731.1140.5256.51351.12170.2297.9Hawaii7.225.512864.11911.53920.4489.4Idaho5.519.439.6172.51050.82599.6237.6Illinois9.921.8211.320910852828.5528.6Indiana7.426.5123.2153.51086.22498.7377.4Iowa2.310.641.289.8812.52685.1219.9Kansas6.622100.7180.51270.42739.3244.3Kentucky10.119.181.1123.3872.21662.1245.4Louisiana15.530.9142.9335.51165.52469.9337.7Maine2.413.538.71701253.12350.7246.9┆┆┆┆┆┆┆┆5相关系数矩阵x1x2x3x4x5x6x7x11.00000.60120.48370.64860.38580.10190.0688x20.60121.00000.59190.74030.71210.61400.3489x30.48370.59191.00000.55710.63720.44670.5907x40.64860.74030.55711.00000.62290.40440.2758x50.38580.71210.63720.62291.00000.79210.5580x60.10190.61400.44670.40440.79211.00000.4442x70.06880.34890.59070.27580.55800.44421.0000主成分的应用(1)在一些应用中,这些主成分本身就是分析的目的,此时我们需要给(用来降维的前几个)主成分一个符合实际背景和意义的解释,以明白其大致的含义。(2)在更多的另一些应用中,主成分只是要达到目的的一个中间结果(或步骤),而非目的本身。例如,将主成分用于聚类(主成分聚类)、回归(主成分回归)、评估正态性、寻找异常值,以及通过方差接近于零的主成分发现原始变量间的多重共线性关系等,此时的主成分可不必给出解释。6旋转公式:112212cossinsincosyxxyxx7图7.1.1寻找主成分的正交旋转§7.2总体的主成分一、主成分的定义及导出二、主成分的性质三、从相关阵出发求主成分8一、主成分的定义及导出设,E(x)=μ,V(x)=Σ。考虑如下的线性变换希望在约束条件下寻求向量a1,使得达到最大,y1就称为第一主成分。设λ1≥λ2≥⋯≥λp≥0为Σ的特征值,,i=1,2,⋯,p为相应的一组正交单位特征向量。则可求得第一主成分为它的方差具有最大值λ1。12(,,,)pxxxx111121211ppyaxaxaxax11a111VyaΣa12,,,iiipitttt111121211ppytxtxtxtx9如果第一主成分所含信息不够多,还不足以代表原始的p个变量,则需考虑再使用,并要求Cov(y1,y2)=0我们在此条件和约束条件下寻求向量a2,使得达到最大,所求的y2称为第二主成分。可求得其方差为λ2。一般来说,x的第i主成分是指:在约束条件和Cov(yk,yi)=0,k=1,2,⋯,i−1下寻求ai,使得达到最大。第i主成分为22yax21a222VyaΣa212122222ppytxtxtxtx1iaiiiVyaΣa1122,1,2,,iiipipiytxtxtxiptx10主成分的几何意义在几何上,ti表明了第i主成分的方向,yi是x在ti上的投影值(其绝对值即为投影长度),λi是这些值的方差,它反映了ti上投影点的变异程度。11x投影到ti上的值其中θi是ti与x的夹角。cosiiiiiytxxxtxtx12主成分向量与原始向量之间的关系式111222pppyyytxttxtyxTxtxt12,,,piktTttt其中是正交矩阵。xTy1311121112122222121111211221222212ppppppppppppppppytttxytttxytttxxtttyxtttyxttty14主成分与原始变量之间的关系式矩阵y1y2⋯ypx1t11t12⋯t1px2t21t22⋯t2p⋮⋮⋮⋮xptp1tp2⋯tpp15正交变换的几何意义正交变换的几何意义是将Rp中由x1,x2,⋯,xp构成的原p维坐标轴作一正交旋转,一组正交单位向量t1,t2,⋯,tp表明了p个新坐标轴的方向,这些新坐标轴彼此仍保持正交(或说垂直)。yTxyTx16多元正态总体的主成分方向17二、主成分的性质1.主成分向量的协方差矩阵2.主成分的总方差3.原始变量xi与主成分yk之间的相关系数4.m个主成分对原始变量的贡献率5.原始变量对主成分的影响181.主成分向量的协方差矩阵V(y)=Λ其中Λ=diag(λ1,λ2,⋯,λp),即V(yi)=λi,i=1,2,⋯,p,且y1,y2,⋯,yp互不相关。192.主成分的总方差或11ppiiiii11ppiiiiVyVx20总方差中属于第i主成分yi(或被yi所解释)的比例为称为主成分yi的贡献率。第一主成分y1的贡献率最大,表明它解释原始变量x1,x2,⋯,xp的能力最强,而y2,y3,⋯,yp的解释能力依次递减。主成分分析的目的就是为了减少变量的个数,因而一般是不会使用所有p个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来大的影响。1pijj21前m个主成分的贡献率之和称为主成分y1,y2,⋯,ym的累计贡献率,它表明y1,y2,⋯,ym解释x1,x2,⋯,xp的能力。通常取(相对于p)较小的m,使得累计贡献达到一个较高的百分比(如80%~90%)。此时,y1,y2,⋯,ym可用来代替x1,x2,⋯,xp,从而达到降维的目的,而信息的损失却不多。11pmiiii223.原始变量xi与主成分yk之间的相关系数x=Ty即xi=ti1y1+ti2y2+…+tipyp所以Cov(xi,yk)=Cov(tikyk,yk)=tikλk在实际应用中,通常我们只对xi(i=1,2,⋯,p)与yk(k=1,2,⋯,m)的相关系数感兴趣。Cov(),,1,2,,kikikikiiikxyxytikpVxVy,,ix234.m个主成分对原始变量的贡献率m个主成分y1,y2,⋯,ym从原始变量x1,x2,⋯,xp中提取的信息量,可度量为xi与y1,y2,⋯,ym的复相关系数的平方,它是xi的方差可由y1,y2,⋯,ym联合解释的比例,称之为m个主成分y1,y2,⋯,ym对原始变量xi的贡献率。24222·1,,1122111mmimikkikiikkppikkikiikkxytxyt,,例7.2.1设x=(x1,x2,x3)′的协方差矩阵为其特征值为λ1=5.83,λ2=2.00,λ3=0.17相应的特征向量为若只取一个主成分,则贡献率为5.83/(5.83+2.00+0.17)=0.72875=72.875%120250002Σ1230.38300.9240.924,0,0.3830.00010.000ttt25应再取y2,此时累计贡献率为(5.83+2.00)/8=97.875%(y1,y2)对每个变量xi的贡献率分别为,都比较高。2221,231,299.6%,100%211,285.5%表7.2.1y1及(y1,y2)对每个原始变量的贡献率iρ(y1,xi)ρ(y2,xi)10.9250.8550.0000.8552−0.9980.9960.0000.99630.0000.0001.0001.00021i21,2i265.原始变量对主成分的影响yk=t1kx1+t2kx2+⋯+tpkxp称tik为第k主成分yk在第i个原始变量xi上的载荷,它反映了xi对yk的重要程度。在解释主成分时,我们需要考察载荷,同时也应考察一下相关系数。2711kkikipkpkikikiiytxtxtxxyt,例7.2.2设x=(x1,x2,x3)′的协方差矩阵为经计算,Σ的特征值及特征向量为λ1=109.793,λ2=6.469,λ3=0.738相应的主成分分别为16230214304100Σ1230.3050.9440.1270.041,0.120,0.9920.9510.3080.002ttt28y1=0.305x1+0.041x2+0.951x3y2=0.944x1+0.120x2−0.308x3y3=−0.127x1+0.992x2−0.002x3可见,方差大的原始变量x3在很大程度上控制了第一主成分y1,方差小的原始变量x2几乎完全控制了第三主成分y3,方差介于中间的x1则基本控制了第二主成分y2。y1的贡献率为这么高的贡献率首先归因于x3的方差比x1和x2的方差大得多,其次是x1,x2,x3相互之间存在着一定的相关性。y3的特征值相对很小,表明x1,x2,x3之间有这样一个线性依赖关系:−0.127x1+0.992x2−0.002x3≈c其中c=−0.127μ1+0.992μ2−0.002μ3为一常数。1123109.7930.93811729方差大的那些变量与具有大特征值的主成分有较密切的联系,而方差小的另一些变量与具有小特征值的主成分有较强的联系。通常我们取前几个