应用统计学主成分分析-4版

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

MaXin,NorthChinaElectricPowerUniversity第七章主成分分析PCA的基本思想一般模型与算法PCA的SPSS实现PCA的应用principlecomponentanalysisMaXin,NorthChinaElectricPowerUniversityOriginsofPCAPearson(1901)首先引入Hotelling(1933)发展成熟Oneofthemostwidelyusedmultivariatetechniques.一、PCA的基本思想主成分分析:一种通过降维技术把多指标化为少数几个综合指标的多元统计分析方法。综合指标通常表示为原指标的线性组合,且为了使这些新指标所含的信息不重叠,要求各新指标之间互不相关MaXin,NorthChinaElectricPowerUniversityWhatdoesPCAdo?Originaldatamatrix,saynbypNewdatamatrix,saynbyq,withqp:例:研究55个国家运动员径赛能力,用8项径赛成绩-原始数据矩阵:x55×8经PCA得到新数据阵:z55×2:选取2个主成分,其中第一主成分表示综合能力指标,第二主成分表示短跑能力正交旋转哪个国家运动员实力最强?MaXin,NorthChinaElectricPowerUniversityWhatAbouttheNewData?EachnewvariableissomelinearcombinationofalltheoldvariablesThenewvariablesarecalled“scores”or“principalcomponents”Newvariablesarechosensoastocapturemostofthevariabilityintheoriginalvariables.Newvariablesareuncorrelated!综合了原指标的信息876543212876543211265.183.176.067.026.086.821.375.149.159.158.161.158.151.059.132.ssssssssssssssssssxxxxxxxxzxxxxxxxxz原指标相关性很强,新指标互不相关MaXin,NorthChinaElectricPowerUniversityPCA的实质——简化数据用尽可能少的变量(主成分)反映原始数据中尽可能多的信息,以简化数据,突出主要矛盾。反映原始数据特征的指标:方差-离散度主成分:原始变量的最优加权线性组合最优加权:第一主成分:寻找原始数据的一个线性组合,使之具有最大方差(数据离散度最大的方向)第二主成分:寻找原始数据的一个线性组合,使之具有次大方差,且与第一主成分无关……MaXin,NorthChinaElectricPowerUniversityZscore(售电量)2.52.01.51.0.50.0-.5-1.0-1.5Zscore(利润)2.01.51.0.50.0-.5-1.0-1.5-2.0x1x2一个简单的两变量例售电量和利润:不同供电局在这两个指标上的离散度都很大。忽略哪个指标都会给评估带来较大偏误!MaXin,NorthChinaElectricPowerUniversity-1.000.001.002.00售电量s-1.000.001.00利润s12Z13210-1-2Z22.01.00.0-1.0-2.012正交旋转,样品间距离不变第一主成分:寻找原始数据的一个线性组合,使之具有最大方差(数据离散度最大的方向)第一主成分第二主成分第一主成分包含的信息量显然大于第二主成分,因而忽略第二主成分信息损失不大MaXin,NorthChinaElectricPowerUniversity10.0012.0014.0016.0018.0020.00run100m18.0020.0022.0024.0026.0028.0030.00run200m各国运动员100m和200m成绩,计算下列变量方差:X100m和X200m0.707*X100m+0.707X200m0.167*X100m+0.986X200mDescriptiveStatistics55.35143.124551.375411.892551.10654801.224551.38351821.91455run100mrun200mp707p167ValidN(listwise)NStd.DeviationVarianceMaXin,NorthChinaElectricPowerUniversity二、PCA的模型与算法设:x为标准化变量,原始数据阵],,[21spxxxXPCA目标:找到原始数据方差最大的线性组合设:线性组合系数为p×1=[1,2,…p]T即:要找一个使z=Xs=1x1+2x2+…+pxp具有最大方差μXXμzzz'''ss1111)var(nnRμμzRXX'')var(11ssn对于标准化变量,样本方差阵=样本相关阵MaXin,NorthChinaElectricPowerUniversity1..maxμμRμμ''ts)1(μμRμμ''L构造0)22μIRμRμ0μRμμL或(上式的解就是R的特征根12…p,其相应的特征向量1、2、…p就是权重向量,权重向量与Xs相乘得到的向量z1=Xs1、z2=Xs2、…zp=Xsp,就是Xs的主成分,且有:iiiiiiiiiμμμμRμμz''')var(其中最大的特征根1对应的主成分z1称为第一主成分,其方差最大,其次是第二主成分z2、第三主成分z3…。有p个变量,就有p个主成分。注意:R是对称阵,∴两不同特征根对应的特征向量相互正交。第i个主成分的方差就是相应的特征根。因为第一个特征根最大,所以第一主成分方差最大MaXin,NorthChinaElectricPowerUniversityppnpppp21s2121)var(,),,(,),,(ΛRUUZUXZzzzZμμμU'则有:设:由于各主成分彼此不相关,因此,所有主成分之和的方差等于所有特征根之和,即:ppzzz2121)var(ptracetracetraceBCAtraceABCtracetracepii)()()()]()([)(1RRUURUURUU'''所有主成分方差之和解释了原始数据全部方差正交阵主成分得分矩阵MaXin,NorthChinaElectricPowerUniversity特征根和特征向量的求法586.0414.3,024,01)3)(1(10013111,3111212,的特征值SISS1414.0414.3414.01414.0414.33414.3414.33111414.3111212111212111112111211121111的特征向量:,,:对iiiμSμMaXin,NorthChinaElectricPowerUniversityCorrelationMatrix1.000.562.704.5621.000.304.704.3041.000X1X2X3CorrelationX1X2X3U231.0706.0063.2563.0596.0572.0331.0797.0505.0757.0095.0646.0321321-2-101-3234X3-24-13X20211X102-1-23-34例:三标准化变量x1、x2、x3,n=300321332123211563.0331.0757.0596.0797.0095.0572.0505.0646.0xxxzxxxzxxxz三个主成分Y12.03-20241.5621.01.5Y3Y200.0-1-.5-2-1.0z1z2z33321注意:这里主成成得分是非标准化的特征向量主成分得分Z=XsU数据MaXin,NorthChinaElectricPowerUniversityDescriptiveStatistics300-2.7383.031-.00002.9999901.000300-2.8033.033-.00002.9999951.000300-2.3403.056-.000011.0000121.000300-3.584.33.00001.436092.062300-2.322.23.0000.83973.705300-1.351.56.0000.48065.231300-3.46894.2681-.0000271.42983462.044300x1x2x3z1z2z3z577ValidN(listwise)NMinimumMaximumMeanStd.DeviationVariance231.0706.0063.2563.0596.0572.0331.0797.0505.0757.0095.0646.0321321主成分分析:对原始数据阵进行正交旋转,使得第一主成分能保留原始数据的最大方差,第二主成分保留次大方差……,且主成分之间不相关,我们可以忽略方差贡献小的主成分从而达到降维的目的。iii:第i个主成分的方差贡献率第一主成分解释了最大部分的方差kjiij1:前k个主成分的累计贡献率%100%3.92%3.68%7.7%0.24%3.68方差贡献率累计贡献率231.0,706.0,063.2321保留一个主成分可解释68.3%的方差保留两个主成分可解释92.3%的方差MaXin,NorthChinaElectricPowerUniversityConceptualModel主成分载荷阵标准化的主成分Z与原始数据阵Xs的相关系数矩阵,反映各主成分与原始变量x的相关程度,有助于解释各主成分的含义。21212121ssss1111)corr(UΛFUΛΛRUΛZΛXZXZ,XF''nns21ZΛZscjijf12变量共同度:载荷阵第i行前c个元素的平方和,反映了前c个主成分对xi方差的解释程度pp21μμμUΛF21212706.5008.8222.1590.6696.7255.3641.0798.9279.321321xxxzzzloadingcomponentprincipal从载荷阵可看出:z1与各x正相关,综合评价;z2与x2正相关,与x3负相关,反映样本在这两个指标方面的差距.72552+.66962=0.975:前两个主成分揭示了x2方差的97.5%MaXin,NorthChinaElectricPowerUniversity三、PCA的SPSS实现SPSS过程:1)分析→数据降维→因子分析…(顺序点击菜单项,打开因子对话框)。2)在对话框中指定分析变量,如图1所示。主成分分析用SPSS中的因子分析过程。MaXin,NorthChinaElectricPowerUniversity图13)在图1对话框点击”抽取…”按钮,出现图2对话框,选择主成分提取法。MaXin,NorthChinaElectricPowerUniversity图2默认选项:分析相关矩阵、显示未旋转因子解,主成分选取原则:特征根≥1特征根变化曲线主成分个数选取原则因子提取方法分析相关阵还是协方差阵按照特征根值的大小选取直

1 / 69
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功