中国计量学院理学院数学系主成分分析及其SPSS实现刘学艺2011/4/3数模提高班之专题四主成分分析方法及软件实现沈进东2011/4/9数模提高班之专题四计量数模提高班专题四中国计量学院理学院数学系1引言2主成分分析的基本概念主成分分析的目标主成分分析的数学模型主成分的几何解释主成分的几个性质主成分的选取和使用条件主成分分析的算法3主成分分析的应用案例(采用基本的Matlab命令)4StatisticsToolbox中的主成分分析函数及应用5SPSS在主成分分析中的使用及案例计量数模提高班专题四中国计量学院理学院数学系在学生学习过程中,已经修完p门课程,其成绩为x1,x2,…,xp,如何评价每个学生的综合能力?假设每门课程有权重c1,c2,…,cp,则加权之和为:s=c1x1+c2x2+…+cpxp。每个学生对应这样一个成绩,假设有n个学生,其成绩分别为:s1,s2,…,sn。如果这些值很分散,表明每个人的综合能力能很好地区分。关键是如何确定权重c1,c2,…,cp?在数学上反映的问题是什么呢?1.引言计量数模提高班专题四中国计量学院理学院数学系基于上述问题,人们就希望在定量研究中涉及的变量较少,而得到的信息量又较多。主成分分析正是研究如何通过原来变量的少数几个线性组合来解释原来变量绝大多数信息的一种多元统计方法。一方面人们为了避免遗漏重要的信息而考虑尽可能多的指标,另一方面随着考虑指标的增多增加了问题的复杂性,同时由于各指标均是对同一事物的反映,不可避免地造成信息的大量重叠,这种信息的重叠有时甚至会抹杀事物的真正特征与内在规律。计量数模提高班专题四中国计量学院理学院数学系一项十分著名的工作是美国的统计学家斯通(stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。在进行主成分分析后,竟以97.4%的精度,用三个新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展或衰退的趋势F3。更有意思的是,这三个变量其实都是可以直接测量的。斯通将他得到的主成分与实际测量的总收入I、总收入变化率I以及时间t因素做相关分析,得到下表:计量数模提高班专题四中国计量学院理学院数学系F1F2F3i△itF11F201F3001i0.995-0.0410.057lΔi-0.0560.948-0.124-0.102lt-0.369-0.282-0.836-0.414-0.1121计量数模提高班专题四中国计量学院理学院数学系2.主成分分析的基本概念主成分分析的目标主成分分析,亦称主分量分析.数学本质——利用降维技术,将多个变量(指标)归少数综合指标.结为线性无关的几个(少数)主成分(综合指标).目标——化简多指标系统,构造方便系统分析的计量数模提高班专题四中国计量学院理学院数学系主成分分析的数学模型适合用主成分分析的数据具有如下结构:编号X1X2X3X4Xm123nijxmjniDxxxxjjijij,,2,1,,,2,1,*样本指标主成分分析最大的问题是受量纲的影响,因此,实际应用中,需要对数据进行标准化。一般使用协方差矩阵∑或相关系数矩阵R进行分析。x11x21x31……xn1计量数模提高班专题四中国计量学院理学院数学系设原始样本点×变量型数据资料阵),,,(Δ)(21ppnijXXXxX其中,),,,(21TniiiixxxX.,,2,1pi,2211ppiiiiXaXaXaF,,,2,1pi求线性组合(主成分)11111221221122221122ppppppppppFaXaXaXFaXaXaXFaXaXaXFi表示第i个主成分,也即计量数模提高班专题四中国计量学院理学院数学系这是由于一个主成分不足以代表原来的p个变量的信息。因此需要寻找第二个乃至第三、四个主成分,原则上,第二个主成分不应该再包含第一个主成分的信息,统计上的描述就是让这两个主成分的协方差为零,几何上就是这两个主成分的方向正交。满足条件,0),cov(jiFF;,,2,1,,pjiji⑴);var()var()var(21pFFF⑵,122221piiiaaa.,,2,1pi⑶计量数模提高班专题四中国计量学院理学院数学系F2F1X1X2主成分的几何解释以最简单的二元正态变量来说明主成分的几何意义.,),(~),(221NXXX设,,,2,1),,(21nixxxiii)(其n个样本点的散布大致为一个椭圆.n个点的在平面上作一个坐标变换,即按坐标X1和X2呈现某种线性相关性.逆时针方向旋转θ角度.在坐标系X1OX2中,取新坐标轴,在椭圆长轴方向取F1,短轴方向取F2.计量数模提高班专题四中国计量学院理学院数学系根据旋轴变换公式新老坐标之间有关系.cossin,sincos212211XXFXXFn个点的坐标F1和F2几乎不相关.在坐标系F1OF2中,F2F1X1X2在F1轴上的方差达到最大,在此方向上所含的有关n个样品间差异的信息是最多的,故称F1为第一主成分.在和F1正交的轴F2上方差较小,称F2为第二主成分.因此,用一维空间代替二维空间时,选用F1可使信息的损失降到最小.这种系统简化方法体现了抓事物主要矛盾的哲学思维.θ=?计量数模提高班专题四中国计量学院理学院数学系主成分的几个性质矩阵为Σ,Σ的特征值为,021p单位特征向量为.,,,21puuu令,2211ppiiiiXaXaXaF,,,2,1pi则记,),,,(21Tpiiiiaaaa,,,2,1pi定理设p个n维随机向量,,,21pXXX的协方差相应的,iiua.,,2,1pi,0),cov(jiFF.,,2,1,,pjiji,)var(iiF.,,2,1pi计量数模提高班专题四中国计量学院理学院数学系说明主成分就是以协方差矩阵Σ的单位特征向量之间互不相关,主成分的名次是按特征根取值大小的顺为系数的线性组合,主成分方差为Σ的特征值,主成分序排列的..),,,(2211ppdiagΛ.推论1pFFF,,,21的协差阵为对角阵主成分推论2主成分的总方差.11piipiii计量数模提高班专题四中国计量学院理学院数学系推论421,.pkiiikiFX推论522111,1.ppkikkiiiiiFXu推论3原始变量与主成分之间的相关系数.,,2,1,,,pkiuXFkiiikik计量数模提高班专题四中国计量学院理学院数学系主成份的选取与使用条件方差贡献率第k个主成分的方差贡献率前k个主成分的累积方差贡献率.)(11piikpiikFVarFVarke.)(1111piikiipiikiiFVarFVarkme在解决实际问题时,一般不是取p个主成分,而是根据累计贡献率的大小取前k个,累计贡献率达到85%;这样就基本包含了全部测量指标所具有的信息,这样即减少了变量的个数有便于对实际问题的分析和研究.计量数模提高班专题四中国计量学院理学院数学系使用条件主成分分析适宜用于大样本的场合.主成分分析要求变量之间有一定的相关关系:主成分分析)完全不相关(不必实施成分分析)低度相关(可以实施主)(主成分分析效果较好中度相关高度相关不完全相关成分分析)完全相关(不必实施主变量的相关程度计量数模提高班专题四中国计量学院理学院数学系主成分分析的算法设有n个样品,每个样品观测p项指标,将原始数据写成矩阵ppnijXXXxX,,,Δ21⑴将原始数据标准化(这里为了书写方便,不妨设上边矩阵已标准化了)。⑵建立变量的相关系数阵XXnRTppij1计量数模提高班专题四中国计量学院理学院数学系⑶求得特征根及相应的单位特征向量021pppppppaaaaaaaaaaaa211222122121111,,,⑷写出主成分ppiiiiXaXaXaF2211pi,,2,1包括对主成分的解释计量数模提高班专题四中国计量学院理学院数学系例3.1在企业经济效益的评价中,涉及的指标往往很多。为了简化系统结构,抓住经济效益评价中的主要问题,我们可由原始数据矩阵出发求主成分。在对我国部分省、市、自治区独立核算的工业企业的经济效益评价中,涉及到9项指标,原始数据见表3-1,即样品数n=28,变量数p=9。3.主成分分析的应用案例计量数模提高班专题四中国计量学院理学院数学系100固定资产原值实现值(%)100元固定资产原值实现利税(%)100元资金实现利税(%)100元工业总产值实现利税(%)100元销售收入实现利税(%)每吨标准煤实现工业产值(元)每千瓦时电力实现工业产值(元)全员劳动生产率(元/人.年)100元流动资金实现产值(元)北京(1)119.2930.9829.9225.9715.4821783.4121006296.7天津(2)143.9831.5930.2121.9412.2928524.2920254363.1河北(3)94.817.217.9518.149.3711672.0312607322.2山西(4)65.811.0811.0612.1516.848.821.6510166284.7内蒙(5)54.799.249.5416.866.278941.87564225.4辽宁(6)94.5121.1222.8322.3511.2814162.3613.386311.7吉林(7)80.4913.3613.7616.67.1413062.079400274.1黑龙江(8)75.8615.8216.6720.8610.3712672.269830267上海(9)187.7945.939.7724.4415.0943464.1131246418.6江苏(10)205.9627.6522.5813.427.8132024.6923377407.2浙江(11)207.4633.0625.7815.949.2838114.1922054385.5安徽(12)110.7820.720.1218.696.614682.2312578341.1福建(13)122.7622.5219.9318.348.3522002.6312164301.2表3-1计量数模提高班专题四中国计量学院理学院数学系江西(14)94.9414.714.1815.496.6916692.2410463274.4山东(15)117.5821.9320.8918.659.118202.817829331.1河南(16)85.9817.317.1820.127.6713061.8911247276.5湖北(17)103.9619.518.4818.779.1618292.7515745308.9湖南(18)104.0321.4721.2820.638.7212721.9813161309广东(19)136.4423.6420.8317.337.8529593.7116259334广西(20)100.7222.0420.921.889.6717322.1312441296.4四川(21)84.7314.3514.1716.937.9613102.3411703242.5贵州(22)59.0514.4814.3524.538.0910681.329710206.7云南(23)73.7221.9122.729.729.3814471.941251729