主成分分析组员:时伟罗育奎谢权杨金龙2020/1/7环境学院主成分分析的重点1、掌握什么是主成分分析;2、理解主成分分析的基本思想;3、理解主成分求解方法;2020/1/7一、主成分分析的基本思想主成分分析:将原来较多的指标简化为少数几个新的综合指标的多元统计方法。主成分:由原始指标综合形成的几个新指标。依据主成分所含信息量的大小成为第一主成分,第二主成分等等。2020/1/7主成分分析得到的主成分与原始变量之间的关系:1、主成分保留了原始变量绝大多数信息。2、主成分的个数大大少于原始变量的数目。3、各个主成分之间互不相关。4、每个主成分都是原始变量的线性组合。2020/1/7主成分分析的运用:1、对一组内部相关的变量作简化的描述2、用来削减回归分析或群集分析(Cluster)中变量的数目3、用来检查异常点4、用来作多重共线性鉴定5、用来做原来数据的常态检定2020/1/7二、数学模型假设我们所讨论的实际问题中,有p个指标,我们把这p个指标看作p个随机变量,记为X1,X2,…,Xp,主成分分析就是要把这p个指标的问题,转变为讨论p个指标的线性组合的问题,而这些新的指标F1,F2,…,Fk(k≤p),按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。2020/1/7这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。主成分分析通常的做法是,寻求原指标的线性组合Fi。ppppppppppXuXuXuFXuXuXuFXuXuXuF221122221122122111112020/1/7满足如下的条件:1、每个主成分的系数平方和为1。即2、主成分之间相互独立,即无重叠的信息。即3、主成分的方差依次递减,重要性依次递减,即F1,F2,…,Fp分别称为原变量的第一、第二、…、第p个主成分。122221piiiuuupjijiFFCovji,,,,,,),(210)()(21pFVarFVarFVar)(2020/1/7主成分分析的几何解释假设有个样品,每个样品有二个变量,即在二维空间中讨论主成分的几何意义。设个样品在二维空间中的分布大致为一个椭园,如下图所示:将坐标系进行正交旋转一个角度,使其椭圆长轴方向取坐标y1,在椭圆短轴方向取坐标y2,旋转公式为:经过旋转变换,得到下面的新坐标2020/1/7了解了主成分分析的基本思想、数学模型后,问题的关键:1、如何进行主成分分析?(主成分分析的方法)基于相关系数矩阵还是基于协方差矩阵做主成分分析。当分析中所选择的经济变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。2、如何确定主成分个数?主成分分析的目的是简化变量,一般情况下主成分的个数应该小于原始变量的个数。关于保留几个主成分,应该权衡主成分个数和保留的信息。2020/1/7矩阵知识回顾:(1)特征根与特征向量A、若对任意的k阶方阵C,有数字与向量满足:,则称为C的特征根,为C的相应于的特征向量。B、同时,方阵C的特征根是k阶方程的根。(2)任一k阶方阵C的特征根的性质:C0ICj对角线上的元素之和矩阵CCtrkjj)(12020/1/7(3)任一k阶的实对称矩阵C的性质:A、实对称矩阵C的非零特征根的数目=C的秩B、k阶的实对称矩阵存在k个实特征根C、实对称矩阵的不同特征根的特征向量是正交的D、若是实对称矩阵C的单位特征向量,则若矩阵,是由特征向量所构成的,则有:jjjjC'jkjjC001'2020/1/7很显然,均值描述的是样本集合的中间点,它告诉我们的信息是很有限的,而标准差给我们描述的则是样本集合的各个样本点到均值的距离之平均。以这两个集合为例,[0,8,12,20]和[8,9,11,12],两个集合的均值都是10,但显然两个集合差别是很大的,计算两者的标准差,前者是8.3,后者是1.8,显然后者较为集中,故其标准差小一些,标准差描述的就是这种“散布度”。之所以除以n-1而不是除以n,是因为这样能使我们以较小的样本集更好的逼近总体的标准差,即统计上所谓的“无偏估计”。而方差则仅仅是标准差的平方2020/1/7统计学基础知识我们应该注意到,标准差和方差一般是用来描述一维数据的,但现实生活我们常常遇到含有多维数据的数据集,最简单的大家上学时免不了要统计多个学科的考试成绩。面对这样的数据集,我们就引入协方差的概念。我们可以仿照方差的定义:2020/1/7协方差可以这么来定义:2020/1/7协方差的结果有什么意义呢?如果结果为正值,则说明两者是正相关的(从协方差可以引出“相关系数”的定义),结果为负值就说明负相关的,如果为0,也是就是统计上说的“相互独立”。从协方差的定义上我们也可以看出一些显而易见的性质,如:2020/1/7协方差矩阵的定义:我们可以举一个简单的三维的例子,假设数据集有三个维度,则协方差矩阵为可见,协方差矩阵是一个对称的矩阵,而且对角线是各个维度上的方差。2020/1/7主成分分析的目标:1、从相关的X1,X2,…,Xk,求出相互独立的新综合变量(主成分)Y1,Y2,…,Yk。2、Y=(Y1,Y2,…,Yk)’所反映信息的含量无遗漏或损失的指标—方差,等于X=(X1,X2,…,Xk)’的方差。X与Y之间的计算关系是:那么主成分是如何计算和在环境中是如何应用的?AXYXXaaaaYYkkkkkk=即1111112020/1/7主成分在环境中的应用2020/1/7主成分分析是把描述环境质量的多个要素(样本)化为少数几个综合指标的一种统计方法。例:某区域有多个监测点(样本),每个监测点又有多种污染物浓度监测数据。这样对区域环境质量的表述和评价需要大量的数据,而实际上,一些监测点之间是具有相互关系的,通过主成分分析,找出由若干个指标线性组合而成的环境质量综合指标,这几个指标最显著地反映出各样本代表的环境质量状况的差异,且彼此又互不相关。这样通过对少数综合指标的分析,从中选择有代表性的监测点或污染物,以更合理地对区域环境质量进行评价。2020/1/7设有n个环境样本(n个监测点),每一个样本有m个评价指标(m种污染物),一般nm,于是形成样本矩阵X:2020/1/7主成分分析的实质是通过多维空间中坐标轴的旋转变换,找出p个(一般pm)主成分。为使样本降维后引起的方差最小,需找出坐标轴的最佳旋转。为此需要计算矩阵X的协方差矩阵C=(cij)m×m。由于C是一个实对称矩阵,因此根据线性代数原理,由C的特征值(λ)对应的特征向量(L)可以组成一个正交方阵L=(lij)m×m。2020/1/7根据特征值和特征向量的概念有:CL=λL右乘矩阵X:CLX=λLX令LX=Y:CY=λY由变量X线性组合得到新变量Y,且Y也是特征值λ对应的特征向量,即:2020/1/7一般y1,y2,···,ym按方差由大到小排列,其特征值也是按由大到小排列的,某一特征值λi实际就是变量yi的方差。因此,从m个分量中找到前面p个主成分,其方差占全部方差的比例大于85%时,可选择前面的p个分量作为主成分。计算公式:主成分分析计算过程1.写出原始样本矩阵X2.对原始数据进行标准化,消除纲量不同引起的差别3.计算样本均值和协方差矩阵4.求协方差矩阵C(或相关系数矩阵)的特征值和特征向量5.求主分量6.作图1.原始样本矩阵X2.数据标准化处理1)数据正规化将每个指标中n个样本中的最小值化为0,而最大值化为1,其余元素在0和1之间:2)数据正态化数据正态化的方法主要是根据正态变换的思想得到的,原理是将变量减去其均值后除以其标准差:3)数据指数化数据指数法原理是将变量除以其平均值:3.计算样本均值和协方差矩阵设指标均值矩阵M,其中元素为mj(j=1,2,···,m),指标协方差矩阵为C,其中元素为cpq(p=1,2,···,m;q=1,2,···,m),则计算公式如下:4.求协方差矩阵C(或相关系数矩阵)的特征值和特征向量一般用雅可比法可手工计算实对称矩阵C的非负特征值和特征向量,并将其按照由大到小的顺序排列。雅可比手工计算方法比较繁琐,且计算过程容易出错。目前许多计算机软件中都有矩阵特征值和特征向量的直接计算程序和指令,如Excel、MATLAB、MatchCAD等,利用这些软件可方便地进行计算。5.求主分量由这些特征向量组成m个新的指标,并由他们构成正交方阵L。计算前p个变量的方差占总累积方差的比例。一般当该比例大于85%时,就选择前面p个指标作为主分量。计算前面p个方程中的y1、y2、···、yp,即主分量的值。6.作图一般在主分量选取中,取前面两个作为主分量,其方差贡献率已经大于85%。由于主分量为原来指标的综合,因此其环境意义不是很明确直观。为直观表现出其环境意义,一般将这两个主分量分别作为平面直角坐标系中的横坐标x和纵坐标y,将n个环境样本的主分量标示在图上。并把图上距离较近的环境样本归为一类。这样为每个环境样本监测区域的环境质量状况分类做出科学合理的评价,并有利于分析不同评价监测区域环境样本差别的原因,为发现环境问题提供科学指导。主成分分析的案例分析案例1面源污染中磷流失多重影响因素主成分分析主成分分析案例二:全面了解对美国中部伊利诺伊州具有浅层排水系统的轮作农业地区的面源污染问题,磷流失的影响因素基本分为3大主成分:一是生物主成分,包括温度、植被类型、覆盖因子、生物量、散蒸量;二是水力主成分,降雨及流量;三是人为干扰主成分,施肥量及耕作内容.其中水力主成分对流失的影响最大,尤其是对浅层排水中磷流失的影响.从表中可以看出,所有影响因素都存在显著相关关系,如植被类型与覆盖系数、温度、蒸腾量呈显著相关(P<0.001),降雨量也与覆盖系数呈显著相关等,说明各影响因素之间都存在一定的相关关系.因此,抽取主成分并将多元数据进行降维是可行且有意义的.P值是配对t检验(pairedt-test)计算过程中得到的结果。用来评估前面所述相关程度计算结果的“显著程度”。在常用统计软件SPSS中,P值(p-value,有时显示为Sig-value)的计算是建立在如下两个假设基础上的:无效假设(nullhypothesis),两参量间不存在“线性”关联。备择假设(alternativehypothesis),两参量间存在“线性”关联。如果计算出的P值很小,比如为0.001,则可说“有非常显著的证据拒绝无效假设,相信备择假设,即两参量间存在显著的线性关联”。上表是各点抽取的主成分所有影响因素对磷酸盐流失影响方差的解释度.可以看出,所有点抽取的3个主成分均能够解释9个影响因素的70%方差及以上,说明抽取的主成分具有代表性,一般的统计教程上推荐方差解释度达到85%,但对于自然科学中的实际问题,方差解释度可以根据具体问题灵活确定.进一步由表中可以看出,在主成分中第一主成分占的方差解释度最大,平均达35%以上.进一步分析主成分抽取过程,发现所有监测点及其对应的地表径流和浅层排水数据均显示出类似的主成分趋势,意味着在该多重主成分分析过程中,6组数据显示出相同的趋势,这也说明即使在不同地点、不同的排水类型,这9个影响因素均会对其产生相同的影响,即以3大类主要影响类型的作用方式存在.上表为各因素在主成分方向上投影的载荷量.之前论证了各组数据存在显著差异,但通过标示的载荷量数据可以看出,所有6组主成分中均显示出相同的因素分布。其中第一主成分主要包括温度、植被类型、散蒸量、覆盖因子、干质量,第二主成分包括流量及降雨,第三主成分包括施肥量及耕作内容,这说明抽取的主成分对磷元素迁移影响显示出同质性.并且主成分中的影响因素在对应主成分中的载荷分量具有规律性.例如A中第一主成分中温度的载荷量最大,为0.9,其他5组数据也有相同结果,说明在不同组不同排水形式中温度起到的影响作用类似,同理可得其