PrincipalComponentAnalysis题目:主成分分析PCA预习内容(1)均值的概念和定义,期望用来表示什么?(2)方差的概念和定义,方差用来表示什么?(3)协方差和协方差矩阵的概念和定义,协方差的作用及意义?请大家掌握:方差的数学运算,期望的数学运算,协方差矩阵的数学运算,方阵的特征值与特征向量的求解方法1前言假定你是一个公司的财务经理,掌握了公司的所有数据,比如固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等。实例1实例2你必须要把各个方面作出高度概括,用一两个指标简单明了地把情况说清楚。4(1)如何作主成分分析?当分析中所选择的变量具有不同的量纲,变量水平差异很大,应该怎样选择?在力求数据信息丢失最少的原则下,对高维的变量空间降维,即研究指标体系的少数几个线性组合,并且这几个线性组合所构成的综合指标将尽可能多地保留原来指标变异方面的信息。这些综合指标就称为主成分。要讨论的问题是:2.问题的提出5各个变量之间差异很大6(2)如何选择几个主成分。主成分分析的目的是简化变量,一般情况下主成分的个数应该小于原始变量的个数。应该保留几个主成分才能最大化的代表原始信息?7美国的统计学家斯通(Stone)在1947年关于国民经济的研究是一项十分著名的工作。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息、外贸平衡等等。在进行主成分分析后,竟以97.4%的精度,用三个新变量就取代了原17个变量。实例1:经济分析8实例2:成绩数据100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。9从本例可能提出的问题目前的问题是,能不能把这个数据的6个变量用一两个综合变量来表示呢?这一两个综合变量包含有多少原来的信息呢?能不能利用找到的综合变量来对学生排序呢?10PCA多变量问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂性.在许多实际问题中,多个变量之间是具有一定的相关关系的。因此,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息?事实上,这种想法是可以实现的.11原理:主成分分析就是试图在力保数据信息丢失最少的原则下,对这种多变量的数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理。很显然,识辨系统在一个低维空间要比在一个高维空间容易得多。PCA的目标就是找到这样的“主元”(即问题中的主元成分),最大程度的除冗余和噪音的干扰。问题描述如何确定PCA方法中,到底应该取几个主成分?请查阅文献并举例回答。HowtodefinethenumberofthecomponentsinPCA?Pleasefindthesolutionfromliterature.13先假定数据只有二维,即只有两个变量,它们由横坐标和纵坐标所代表;因此每个观测值都有相应于这两个坐标轴的两个坐标值;如果这些数据形成一个椭圆形状的点阵(这在变量的二维正态的假定下是可能的).14•2x1x1F2F••••••••••••••••••••••••••••••••••••主成分分析的几何解释平移、旋转坐标轴15•2x1x1F2F••••••••••••••••••••••••••••••••••••主成分分析的几何解释平移、旋转坐标轴•16•2x1x1F2F•••••••••••••••••••••••••••••••••••主成分分析的几何解释平移、旋转坐标轴•17•2x1x1F2F••••••••••••••••••••••••••••••••••••主成分分析的几何解释平移、旋转坐标轴•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••18-4-2024-4-2024椭圆有一个长轴和一个短轴。在短轴方向上,数据变化很少;在极端的情况,短轴如果退化成一点,那只有在长轴的方向才能够解释这些点的变化了;这样,由二维到一维的降维就自然完成了。19-4-2024-4-2024二维数据20进一步解释PCA当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就描述了数据的主要变化,而代表短轴的变量就描述了数据的次要变化。但是,坐标轴通常并不和椭圆的长短轴平行。因此,需要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆的长短轴平行。如果长轴变量代表了数据包含的大部分信息,就用该变量代替原先的两个变量(舍去次要的一维),降维就完成了。椭圆(球)的长短轴相差得越大,降维也越有道理。主要内容一、主成分的定义及导出二、主成分的几何意义三、主成分的性质和例子一、主成分的定义及导出设为一个维随机向量,,。考虑如下的线性变换希望在约束条件下寻求向量,使得达到最大,就称为第一主成分。设为的特征值,为相应的单位特征向量,且相互正交。则可求得第一主成分为它的方差具有最大值。12(,,,)pxxxxp111121211ppyaxaxaxax111aa1a111VyaΣa1y120pΣ12,,,,iiipitttt1,2,,ip111121211ppytxtxtxtx1ExμVxΣ?111VyaΣa最大化方差法:如果第一主成分所含信息不够多,还不足以代表原始的个变量,则需考虑再使用一个综合变量,为使所含的信息与不重叠,应要求我们在此条件和约束条件下寻求向量,使得达到最大,所求的称为第二主成分。求得的第二主成分为其方差为。一般来说,的第主成分是指:在约束条件和下寻求,使得达到最大。第主成分为p22yax2y1y12Cov,0yy221aa2a222VyaΣa2y212122222ppytxtxtxtx2xi1iiaaCov,0,1,2,,1kiyykiiaiiiVyaΣai1122,1,2,,iiipipiytxtxtxiptx二、主成分的几何意义在几何上,表明了第主成分的方向,是在上的投影值(即投影长度),是这些值的方差,它反映了在上投影点的分散程度。记,则主成分向量与原始向量有如下关系:该正交变换的几何意义是将中由构成的原维坐标轴作一正交旋转,一组正交单位向量表明了个新坐标轴的方向,这些新坐标轴彼此仍保持正交(或说垂直)。itiiyxitiit12,,,pyyyyyxTyxpR12,,,pxxxpp12,,,pttt26三、主成分的性质一、两个线性代数的结论1、若A是p阶实对称阵,则一定可以找到正交阵U,使ppp00000021AUU1pii.2.1,其中是A的特征根。272、若上述矩阵的特征根所对应的单位特征向量为ppppppuuuuuuuuu212222111211),,(p1uuU则实对称阵属于不同特征根所对应的特征向量是正交的,即有p1uu,,令AIUUUU283、均值()TTExMUU4、方差为所有特征根之和1()piiVarF2221212pp说明主成分分析把P个随机变量的总方差分解成为P个不相关的随机变量的方差之和。协方差矩阵的对角线上的元素之和等于特征根之和。?主成分选择总方差中属于第主成分(或被所解释)的比例为称为主成分的贡献率。第一主成分的贡献率最大,表明它解释原始变量的能力最强,而的解释能力依次递减。主成分分析的目的就是为了减少变量的个数,因而一般是不会使用所有个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来大的影响。iiy1piiiiyiy1y12,,,pxxx23,,,pyyyp12,,p前个主成分的贡献率之和称为主成分的累计贡献率,它表明解释的能力。通常取(相对于)较小的,使得累计贡献达到一个较高的百分比(如80%~90%)。此时,可用来代替,从而达到降维的目的,而信息的损失却不多。m11pmiiii12,,,myyy12,,,myyy12,,,pxxxpm12,,,myyy12,,,pxxx12,,p主成分的性质和例子34主成分分析的步骤)21(21nlxxxplll,,,,,,lXppjjlnliilxxxxxn))((11ˆ1第一步:由X的协方差阵Σx,求出其特征根,即解方程,可得特征根。021p一、基于协方差矩阵0ΣI35第二步:求出分别所对应的特征向量U1,U2,…,Up,12TiipiuuuiU,,,第三步:计算累积贡献率,给出恰当的主成分个数。12()TFikkpiiUX,,,,第四步:计算所选出的k个主成分的得分。将原始数据的中心化值:代入前k个主成分的表达式,分别计算出各单位k个主成分的得分,并按得分值的大小排队。*1122TiipipxxxxxxiiXXX,,,课堂作业:实例参数该实例符合三维高斯分布,具体参数如下:均值向量:μ=[0,5,2]T协方差矩阵:25171447410PCA实例软木塞数据集37作业(1)给定Rock数据,请使用PCA方法,找出类marble和granite的主成分特征集合。线性判别分析(LDA)LinearDiscriminantAnalysis引入主要内容一、LDA介绍二、LDA基本思想三、LDA目标四、LDA与PCA区别五、LDA的公式推导六、LDA实例介绍线性判别分析(LinearDiscriminantAnalysis,LDA),也叫做Fisher线性判别(FisherLinearDiscriminant,FLD),是模式识别的经典算法,1936年由RonaldFisher首次提出,并在1996年由Belhumeur引入模式识别和人工智能领域。基本思想线性判别分析的基本思想是将高维的模式样本投影到最佳鉴别矢量空间,以达到抽取分类信息和压缩特征空间维数的效果。投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离,即模式在该空间中有最佳的可分离性。因此,它是一种有效的特征抽取方法。使用这种方法能够使投影后模式样本的类间散布矩阵最大,并且同时类内散布矩阵最小。可以看到两个类别,一个绿色类别,一个红色类别。左图是两个类别的原始数据,现在要求将数据从二维降维到一维。直接投影到x1轴或者x2轴,不同类别之间会有重复,导致分类效果下降。右图映射到的直线就是用LDA方法计算得到的,可以看到,红色类别和绿色类别在映射之后之间的距离是最大的,而且每个类别内部点的离散程度是最小的(或者说聚集程度是最大的)。LDA的目标:LDA的目标:我们分类的目标是,使得类别内的点距离越近越好(集中),类别间的点越远越好。LDA与PCA区别:LDA与PCA(主成分分析)都是常用的降维技术。PCA主要是从特征的协方差角度,去找到比较好的投影方式。LDA更多的是考虑了标注,即希望投影后不同类别之间数据点的距离更大,同一类别的数据点更紧凑。二分类LDA推导上式实际上就是一种投影,是将一个高维的点投影到一条高维的直线上,LDA最求的目标是,给出一个标注了类别的数据集,投影到了一条直线之后,能够使得点尽量的按类别区分开,当k=2即二分类问题的时候,如下图所示:红色的方形的点为0类的原始点、蓝色的方形点为1类的原始点,经过原点的那条线就是投影的直线,从图上可以清楚的看到,红色的点和蓝色的点被原点明显的分开了,这个数据只是随便画的,如果在高维的情况下,看起来会更好一点。下面我来推导一下二分类LDA问题的公式:首先给定特征为d维的