第四章主成分分析第一节主成分的主要思想第二节主成分的几何意义及数学推导第三节主成分的性质第四节主成分方法的步骤第五节实例分析与计算机实现多元统计分析处理的是多变量(多指标)问题。由于变量较多,增加了分析问题的复杂性。但在实际问题中,变量之间可能存在一定的相关性,因此,多变量中可能存在信息的重叠。人们自然希望通过克服相关性、重叠性,用较少的变量来代替原来较多的变量,而这种代替可以反映原来多个变量的大部分信息,这实际上是一种“降维”的思想。汇报什么?假定你是一个公司的财务经理,掌握了公司的所有数据,比如固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等。如果让你向上面介绍公司状况,你能够把这些指标和数字都原封不动地摆出去吗?当然不能。你必须要把各个方面作出高度概括,用一两个指标简单明了地把情况说清楚。主成分分析每个人都会遇到有很多变量的数据。比如全国或各个地区的带有许多经济和社会变量的数据;各个学校的研究、教学等各种变量的数据等等。这些数据的共同特点是变量很多,在如此多的变量之中,有很多是相关的。人们希望能够找出它们的少数“代表”来对它们进行描述。下面介绍两种把变量维数降低以便于描述、理解和分析的方法:主成分分析(principalcomponentanalysis)和因子分析(factoranalysis)。实际上主成分分析可以说是因子分析的一个特例。在引进主成分分析之前,先看下面的例子。一项十分著名的工作是美国的统计学家斯通(stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。§1主成分基本思想在进行主成分分析后,竟以97.4%的精度,用三项变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展或衰退的趋势F3。更有意思的是,这三个变量其实都是可以直接测量的。斯通将他得到的主成分与实际测量的总收入I、总收入变化率I以及时间t因素做相关分析,得到下表:6F1F2F3i△itF11F201F3001i0.995-0.0410.057l△i-0.0560.948-0.124-0.102lt-0.369-0.282-0.836-0.414-0.11217主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法。在社会经济的研究中,为了全面系统的分析和研究问题,必须考虑许多经济指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但在某种程度上存在信息的重叠,具有一定的相关性。8成绩数据(STUDENT.SAV)100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。9从本例可能提出的问题目前的问题是,能不能把这个数据的6个变量用一两个综合变量来表示呢?这一两个综合变量包含有多少原来的信息呢?能不能利用找到的综合变量来对学生排序呢?这一类数据所涉及的问题可以推广到对企业,对学校进行分析、排序、判别和分类等问题。10主成分分析例中的的数据点是六维的;也就是说,每个观测值是6维空间中的一个点。我们希望把6维空间用低维空间表示。先假定只有二维,即只有两个变量,它们由横坐标和纵坐标所代表;因此每个观测值都有相应于这两个坐标轴的两个坐标值;如果这些数据形成一个椭圆形状的点阵(这在变量的二维正态的假定下是可能的)那么这个椭圆有一个长轴和一个短轴。在短轴方向上,数据变化很少;在极端的情况,短轴如果退化成一点,那只有在长轴的方向才能够解释这些点的变化了;这样,由二维到一维的降维就自然完成了。11主成分分析当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就描述了数据的主要变化,而代表短轴的变量就描述了数据的次要变化。但是,坐标轴通常并不和椭圆的长短轴平行。因此,需要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆的长短轴平行。如果长轴变量代表了数据包含的大部分信息,就用该变量代替原先的两个变量(舍去次要的一维),降维就完成了。椭圆(球)的长短轴相差得越大,降维也越有道理。12-4-2024-4-202413主成分分析对于多维变量的情况和二维类似,也有高维的椭球,只不过无法直观地看见罢了。首先把高维椭球的主轴找出来,再用代表大多数数据信息的最长的几个轴作为新变量;这样,主成分分析就基本完成了。注意,和二维情况类似,高维椭球的主轴也是互相垂直的。这些互相正交的新变量是原先变量的线性组合,叫做主成分(principalcomponent)。14主成分分析试图在力保数据信息丢失最少的原则下,对这种多变量的截面数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理。很显然,识辨系统在一个低维空间要比在一个高维空间容易得多。15在力求数据信息丢失最少的原则下,对高维的变量空间降维,寻找主成分,即研究指标体系的少数几个线性组合,这些综合指标将尽可能多地保留原来指标变异方面的信息。主成分分析(1)基于相关系数矩阵还是基于协方差矩阵做主成分分析。当分析中所选择的变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。(2)选择几个主成分。主成分分析的目的是简化变量,一般情况下主成分的个数应该小于原始变量的个数。关于保留几个主成分,应该权衡主成分个数和保留的信息。(3)如何解释主成分所包含的实际意义。16主成分分析主成分分析也称主分量分析,是由Hotelling于1933年首先提出的。由于多个变量之间往往存在着一定程度的相关性。人们自然希望通过线性组合的方式,从这些指标中尽可能快地提取信息。当第一个线性组合不能提取更多的信息时,再考虑用第二个线性组合继续这个快速提取的过程,……,直到所提取的信息与原指标相差不多时为止。这就是主成分分析的思想。一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分量,就得到一个更低维的随机向量;因此,通过主成分既可以降低数据“维数”又保留了原数据的大部分信息。主成分分析的主要思想我们知道,当一个变量只取一个数据时,这个变量(数据)提供的信息量是非常有限的,当这个变量取一系列不同数据时,我们可以从中读出最大值、最小值、平均数等信息。变量的变异性越大,说明它对各种场景的“遍历性”越强,提供的信息就更加充分,信息量就越大。主成分分析中的信息,就是指标的变异性,用标准差或方差表示它。主成分分析假设我们所讨论的实际问题中,有p个指标,我们把这p个指标看作p个随机变量,记为X1,X2,…,Xp,主成分分析就是要把这p个指标的问题,转变为讨论p个指标的线性组合的问题,而这些新的指标F1,F2,…,Fk(k≤p),按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。19§2几何解释与数学推导ppppppppppXuXuXuFXuXuXuFXuXuXuF22112222112212211111这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。主成分分析通常的做法是,寻求原指标的线性组合Fi。20主成分分析的数学模型满足如下的条件:222121iipiuuupjijiFFCovji,,,,,,),(210)()(21pFVarFVarFVar)((2)主成分之间相互独立,即无重叠的信息。即(3)主成分的方差依次递减,重要性依次递减,即(1)每个主成分的系数平方和为1。即21主成分分析的数学模型•2x1x1F2F••••••••••••••••••••••••••••••••••••主成分分析的几何解释平移、旋转坐标轴•2x1x1F2F••••••••••••••••••••••••••••••••••••主成分分析的几何解释平移、旋转坐标轴•考虑两种极端的情形:•一种是椭圆的长轴与短轴的长度相等,即椭圆变成圆,第一主成分只含有二维空间点的约一半信息,若仅用这一个综合变量,则将损失约50%的信息,这显然是不可取的。造成它的原因是,原始变量X1和X2的相关程度几乎为零,也就是说,它们所包含的信息几乎不重叠,因此无法用一个一维的综合变量来代替。•另一种是椭圆扁平到了极限,变成F1轴上的一条线,第一主成分包含有二维空间点的全部信息,仅用这一个综合变量代替原始数据不会有任何的信息损失,此时的主成分分析效果是非常理想的,其原因是,第二主成分不包含任何信息,舍弃它当然没有信息损失。主成分分析的几何解释•2x1x1F2F••••••••••••••••••••••••••••••••••••主成分分析的几何解释平移、旋转坐标轴••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••2x1x1F2F•••••••••••••••••••••••••••••••••••主成分分析的几何解释平移、旋转坐标轴•为了方便,我们在二维空间中讨论主成分的几何意义。设有n个样品,每个样品有两个观测变量xl和x2,在由变量xl和x2所确定的二维平面中,n个样本点所散布的情况如椭圆状。由图可以看出这n个样本点无论是沿着xl轴方向或x2轴方向都具有较大的离散性,其离散的程度可以分别用观测变量xl的方差和x2的方差定量地表示。显然,如果只考虑xl和x2中的任何一个,那么包含在原始数据中的经济信息将会有较大的损失。主成分分析的几何解释将xl轴和x2轴先平移,再同时按逆时针方向旋转角度,得到新坐标轴Fl和F2,则112112yxcosxsinyxsinxcos1122UxyxcossinyxsincosU为正交旋转变换矩阵主成分分析的几何解释旋转变换的目的是为了使得n个样品点在Fl轴方向上的离散程度最大,即Fl的方差最大。变量Fl代表了原始数据的绝大部分信息,在研究某些实际问题时,即使不考虑变量F2也无损大局。经过上述旋转变换原始数据的大部分信息集中到Fl轴上,对数据中包含的信息起到了浓缩作用。主成分分析的几何解释Fl,F2除了可以对包含在xl,x2中的信息起着浓缩作用之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。二维平面上各点的方差大部分都归结在Fl轴上,而F2轴上的方差很小。Fl和F2称为原始变量x1和x2的综合变量。F简化了系统结构,抓住了主要矛盾。主成分分析的几何解释一、两个线性代数的结论1、若A是p阶实对称阵,则一定可以找到正交阵U,使ppp00000021AUU1pii.2.1,其中是A的特征根。主成分分析的数学推导2、若上述矩阵的特征根所对应的单位特征向量为ppppppuuuuuuuuu212222111211),,(p1uuU则实对称阵A属于不同特征根所对应的特征向量是正交的,即有p1uu,,令IUUUU主成分分析的数学推导(一)第一主成分设X的协方差阵为2212222111221pppppxΣ由于Σx为非负定的对称阵,则有利用线性代数的知识可得,必存在正交阵U,使得p001UΣUX主成分分析的数学推导其中1,2,…,p为Σx的特征根,不妨假设12…p。而U恰好是由特征根相对应的特征向量所组成的正交阵。ppppppuuuuuuuuu212222111211),,(p1uuUpiiiuuu,,,21iUiPi,,2,1下面我们来看,是否由U的第一列元素所构成为原始变量的线性组合是否有最大的方差。主成分分析的数学推导设有p维正交向量111111aXppFaXaX1211111)(a