数学建模案例分析8主成分分析的应用--概率统计方法建模

liyuan105
4 ℃
2020-01-01

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

§8主成分分析的应用主成分分析的基本思想是通过构造原变量的适当的线性组合，以产生一系列互不相关的新变量，从中选出少数几个新变量并使它们尽可能多地包含原变量的信息（降维），从而使得用这几个新变量替代原变量分析问题成为可能。即在尽可能少丢失信息的前提下从所研究的m个变量中求出几个新变量，它们能综合原有变量的信息，相互之间又尽可能不含重复信息，用这几个新变量进行统计分析（例如回归分析、判别分析、聚类分析等等）仍能达到我们的目的。设有n个样品，m个变量（指标）的数据矩阵(1)11121(2)21222()12mmnmnnnnmxxxxxxxxXxxxx寻找k个新变量12,,,()kyyykm，使得1、1122,(1,2,,)llllmmyaxaxaxlk2、12,,kyyy彼此不相关这便是主成分分析。主成分的系数向量12(,,,)llllmaaaa的分量lja刻划出第j个变量关于第l个主成分的重要性。可以证明，若12(,,,)Tmxxxx为m维随机向量，它的协方差矩阵V的m个特征值为120m，相应的标准正交化的特征向量为12,,,muuu，则12(,,,)Tmxxxx的第i主成分为(1,2,,)Tiiyuxim。称1/mijj为主成分(1,2,,)Tiiyuxim的贡献率，11/kmjjjj为主成分12,,kyyy的累计贡献率，它表达了前k个主成分中包含原变量12,,,mxxx的信息量大小，通常取k使累计贡献率在85%以上即可。当然这不是一个绝对不变的标准，可以根据实际效果作取舍，例如当后面几个主成分的贡献率较接近时，只选取其中一个就不公平了，若都选入又达不到简化变量的目的，那时常常将它们一同割舍。计算步骤如下：1、由已知的原始数据矩阵nmX计算样本均值向量12ˆ(,,,)Tmxxxx；其中11(1,2,,)niijjxximn2、计算样本协方差矩阵1ˆ()()ˆ1ijijVsn其中1()()(,1,2,,)nijliiljjlsxxxxijm3、把原始数据标准化，即ijjijjjxxx，记()nmijXx。形成样本相关矩阵ˆTRXX；4、求ˆR的特征根120m及相应的标准正交化的特征向量12,,,muuu，可得主成分为(1,2,,)Tiiyuxim。关于主成分的实际意义，要结合具体问题和相关的专业知识才能给出合理的解释。例1下表是10名初中男学生的身高（1x），胸围（2x），体重（3x）的数据，试进行主成分分析。身高（1x）/cm胸围（2x）/cm体重（3x）/kg149.569.538.5162.577.055.5162.778.550.8162.287.565.5156.574.549.0156.174.545.5172.076.551.0173.281.559.5159.574.543.5157.779.053.5由表中数据计算得到ˆ(161.2,77.3,51.2)Tx46.5717.0930.981ˆ21.1132.58ˆ155.53VSn解出ˆV的三个特征值和相应的三个标准正交化的特征向量为12399.00,22.79,1.411(0.56,0.42,0.71)Tu,2(0.83,0.33,0.45)Tu,3(0.05,0.84,0.54)Tu由于三个主成分的贡献率分别为99.022.791.4180.36%,18.50%,1.14%123.20123.20123.20当保留前两个主成分时，累计贡献率已达98.86%，因此第三个主成分可以舍去。得到的前两个样本主成分的表达式为11230.560.420.71yxxx21230.830.330.45yxxx现在我们来解释这两个主成分的意义，从1y的表达式可以看出，1y是身高、胸围、体重三个变量的加权和，当一个学生的1y数值较大时，可以推断其或较高或较胖或又高又胖，故1y是反映学生身材魁梧与否的综合指标。2y的表达式中系数的符号为一正（1x）两负（2x，3x），当一个学生的2y数值较大时，表明其1x大，而2x，3x小，即为瘦高个，故2y是反映学生体形特征的综合指标。需要指出的是，虽然利用主成分本身可对所涉及的变量之间的关系在一定程度上作分析，但这往往并不意味着分析问题的结束。主成分分析本身往往并不是最终目的，而只是达到某种目的的一种手段。很多情况下，主成分分析只是作为对原问题进行统计分析的中间步骤，目的是利用主成分变量代替原变量作进一步的统计分析，达到减少变量个数的效果。例如，利用主成分变量作回归分析、判别分析、聚类分析等等。下面再举一个利用主成分进行样品排序的例子。例2电子工业部所属的15个工厂某年份的经济效益数据如下表。其中1x—资金利税率（%）2x—固定资产利税率（%）3x—流动资金利税率（%）4x—全员利税率（%）5x—成本利税率（%）6x—流动资金周转天数厂序1x2x3x4x5x6x经济效益排序Z值1234567891069.87269.1094.38115.7423.857466.31260.0089.0193.3040.098067.26272.5489.2978.9026.708468.46250.1894.2476.8724.981839.45146.1754.0490.9517.4610924.82116.8631.5181.5910.4211730.2173.6051.2339.5231.0622731.24168.3138.3762.1614.2912923.29109.4229.5929.678.239923.1092.4130.8043.5712.48136(1)(2)(3)(4)(5)(6)(8)(7)(9)(10)0.7850.7270.6720.6340.2060.029-0.083-0.050-0.170-0.196111213141518.9557.6328.2421.9117.232318.6521.7114.359.638.261775.1027.276.388.606.462394.6618.426.248.594.542311.929.282.423.339.67135(11)(12)(13)(15)(14)-0.32-0.51-0.55-0.66-0.64按照上述步骤，可以计算出样本相关矩阵为10.97810.9950.9541ˆ0.8800.8950.86210.0080.7240.8420.64310.7590.8050.7200.7300.4081RˆR的特征根及相应的标准正交化的特征向量分别为i特征向量累计贡献率（%）5.03900.62300.10300.10300.02600.00040.4410.4370.4360.4100.359-0.3580.083-0.0920.175-0.1840.6670.6780.0130.057-0.0060.737-0.3600.568-0.364-0.401-0.3470.5010.502-0.2850.177-0.7570.5540.050-0.170-0.0950.796-0.243-0.551-0.002-0.0030.00683.794.597.599.599.9100第一个主成分为11234560.4410.4370.4360.410.3590.358yxxxxxx此主成分主要反映前四个经济指标的效果，因为其系数之值比较接近，它们几乎以一样的重要性综合说明了各厂的经济效益。第二个主成分为6543212678.0677.0184.0175.0092.0083.0xxxxxxy此主成分主要反映后两个经济指标的效果。由于前两个主成分的累计贡献率已达94.5%，因此可以选取1y，2y来评价这些工厂的综合经济效益。用下式作为每个样品的“综合数值”，按其大小给样品排序。1122kkZyfyfyf其中1/miijjf。这里120.8370.108Zyy。结果每个样品的Z值列于表中最右边一列，按Z值大小排序结果列于右边第二列。