数学建模-主成分分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

近几年赛题为例2009年A题制动器试验台的控制方法分析B题眼科病床的合理安排2010年A题储油罐的变位识别与罐容表标定B题上海世博会影响力的定量评估2011年A题城市表层土壤重金属污染分析B题交巡警服务平台的设置与调度2012年A题葡萄酒的评价B题太阳能小屋的设计近几年全国数学建模竞赛题2010年B题上海世博会影响力的定量评估2009年B题眼科病床的合理安排2011年A题城市表层土壤重金属污染分析2012年A题葡萄酒的评价均可归属为-基于数据分析的综合评价模型两类模型常用建模方法综合评价法测试分析法专题建模法信息合理运用法综合评价基本方法简易的方法有:最优权法法功效评分法综合指数法TOPSIS常用的方法有:灰色理论评价方法模糊综合评价法数据包络分析法熵权法主成份分析法层次分析法测试分析法回归分析曲线拟合计算机模拟与仿真专题建模法数学规划(线性规划与非线性规划)概率论与数理统计图论微分方程各学科实际问题信息合理运用法将与问题相关的论文合理运用将其他问题的论文合理运用07年选区的重新划分与统计物理问题实际背景,在众多评价问题中,人们往往会对评价样品收集尽可能多的指标,例如人口普查往往要调查每个人的姓名、年龄、性别、文化程度、住房、职业、收入、消费等几十项指标;再如,2012年葡萄评价有24指标。从收集资料的角度来看,收集较多的数据有利于完整反映样品的特征,但是这些指标从统计角度来看相互之间具有一定的依赖关系,从而使所观测的数据在反映信息上有一定重叠,同时又使得问题变得复杂。思考:如何减少变量,但信息量保留得较多。由此产生了主成分分析法。主成分分析也称主分量分析(principalcomponentsanalysis,PCA)是由美国的科学家哈罗德·霍特林(Haroldotelling)于1933年首先提出的。一、降维的两个准则准则1:信息量损失尽可能少。准则2:新主成分之间相关性低、重叠少。二、明确信息量的数学意义我们知道,当一个变量所取数据相近时,这个变量(数据)提供的信息量较为单一,当这个变量取数据差异较大时,说明它对各种场景的“遍历性”越强,提供的信息就更加充分,从数学角度来论,变量的标准差或方差越大,变量涵盖的信息越足。三、明确重叠少数学意义我们知道,当一个变量与有关联时难免表达信息有重复,没关联反映在数学上最好是两变量独立,而这一要求过强,较难满足,这里我们就要求新主成分之间无线性关系就好,反映在概率理论上就是每两个主成分之间的协方差为“0”或相关系数为“0”。引例:1xo假设共有n个样品,每个样品都测量了两个指标(X1,X2),在坐标系中,观察散点的分布,21xox1xo假设共有n个样品,每个样品都测量了两个指标(X1,X2),在坐标系中,观察散点的分布,21xox1xo假设共有n个样品,每个样品都测量了两个指标(X1,X2),在坐标系中,观察散点的分布,21xox1xo假设共有n个样品,每个样品都测量了两个指标(X1,X2),在坐标系中,观察散点的分布,21xox引例:单独看这n个点的分量,它们沿着方向和方向都具有相近的离散性,如果仅考虑其中的任何一个分量,那么包含在另一分量中的信息将会损失,因此,直接舍弃某个分量不是“确定主成分”的有效办法。1x1x1x2x2x2x2xo1x结论:为第一主成分,为第二主成分。换个角度观察事实上,散点的分布总有可能沿着某一个方向略显扩张,这里沿椭圆的长轴方向数据变化跨度就明显大于椭圆的短轴方向。结论:为第一主成分,为第二主成分。换个角度观察结论:长轴方向变量为第一主成分;短轴方向变量为第二主成分。结论:为第一主成分,为第二主成分。2Y1Y当新旧变量间夹角为时,由坐标变换公式可得主成分获得的数学模型确定主成分的数学模型:由坐标转换公式得112212cossinsincosYXXYXX我们看到新变量1Y和2Y是原变量1X和2X的线性组合,它的矩阵表示形式为:1122cossinsincosYXYXTX其中,T为旋转变换矩阵,它是正交矩阵,即有1TT或TTI。故由X到Y用的是正交变换。推广一般主成分确定的模型1111122112211222221122pppppppppppYtXtXtXTYtXtXtXTYtXtXtXTXXXppppppppXXXtttttttttYYY2121222211121121TXY或其中T是正交矩阵主成分满足的约束要求:①Y的各分量是不相关的;②并且Y的第一个分量的方差是最大的;第二个分量的方差次之,……,等等。③为了保持信息不丢失,Y的各分量方差和与X的各分量方差和相等。主成分的方差及它们的协方差这里如果我们就取m个主成分,应该注意到,对于1,,mYY有:()()()iiiiiiDYDTTDTTTXXΣ1,2,,im(,)(,)(,)ikikikikCovYYCovTTTCovTTTXXXXΣ,1,2,,ikm)(iYD其中表示方差,Cov表示协方差,这里X是多维随机向量,D(X)则表述的是X的协方差阵,一般用其中表示方差,Cov表示协方差,这里X是多维随机向量,D(X)则表述的是X的协方差阵,一般用其中表示方差,Cov表示协方差,这里X是多维随机向量,D(X)则表述的是X的协方差阵,一般用所以协方差矩阵是对称矩阵,且为非负定的!复习:关于随机向量的协方差矩阵),,,,(321nXXXXXX的协方差矩阵为jiijjiijnnnnnnXXXX),cov(),cov(,212222111211X的协方差矩阵为))()(([(),cov(jjiijiXEXXEXEXX第一主成分求法利用拉格朗日乘数法构造目标函数为:111111(,)(1)TTTTTΣ对目标函数11(,)T求导数有:1111220TTTΣ即1()0TΣI两边左乘1T得到11TTΣ由于X的协差阵Σ为非负定的,其特征方程的根均大于等于零,不妨设120p。由于1Y的方差为。那么,1Y的最大方差值为1,其相应的单位化特征向量为1T。0||IY1的方差11TT=第二主成分为,满足221TT,且2121(,)(,)0CovYYCovTTXX,使得222()DYTTΣ达到最大的22YTX。一般情形,第k主成分为,满足1kkTT,且(,)(,)0kikiCovYYCovTTXX(ik),使得()kkkDYTTΣ达到最大的kkYTX。第二主成分及第k主成分满足条件考虑到Y2=t21x1+t22x2+t23x3+...+tp1xp=T'2X,及我们的准则考虑到Y2=t21x1+t22x2+t23x3+...+tp1xp=T'2X,及我们的准则第二主成分及第k主成分求法在求第二主成分之前,注意到我们已经求得,2121(,)CovYYTTΣ21TT。?那么,如果2Y与1Y不相关,即有210TT或120TT。这时,我们可以构造求第二主成分的目标函数,即22222212(,,)(1)2()TTTTTTTΣ对目标函数22(,,)T求导数有:222122220TTTTΣ用1T左乘上式有1212110TTTTTTΣ由于120TTΣ,120TT,那么,110TT,即有0。从而2()0TΣI而且将方程两边同乘以T2’,有22TTΣ表明是∑的特征值,T'2为特征向量גּ第主成分求法综上:针对一般情形,第k主成分应该是在1kkTT且0kiTT或0ikTT(ik)的条件下,使得()kkkDYTTΣ达到最大的kkYTX。这样我们构造目标函数为11(,,)(1)2()kkkikkkkiikiTTTTTTTΣ对目标函数(,,)kkiT求导数有:112220kkkkiiikTTTTΣK结论:如果X的协差阵Σ的特征根为120p。由此知道若k为第k大特征根,其相应的单位化的特征向量为kT。则第k主成分XTYkk;kkYD)(;ikYYik,0),cov(;;TY其中T为的特征向量构成的正交矩阵。思考:总信息量不变吗?主成分保持信息总量不少性质:主成分的总方差等于原始变量的总方差。证明:由协方差定义及矩阵“迹”的定义知)()(1ipXDtr又由矩阵的迹与矩阵特征值关系pipiYDtr11)()(所以11()()ppiiiiDYDX主成分个数确定的标准由主成分的性质可以看出,主成分分析把p个原始变量12,,,pXXX的总方差()trΣ分解成了p个不相关的变量12,,,pYYY的方差之和1pkk。主成分分析的目的是减少变量的个数,所以一般不会使用所有p个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。这里我们称1pkkkk为第k个主成分kY的贡献率。若只取()mp个主成分,则称11pmmkkkk为主成分1,,mYY的累计贡献率,累计贡献率表明1,,mYY综合12,,,pXXX的能力。通常取m,使得累计贡献率达到一个较高的百分数(如85%以上)。主成分个数确定的标准构造样本阵样本阵,

1 / 66
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功