数学建模方法详解--三十四种常用算法目录一、主成分分析法........................................................2二、因子分析法............................................................5三、聚类分析...............................................................9四、最小二乘法与多项式拟合..................................16五、方差分析法.........................................................22六、逼近理想点排序法..............................................27七、动态加权法..........................................................28八、灰色关联分析法..................................................30九、灰色预测法..........................................................32十、模糊综合评价......................................................34十一、时间序列分析法..............................................36十二、蒙特卡罗(MC)仿真模型..................................41十三、BP神经网络方法.............................................43十四、数据包络分析法(DEA)................................50十五、多因素方差分析法(基于SPSS).................53十六、拉格朗日插值............................................699一、主成分分析法一)、主成分分析法介绍:主成分分析(principalcomponentsanalysis,PCA)又称:主分量分析,主成分回归分析法。旨在利用降维的思想,把多指标转化为少数几个综合指标。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。二)、主成分分析法的基本思想:在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。同样,在科普效果评估的过程中也存在着这样的问题。科普效果是很难具体量化的。在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。如上所述,主成分分析法正是解决这一问题的理想工具。因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主要矛盾。上述想法可进一步概述为:设某科普效果评估要素涉及个指标,这指标构成的维随机向量为。对作正交变换,令,其中为正交阵,的各分量是不相关的,使得的各分量在某个评估要素中的作用容易解释,这就使得我们有可能从主分量中选择主要成分,削除对这一要素影响微弱的部分,通过对主分量的重点分析,达到对原始变量进行分析的目的。的各分量是原始变量线性组合,不同的分量表示原始变量之间不同的影响关系。由于这些基本关系很可能与特定的作用过程相联系,主成分分析使我们能从错综复杂的科普评估要素的众多指标中,找出一些主要成分,以便有效地利用大量统计数据,进行科普效果评估分析,使我们在研究科普效果评估问题中,可能得到深层次的一些启发,把科普效果评估研究引向深入。例如,在对科普产品开发和利用这一要素的评估中,涉及科普创作人数百万人、科普作品发行量百万人、科普产业化(科普示范基地数百万人)等多项指标。经过主成分分析计算,最后确定个或个主成分作为综合评价科普产品利用和开发的综合指标,变量数减少,并达到一定的可信度,就容易进行科普效果的评估。三)、主成分分析法的数学模型:其中:为第j个指标对应于第个主成分的初始因子载荷,为第l个主成分对应的特征值根据主成分表达式得出综合得分模型:四)、主成分分析法的基本原理:主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。五)、主成分分析法的作用:概括起来说,主成分分析主要由以下几个方面的作用。1.主成分分析能降低所研究的数据空间的维数。即用研究m维的Y空间代替p维的X空间(m<p),而低维的Y空间代替高维的x空间所损失的信息很少。即:使只有一个主成分Yl(即m=1)时,这个Yl仍是使用全部X变量(p个)得到的。例如要计算Yl的均值也得使用全部x的均值。在所选的前m个主成分中,如果某个Xi的系数全部近似于零的话,就可以把这个Xi删除,这也是一种删除多余变量的方法。2.有时可通过因子负荷aij的结论,弄清X变量间的某些关系。3.多维数据的一种图形表示方法。我们知道当维数大于3时便不能画出几何图形,多元统计研究的问题大都多于3个变量。要把研究的问题用图形表示出来是不可能的。然而,经过主成分分析后,我们可以选取前两个主成分或其中某两个主成分,根据主成分的得分,画出n个样品在二维平面上的分布况,由图形可直观地看出各样品在主分量中的地位,进而还可以对样本进行分类处理,可以由图形发现远离大多数样本点的离群点。4.由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量x做回归分析。5.用主成分分析筛选回归变量。回归变量的选择有着重的实际意义,为了使模型本身易于做结构分析、控制和预报,好从原始变量所构成的子集合中选择最佳变量,构成最佳变量集合。用主成分分析筛选变量,可以用较少的计算量来选择量,获得选择最佳变量子集合的效果。六)、主成分分析法的计算步骤:1、原始指标数据的标准化采集p维随机向量x=(x1,X2,...,Up)T)n个样品xi=(xi1,xi2,...,dip)T,I=1,2,…,n,n>p,构造样本阵,对样本阵元进行如下标准化变换:其中,得标准化阵Z。2、对标准化阵Z求相关系数矩阵其中,。3、解样本相关矩阵R的特征方程得p个特征根,确定主成分按确定m值,使信息的利用率达85%以上,对每个job,j=1,2,...,m,解方程组Rib=job得单位特征向量。4、将标准化后的指标变量转换为主成分U1称为第一主成分,U2称为第二主成分,…,Up称为第p主成分。5、对m个主成分进行综合评价对m个主成分进行加权求和,即得最终评价值,权数为每个主成分的方差贡献率。PS另一种易于理解的步骤:1、数据标准化;2、求相关系数矩阵;3、一系列正交变换,使非对角线上的数置0,加到主对角上;得特征根xi(即相应那个主成分引起变异的方差),并按照从大到小的顺序把特征根排列;4、求各个特征根对应的特征向量;用下式计算每个特征根的贡献率Vi;VI=xi/(x1+x2+........)5、根据特征根及其特征向量解释主成分物理意义七)、主成分分析法的案例:参见:基于主成分分析的力量结构指标的权重的计算、基于主成分析的江苏省地方高校创新力研究二、因子分析法一)因子分析法介绍:主成分分析通过线性组合将原变量综合成几个主成分,用较少的综合指标来代替原来较多的指标(变量)。在多变量分析中,某些变量间往往存在相关性。是什么原因使变量间有关联呢?是否存在不能直接观测到的、但影响可观测变量变化的公共因子?因子分析法(FactorAnalysis)就是寻找这些公共因子的模型分析方法,它是在主成分的基础上构筑若干意义较为明确的公因子,以它们为框架分解原变量,以此考察原变量间的联系与区别。例:随着年龄的增长,儿童的身高、体重会随着变化,具有一定的相关性,身高和体重之间为何会有相关性呢?因为存在着一个同时支配或影响着身高与体重的生长因子。那么,我们能否通过对多个变量的相关系数矩阵的研究,找出同时影响或支配所有变量的共性因子呢?因子分析就是从大量的数据中“由表及里”、“去粗取精”,寻找影响或支配变量的多变量统计方法。因此,可以说因子分析是主成分分析的推广,也是一种把多个变量化为少数几个综合变量的多变量分析方法,其目的是用有限个不可观测的隐变量来解释原始变量之间的相关关系。因子分析主要用于:1、减少分析变量个数;2、通过对变量间相关关系探测,将原始变量进行分类。即将相关性高的变量分为一组,用共性因子代替该组变量。二)、因子分析法的基本模型:因子分析法是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。它的基本思想是将观测变量进行分类,将相关性较高,即联系比较紧密的分在同一类中,而不同类变量之间的相关性则较低,那么每一类变量实际上就代表了一个基本结构,即公共因子。对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。因子分析模型描述如下:1、X=(x1,x2,…,xp)是可观测随机向量,均值向量E(X)=0,协方差阵Cov(X)=∑,且协方差阵∑与相关矩阵R相等(只要将变量标准化即可实现)。2、F=(F1,F2,…,Fm)(mp)是不可测的向量,其均值向量E(F)=0,协方差矩阵Cov(F)=I,即向量的各分量是相互独立的。3、e=(e1,e2,…,ep)与F相互独立,且E(e)=0,e的协方差阵∑是对角阵,即各分量e之间是相互独立的,则模型:x1=a11F1+a12F2+…+a1mFm+e1x2=a21F1+a22F2+…+a2mFm+e2xp=ap1F1+ap2F2+…+apmFm+ep称为因子分析模型,由于该模型是针对变量进行的,各因子又是正交的,所以也称为R型正交因子模型。其矩阵形式为:x=AF+e其中:x=,A=,F=,e=这里(1)m£p;(2)Cov(F,e)=0,即F和e是不相关的;(3)D(F)=Im,即F1,F2,…,Fm不相关且方差均为1;(4)D(e)=,即e1,e2,…,ep不相关,且方差不同。我们把F称为X的公共因子或潜因子,矩阵A称为因子载荷矩阵,e称为X的特殊因子。A=(aij),aij为因子载荷。数学上可以证明,因子载荷aij就是第i变量与第j因子的相关系数,反映了第i变量在第j因