聚类分析主成分分析和典型相关分析含matlab程序

xuxu666
1 ℃
2020-03-15

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

-226-第十二章回归分析前面我们讲过曲线拟合问题。曲线拟合问题的特点是，根据得到的若干有关变量的一组数据，寻找因变量与（一个或几个）自变量之间的一个函数，使这个函数对那组数据拟合得昀好。通常，函数的形式可以由经验、先验知识或对数据的直观观察决定，要作的工作是由数据用昀小二乘法计算函数中的待定系数。从计算的角度看，问题似乎已经完全解决了，还有进一步研究的必要吗?从数理统计的观点看，这里涉及的都是随机变量，我们根据一个样本计算出的那些系数，只是它们的一个（点）估计，应该对它们作区间估计或假设检验，如果置信区间太大，甚至包含了零点，那么系数的估计值是没有多大意义的。另外也可以用方差分析方法对模型的误差进行分析，对拟合的优劣给出评价。简单地说，回归分析就是对拟合问题作的统计分析。具体地说，回归分析在一组数据的基础上研究这样几个问题：（i）建立因变量y与自变量mxxx,,,21L之间的回归模型（经验公式）；（ii）对回归模型的可信度进行检验；（iii）判断每个自变量),,2,1(mixiL=对y的影响是否显著；（iv）诊断回归模型是否适合这组数据；（v）利用回归模型对y进行预报或控制。§1数据表的基础知识1.1样本空间在本章中，我们所涉及的均是样本点×变量类型的数据表。如果有m个变量mxxx,,,21L，对它们分别进行了n次采样（或观测），得到n个样本点),,,(21imiixxxL，ni,,2,1L=则所构成的数据表X可以写成一个mn×维的矩阵。⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡==×TnTmnijeexXM1)(式中mTimiiiRxxxe∈=),,,(21L，ni,,2,1L=，ie被称为第i个样本点。样本的均值为),,,(21mxxxxL=，∑==niijjxnx11，mj,,2,1L=样本协方差矩阵及样本相关系数矩阵分别为TknkkmmijxexensS)()(11)(1−−−==∑=×⎟⎟⎠⎞⎜⎜⎝⎛==×jjiiijmmijsssrR)(其中-227-∑=−−−=nkjkjikiijxxxxns1))((111.2数据的标准化处理（1）数据的中心化处理数据的中心化处理是指平移变换，即jijijxxx−=*，ni,,2,1L=；mj,,2,1L=该变换可以使样本的均值变为0，而这样的变换既不改变样本点间的相互位置，也不改变变量间的相关性。但变换后，却常常有许多技术上的便利。（2）数据的无量纲化处理在实际问题中，不同变量的测量单位往往是不一样的。为了消除变量的量纲效应，使每个变量都具有同等的表现力，数据分析中常用的消量纲的方法，是对不同的变量进行所谓的压缩处理，即使每个变量的方差均变成1，即jijijsxx/*=其中∑=−−=nijijjxxns12)(11。还可以有其它消量纲的方法，如}{max/*ijiijijxxx=，}{min/*ijiijijxxx=jijijxxx/*=，}){min}{max/(*ijiijiijijxxxx−=（3）标准化处理所谓对数据的标准化处理，是指对数据同时进行中心化－压缩处理，即jjijijsxxx−=*，ni,,2,1L=，mj,,2,1L=。§2一元线性回归2.1模型一元线性回归的模型为εββ++=xy10，（1）式中，10,ββ为回归系数，ε是随机误差项，总是假设),0(~2σεN，则随机变量),(~210σββxNy+。若对y和x分别进行了n次独立观测，得到以下n对观测值),(iixy，ni,,2,1L=（2）这n对观测值之间的关系符合模型iixyεββ++=10，ni,,2,1L=（3）这里，ix是自变量在第i次观测时的取值，它是一个非随机变量，并且没有测量误差。对应于ix，iy是一个随机变量，它的随机性是由iε造成的。),0(~2σεNi，对于不同的观测，当ji≠时，iε与jε是相互独立的。2.2昀小二乘估计方法-228-2.2.1昀小二乘法用昀小二乘法估计10,ββ的值，即取10,ββ的一组估计值10ˆ,ˆββ，使iy与xyi10ˆˆˆββ+=的误差平方和达到昀小。若记∑=−−=niiixyQ121010)(),(ββββ则∑=−−==niiixyQQ121010,10)ˆˆ(),(min)ˆ,ˆ(10ββββββββ显然0),(10≥ββQ，且关于10,ββ可微，则由多元函数存在极值的必要条件得0)(21100=−−−=∂∂∑=niiixyQβββ0)(21101=−−−=∂∂∑=niiiixyxQβββ整理后，得到下面的方程组⎪⎪⎩⎪⎪⎨⎧=+=+∑∑∑∑∑=====niiiniiniiniiniiyxxxyxn1121101110ββββ（4）此方程组称为正规方程组，求解可以得到⎪⎪⎪⎩⎪⎪⎪⎨⎧−=−−−=∑∑==xyxxyyxxniiniii101211ˆˆ)())((ˆβββ（5）称10ˆ,ˆββ为10,ββ的昀小二乘估计，其中，yx,分别是ix与iy的样本均值，即∑==niixnx11，∑==niiyny11关于1β的计算公式还有一个更直观的表示方法，即∑∑==−−−=niiniiixxyyxx1211)())((ˆβ-229-∑∑∑∑∑=====−−−−⋅−−=niiniiniiiniiniiyyxxyyxxxxyy121211212)()())(()()(xyxyrss=式中∑=−−=niixxxns122)(11，∑=−−=niiyyyns122)(11，xyr是x与y的样本相关系数。显然，当iiyx,都是标准化数据时，则有0=x，0=y，1=xs，1=ys。所以，有0ˆ0=β，xyr=1ˆβ回归方程为xryxy=ˆ由上可知，对标准化数据，1ˆβ可以表示y与x的相关程度。2.2.210ˆ,ˆββ的性质作为一个随机变量，1ˆβ有以下性质。1．1ˆβ是iy的线性组合，它可以写成∑==niiiyk11ˆβ（6）式中，ik是固定的常量，∑=−−=niiiixxxxk12)(。证明事实上∑∑∑∑∑=====−−−−=−−−=niininiiiiniiniiixxxxyyxxxxyyxx12111211)()()()())((ˆβ由于0)()(1=−=−∑=xnxnyxxynii所以ininiiiyxxxx∑∑==−−=1121)(ˆβ2．因为1ˆβ是随机变量),,2,1(niyiL=的线性组合，而iy是相互独立、且服从正态分布的，所以，1ˆβ的抽样分布也服从正态分布。3．点估计量1ˆβ是总体参数1β的无偏估计，有-230-∑∑===⎟⎠⎞⎜⎝⎛=niiiniiiyEkykEE111)()ˆ(β∑∑∑===+=+=niiiniiiniixkkxEk1110101)(ββββ由于0)(1121=−−=∑∑∑===niniiiniixxxxk1)())(()(1211121=−−−=−−=∑∑∑∑∑=====niiniiiininiiiiniixxxxxxxxxxxxk所以11)ˆ(ββ=E4．估计量1ˆβ的方差为∑=−=niixx1221)()ˆ(Varσβ（7）这是因为∑∑∑∑=======⎟⎠⎞⎜⎝⎛=niiniiniiiniiikkykyk1221221211)(VarVar)ˆ(Varσσβ由于∑∑∑∑∑∑======−=−⎥⎦⎤⎢⎣⎡−=−−=niiniiniininiiiniixxxxxxxxxxk1212212121212)(1)()(1))((因此，式（7）得证。5．对于总体模型中的参数1β，在它的所有线性无偏估计量中，昀小二乘估计量1ˆβ具有昀小的方差。记任意一个线性估计量∑==niiiyc11~β式中ic是任意常数，ic不全为零，ni,,2,1L=。要求1~β是1β的无偏估计量，即111)()~(ββ==∑=niiiyEcE另一方面，由于iixyE10)(ββ+=，所以又可以写成-231-∑∑∑===+=+=niiiniiniiixccxcE11101101)()~(βββββ为保证无偏性，ic要满足下列限制01=∑=niic，01=∑=niiixc定义iiidkc+=，其中ik是式（6）中的组合系数，id是任意常数，则⎟⎠⎞⎜⎝⎛++==∑∑∑∑====niiiniiniiniidkdkc11212212212)~(Varσσβ由于∑∑∑∑∑=====−−−=−=niniiniiiiniiiiniiikxxxxckckdk1121211)()(0)(1)(1)(1212121211=−−−=−−−=∑∑∑∑∑∑======niiniiniiniiniiniiixxxxkxxcxxc而)ˆ(Var)(1122122βσσ=−=∑∑==niiniixxk所以∑=+=niid12211)ˆ(Var)~(Varσββ∑=niid12的昀小值为零，所以，当∑==niid120时，1~β的方差昀小。但是，只有当0≡id时，即iikc≡时，才有∑==niid120。所以，昀小二乘估计量1ˆβ在所有无偏估计量中具有昀小的方差。同理，可以得出相应于点估计量0ˆβ的统计性质。对于一元线性正态误差回归模型来说，昀小二乘估计量0ˆβ是iy的线性组合，所以，它的抽样分布也是正态的。它是总体参数0β的无偏估计量，即00)ˆ(ββ=E同样可以证明])(1[)ˆ(12220∑=−+=niixxxnVarσβ（8）-232-且0ˆβ是0β的线性无偏的昀小方差估计量。2.2.3其它性质用昀小二乘法拟合的回归方程还有一些值得注意的性质：1．残差和为零。残差iiiyyeˆ−=，ni,,2,1L=由第一个正规方程，得0)ˆˆ(11101=−−=∑∑==niiniixyeββ（9）2．拟合值iyˆ的平均值等于观测值iy的平均值，即yynynniinii==∑∑==111ˆ1（10）按照第一正规方程，有0)ˆˆ(110=−−∑=niiixyββ所以∑∑∑====+=niiniiniiyxy11101ˆ)ˆˆ(ββ3．当第i次试验的残差以相应的自变量取值为权重时，其加权残差和为零，即01=∑=niiiex（11）这个结论由第二个正规方程0)ˆˆ(110=−−∑=niiiixyxββ即可得出。4．当第i次试验的残差以相应的因变量的拟合值为权重时，其加权残差和为零，即0ˆ1=∑=iniiey（12）这是因为0ˆˆ)ˆˆ(1110110=+=+∑∑∑===niiiniiniiiexeexββββ5．昀小二乘回归线总是通过观测数据的重心),(yx的。事实上，当自变量取值为x时，由式（5）xy10ˆˆββ−=所以yxxyxy=+−=+=1110ˆ)ˆ(ˆˆˆββββ2.3拟合效果分析当根据一组观测数据得到昀小二乘拟合方程后，必须考察一下，是否真的能由所得-233-的模型（iixy10ˆˆˆββ+=）来较好地拟合观测值iy？用iixy10ˆˆˆββ+=能否较好地反映（或者说解释）iy值的取值变化？回归方程的质量如何？误差多大？对这些，都必须予以正确的评估和分析。2.3.1残差的样本方差记残差iiiyyeˆ−=，ni,,2,1L=残差的样本均值为0)ˆ(11=−=∑=niiiyyne残差的样本方差为∑∑∑===−−=−=−−=niiiniiniiyyneneenMSE121212)ˆ(2121)(21由于有01=∑=niie和01=∑=niiiex的约束，所以，残差平方和有)2(−n个自由度。可以证明，在对∑=niie12除以其自由度)2(−n后得到的MSE，是总体回归模型中)(2iVarεσ=的无偏估计量。记∑=−==niieenMSES1221（13）一个好的拟合方程，其残差总和应越小越好。残差越小，拟合值与观测值越接近，各观测点在拟合直线周围聚集的紧密程度越高，也就是说，拟合方程xy10ˆˆˆββ+=解释y的能力越强。另外，当eS越小时，还说明残差值ie的变异程度越小。由于残差的样本均值为零，所以，其离散范围越小，拟合的模型就越为精确。2.3.2判定系数（拟合优度）对应于不同的ix值，观测值iy的取值是不同的。建立一元线性回归模型的目的，就是试图以x的线性函数（x10ˆˆββ+）来解释y的变异。

聚类分析 主成分分析和典型相关分析 含matlab程序

聚类分析主成分分析和典型相关分析含matlab程序