浅谈加权最小二乘法及其残差图

nohoochong
1 ℃
2019-12-25

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

1浅谈加权最小二乘法及其残差图——兼答孙小素副教授何晓群刘文卿ABSTRACTThepaperintroducessomeproblemsinrelationtoweightedleastsquareregression,andanswersaquestionaboutweightedresidualplots.关键词：异方差；加权最小二乘法；残差图；SPSS一、引言好几年没有翻《统计研究》了。最近，有一同行朋友打电话告诉我《统计研究》2005年第11期上刊登了一篇有关我与刘文卿合作编著的《应用回归分析》（2001.6.中国人民大学出版社）教材的文章。赶紧找到这期的《统计研究》，看到其中孙小素副教授的文章《加权最小二乘法残差图问题探讨——与何晓群教授商榷》一文，以下简称《孙文》。认真拜读后感触良多。首先衷心感谢孙小素副教授阅读了我们《应用回归分析》拙作的部分章节，同时感谢《统计研究》给我们提供这样一个好的机会，使我们能够借助贵刊对加权最小二乘法的有关问题谈谈更多的认识。《孙文》谈到《应用回归分析》教材中有关加权最小二乘法残差图的问题。摆出了与加权最小二乘法相关的三类残差图，指出第三类残差图的局限性。直接的问题是三类残差图的作用，而更深层的原因应该是对加权最小二乘法统计思想的理解和认识上的差异。二、对加权最小二乘法的认识1.加权最小二乘估计方法拙作《应用回归分析》中对加权最小二乘法有详尽的讲述，这里仅做简要介绍。多元线niippiipxxyQ1211010)(),,,(（1）普通最小二乘估计就是寻找参数p,,,10的估计值pˆ,,ˆ,ˆ10使式（1）的离差平方和Q达极小。式（1）中每个平方项的权数相同，是普通最小二乘回归参数估计方法。在误差项i等方差不相关的条件下，普通最小二乘估计是回归参数的最小方差线性无偏估计。然而在异方差的条件下，平方和中的每一项的地位是不相同的，误差项i的方差2i大的项，在式（1）平方和中的取值就偏大，在平方和中的作用就大，因而普通最小二乘估计的回归线就被拉向方差大的项，方差大的项的拟合程度就好，而方差小的项的拟合程度就差。由式（1）求出的pˆ,,ˆ,ˆ10仍然是p,,,10的无偏估计，但不再是最小方差线性无偏估计。加权最小二乘估计的方法是在平方和中加入一个适当的权数iw，以调整各项在平方和2中的作用，加权最小二乘的离差平方和为：niippiiipwxxywQ1211010)(),,,(（2）加权最小二乘估计就是寻找参数p,,,10的估计值pˆ,,ˆ,ˆ10使式（2）的离差平方和wQ达极小。所得加权最小二乘经验回归方程记做ppˆˆˆˆ110（3）理论上最优的权数iw为误差项方差2i的倒数,21iiw（4）误差项方差大的项接受小的权数，以降低其在式（2）平方和中的作用;误差项方差小的项接受大的权数，以提高其在平方和中的作用。由（2）式求出的加权最小二乘估计pˆ,,ˆ,ˆ10就是参数p,,,10的最小方差线性无偏估计。一个需要解决的问题是误差项的方差2i是未知的,因此无法真正按照式（4）选取权数。在实际问题中误差项方差2i通常与自变量的水平有关,可以利用这种关系确定权数。例如2i与第j个自变量取值的平方成比例时,即2i=k2ijx时,21ijixw（5）更一般的情况是误差项方差2i与某个自变量jx取值的幂函数mijx成比例，即2i=kmijx,其中m是待定的未知参数。此时权数为mijixw1（6）这时确定权数iw的问题转化为确定幂参数m的问题，可以借助SPSS软件解决。《应用回归》书中和《孙文》中都讲了这个方法，本文不再重述。需要注意的是，在实际问题中比例关系2i=kmijx只是近似的，式（6）确定的权数iw只是式（4）最优权数的近似值，因此所得的参数最小二乘估计也只是近似的最小方差线性无偏估计。2.变量变换的加权最小二乘法《孙文》中谈到：加权最小二乘法的实质是要对原始数据实施变换，获得新的解释变量和被解释变量，变换的方法是：2mjxyy（y表示变换后的被解释变量）（7）2mjhhxxx，h=0,1,2,……,p（hx是对应于原始变量hx的新解释变量）（8）对变换后的变量（pxxxy,,,,10）重新进行普通最小二成估计（注意，此处的回归模型不包含常数项，增加了数据变换后派生出的一个新解释变量20mjxx），即可得到加权最小二乘法的经验回归方程：ppˆˆˆˆ1100（9）以上是《孙文》中对加权最小二乘法的解释，其中公式（7）、（8）、（9）分别对应《孙文》中的公式（3）、（4）、（5）。33.两种方法的异同相同之处。显然，式（3）与式（9）两个回归方程是等价的，把式（3）同时乘以2mjxw后就转化为式（9）。不同之处。首先，式（3）的回归方程ppˆˆˆˆ110使用起来比较方便，因为利用该回归方程进行预测和控制时，无须按式（8）变换自变量的新值，直接将自变量的新值代入式（3）即可。对这一点孙小素副教授也是认同的。其实，所有方法的优劣评价根本就在于他是否方便于建模最终的应用。其次，虽然两种加权回归方法所得的回归方程是等价的，但是对回归效果的拟合优度和检验是不同的，式（3）的加权最小二乘的总离差平方和、回归离差平方和、残差平方和的计算公式和关系为：niniiwiwiwiniwiiewyywyyw112212)ˆ()(（10）其中wy是iy用iw加权的算术平均数。由于式（9）的变换加权最小二乘回归方程不含常数项，所以不满足离差平方和分解式，而是对直接的平方和满足分解式，总平方和、回归平方和、残差平方和的计算公式和关系为：niniiwiwniieyy112212ˆ（11）等价于niniiwiiwiniiiewywyw112212ˆ（12）对不含常数项的普通最小二乘回归，SPSS软件就是用上述公式计算平方和并进而计算判定系数2R和做F检验的。然而，这种做法的合理性是有欠缺的，因为总平方和niiy12不能如实反映因变量的变差，仅是为了满足平方和分解式而这样做，有削足适履的嫌疑。另外一种做法是以niyy12)(作为总离差平方和，把niniiwieyy1122)(作为回归离差平方和，而不使用niiwyy12)ˆ(作为回归离差平方和，Excel软件不含常数项（即指定常数项为零）的普通最小二乘回归就是采用的这个方法。对《孙文》所引用的《应用回归分析》例题，有关的计算结果见表1（a）—（d）。从表中可以清楚看出用变换加权最小二乘法计算离差平方和存在明显的问题，判定系数2R和检验统计量F严重失真。对同样的数据做变换加权最小二乘估计，市面上流行的不同软件的拟合优度检验却差别很大，SPSS软件计算出的F=442.2，2R=0.968；Excel软件计算出的F=74.26，2R=0.837。对其他数值就不逐一对比了。表1（a）普通最小二乘方差分析表（SPSS）来源平方和自由度均方F显著性R2回归18440108118440108300.77.53E-170.912残差17782022961317总计2021831130表1（b）加权最小二乘方差分析表（SPSS）来源平方和自由度均方F显著性R2回归6.65516.655423.77.51E-190.936残差0.455290.0157总计7.110304表1（c）变换加权最小二乘方差分析表（SPSS）来源平方和自由度均方F显著性R2回归13.89126.945442.21.88E-220.968残差0.455290.0157总计14.34631表1（d）变换加权最小二乘方差分析表（Excel）来源平方和自由度均方F显著性R2回归2.33221.16674.266.39E-120.837残差0.4554290.0157总计2.78831针对上述问题，变换加权最小二乘法实际上常用于式（5）成立的情况，即m=2，此时变换后的自变量jx≡1，回归参数j就相当于回归常数项了，对变换后的数据就可以用含有常数项的普通最小二乘估计方法，各种统计软件对变换加权最小二乘法回归的拟合优度检验的输出结果就都一致了。遗憾的是，即使是在这种特殊情况下也仍然与直接用加权最小二乘估计方法不一致，这只需仔细比较两种情况的总离差平方和公式niiyy12)(和niwiiyyw12)(的差异即可。这种通过变换变量求解加权最小二乘估计方法的作用是什么呢？引用文献[1]第180页的一段文字给予解释：“许多回归软件包允许用户有选择地使用具体的权数进行加权最小二乘分析。如果不能选择，通过对观察值的具体变换，使用不加权的最小二乘法，仍能得到加权最小二乘估计量。”可见通过变换变量求解加权最小二乘估计的方法仅是作为参数估计的一种计算手段而存在的，如果你使用的软件仅具有普通最小二乘功能，就只能用变换变量的方法求解加权最小二乘的参数估计。《应用回归分析》教材是结合SPSS软件编写的，而SPSS软件允许用户直接使用权数进行加权最小二乘分析，不必通过变换变量的方法求解加权最小二乘估计，因此我们在教材中没有给出这种通过变换变量求解加权最小二乘估计的方法。纵上所述，在拥有像SPSS这种能够直接计算加权最小二乘估计的软件时，就不必使用变换变量求解加权最小二乘估计的方法了。即使使用的是变换变量求解加权最小二乘估计的方法，也应该把式（9）变换回式（3）的形式，用来直接表示出原始变量之间的关系。因此《孙文》把式（9）称为加权最小二乘法的经验回归方程就显然不合适了。我们也没有见到其他的文献用这个称法。三、三类残差图的作用以残差为纵坐标轴以自变量（或回归值yˆ）为横坐标轴画的散点图就是残差图。《孙文》中的三类残差图如下：1.普通残差图。指用原始数据对线性回归模型做普通最小二乘估计所得的普通残差ie所做的残差图，也就是《孙文》中所称的第一类残差图。2.加权普通残差图。其残差是用原始数据做加权最小二乘估计所得的普通残差we（在《孙文》中记做we），也就是《孙文》中所称的加权派生残差图，或第三类残差图。3.加权变换残差图。其残差是用变换数据做加权最小二乘估计所得的普通残差we（在5《孙文》中记做we），也就是《孙文》中所称的加权残差图，或第二类残差图。we的计算方法有两种，第一种方法是用式（9）的变换加权最小二乘法得到，第二种方法是把加权普通残差we乘以2mjxw得到，即2mj。拙作《应用回归分析》一书中重点讲述的是普通残差图的作用，可以从直观上判断回归模型是否存在异方差性，还可以进一步用普通残差的绝对值与自变量计算等级相关系数，做相关性检验来判断是否存在异方差性。在教材正文中对加权残差图只是给出了软件绘制的方法和图形，并没有对图形结果做任何文字说明和评价。由于考虑有些初学者可能会产生误解，我们在教材第121页“本章小结与评注”中对加权残差图做了简要解释，引述如下：“从残差图来看，普通最小二乘估计只能照顾到残差大的项，而小残差项往往有整体的正偏或负偏。加权最小二乘估计的残差图，对大残差和小残差拟合的都好，大残差和小残差都没有整体的正偏或负偏。”以上这段文字指出了加权残差图的作用，如果在普通残差图中小残差有整体的正偏或负偏，而在加权普通残差图中得到明显的改善，这就说明加权最小二乘估计是显著有效的。两种残差图在《应用回归分析》和《孙文》中都已给出，本文就不重复绘制图形了，而是把三种残差的具体数值列在表2中，说明加权普通残差的作用。表2三种残差的数值序号iyixiwieiweiwe126487771.2161E-061692110.233210592101.1314E-06-27140.01539099