回归的诊断---教研维基

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

回归的诊断出自教研维基目录1R2的缩水2残差分析2.1标准化残差2.2学生化残差2.3学生化剔除后残差3影响分析3.1Leverage3.2Cook'sD3.3DFBETA3.4DFBETAS4应对措施R2的缩水R2总是被高估的,这一高估受到样本容量的影响。更准确地说,是受到样本容量和预测量个数的比例的影响,即N/k。样本容量越小,R平方的高估就越严重。比如在线性回归中,若是只有一个预测量,只用2个数据点就可以完美地确定一条回归线,R2就被绝对地高估了;两个预测量,只用3个数据点就可以完美地确定一条回归线,R2也被绝对地高估了。因此,当预测量的个数增加时,样本容量也应该变大。到底N/k多大才合适,说法不一,有说至少15的,也有说至少30,甚至至少400的。因为R2其实等于预测值和真实值之间的相关系数的平方,而事实上若回归方程用于新的数据必然导致预测误差的增大,也就是预测值和真实值之间的相关系数的减小,因此R2必然是被高估的,因此有必要对其进行缩水(shrinkage)。R2的调整方法很多,一种常见的调整为:对于一元回归来说,则有:当更多预测量被加入模型时,如果新的预测量对模型没有足够的独特贡献,尽管R2本身会增大,但是R2的调整值就会减小。=1−(1−)ˆ2R2−1−’−1=1−(1−)ˆ2R2−1−2残差分析异常值(outlier)有两种,一种是真的,还有一种是假的。“假的”异常值是指由于错误造成的,比如数据录入错误、计算错误、测量错误等。“真的”异常值是指由于模型的缺陷、数据违背了统计假设、特殊个案等因素形成的异常值。残差分析(residualanalysis)通过残差来发现异常值。标准化残差标准化残差(StandardizedResidual,ZRESID)等于残差除以标准误,即:以上计算建立在一个假设上,即所有的残差都有相同的方差。ZRESID满足z分布。一般认为ZRESID2就可能是异常值。学生化残差为了回避标准化残差的方差齐性假设,我们使用学生化残差(StudentizedResidual,SRESID),又称内部学生化残差(InternallyStudentizedResidual)。它和标准化残差的区别在于,对每个X都单独计算标准误,即:其中hi为后面要用到的Leverage:然后就可以计算SRESID:SRESID满足自由度为N-k-1的t分布。学生化剔除后残差上面的计算仍然存在一个问题。如果一个数据本身是异常值的话,那么它就已经对标准误的计算产生了影响,最后的计算结果就是已经受到其干扰的结果。因此我们需要在计算每个元素的标准误时将该元素本身剔除出去。这一方法称为学生化剔除后残(StudentizedDeletedResidual,SDRESID),又称外部学生化残差(ExternallyStudentizedResidual)。第i个元素剔除自身后的标准误的计算为:其中是将该元素本身剔除掉以后计算所得的标准误。然后就可以计算SDRESID:=%!%/5.4=/!%/5.41−$%−−−−−=+$%1*42%42=%!%/!%=/!(%)/5.4(%)1−$%−−−−−/5.4(%)=(%)!%这种方法的不便之处在于需要为每个数据重新计算剔除其本身后的标准误。以下有两种替代的算法:SDRESID满足自由度为N-k-2的t分布,因此可以根据t分布来判断其值是否特殊。影响分析影响分析(influenceanalysis)通过单个数据元素对统计量的影响来发现异常值。LeverageLeverage就是上面用到的hi,即:Leverage具有以下特点:只和预测量有关。由预测量的变差决定。最大值为1,最小值为1/N。平均数为(k+1)/N。如果hi2(k+1)/N就认为其过高。Cook'sDCook'sD用来发现对统计量影响较大的数据元素,其影响可以来自预测量或校标量,或两者的混合。其计算式为:通常来说,如果Cook'sD大于4/(N-k-1)就可以认为是统计异常值。DFBETADFBETA表示剔除某个元素后回归统计量的变化量。DFBETAa(i)表示剔除某个元素后回归常数的变化量,其计算式为:=(%)!%/!(%)=(%)!%−’−2/(1−)−/.!/$%!2%−−−−−−−−−−−−−−=(%)%−’−2−’−1−2%−−−−−−−−−−−−−−−−−−=+$%1*42%42=%%2’+1$%1−$%=−=(%)(%)−2%[show]DFBETAb(i)表示剔除某个元素后回归系数的变化量,其计算式为:DFBETASDFBETA的大小受到预测量尺度的影响,因此引入DFBETAS(StandardizedDFBETA)。其计算式为:一般来说,时可以算作过大。在回归分析中回归系数比回归常数重要,因此DFBETASb(i)也比DFBETASa(i)重要。应对措施发现异常值后应当检查数据,看是否有错误,如果异常值不是错误造成的,那么可以采取的应对措施有:分开讨论。将所有的数据分析分成两组,一是包含异常值的,还有一个是不包含异常值的。让读者自行鉴别。转换变量。使用robustregression。如果有异常值而不报,不管是否将其保留,都是不诚实的。分类:教育统计取自“”1个分类:教育统计此页面最后修订于2011年8月19日(星期五)15:12。=−=(%)(%)−2%42!%1−$%=−=(%)(%)−%42!%1−$%=(%)(%)(%)/242−−−−−−−−−−−−−−=(%)(%)(%)142−−−−−−−−−−−−=(%)/−/.!/!2%1−$%−’−2DFBETAS3/−−√

1 / 4
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功