1第六章异方差2第一节异方差及其影响第二节异方差的发现和判断第三节异方差的克服和处理本章结构3第一节异方差及其影响一、异方差及其分类二、异方差的危害4一、异方差及其分类两变量和多元线性回归模型第三条假设都要求误差项是同方差的,就是误差项的方差是常数,即不随i变化。如果这条假设不满足,这时候称线性回归模型存在“异方差”或“异方差性”。异方差可以用图6.1中对应解释变量不同观测值和的误差项,分布密度函数形状不同加以反映。2)(iVariXjX5图6-1两变量线性回归模型的异方差Y0XiXjX6图6.1中对应线性回归模型误差项的方差随着或i的增大而增大,这种异方差称为“递增异方差”,是异方差最常见的类型。但也有方差变化趋势与上述相反的“递减异方差”,或者先增后减或先减后增的其他复杂类型的异方差。iX7异方差的本质特征是误差项波动幅度的变化。一般来说,随着经济变量数值的增大,波动幅度往往也会相应的增大。这一方面是因为随机因素的作用有随着经济变量数值的增大而增大的可能,另一方面也可能是随机性因素本身的变化规律作用的结果,此外也可能是观测和统计误差随着经济变量数值的增大而放大的结果。这些因素最终都可能导致线性回归模型误差项异方差问题。8由于数据和随机误差项性质的差异,一般来说异方差问题在截面数据的线性回归分析中更加常见,在时间序列数据中则相对要少一些。值得注意的是,当线性回归模型存在解释变量缺落、函数形式不准和参数改变等模型定式误差问题时也会表现出与异方差相似的特征,容易与由误差项变动幅度变化引起的真正异方差混淆。9例如两个变量有真实关系其中误差项满足线性回归模型的所有假设。但如果误以为Y和X之间的关系是:并认为,那么210XYXY100)(iE2121002)()(iiiiiXXEEVar10若记,则因此是的函数,即模型表现出异方差性。这种异方差本质上与误差项波动变化的异方差是不同的,是模型误差项均值非零的系统偏差导致的,我们称这种异方差为“假性的”。iiiXXXA12100iiiiXAXAEVar222)()(iVariX11二、异方差的危害异方差对以最小二乘估计为核心的线性回归分析的作用和价值有严重影响。异方差虽然不会影响最小二乘估计的无偏性,但最小二乘估计量方差的估计和最小方差性,都是以模型误差项同方差假设为基础的。当线性回归模型的误差项存在异方差问题时,普通最小二乘估计不再是方差最小的估计,某种形式的加权最小二乘估计才是最小方差的有效估计。12最小二乘估计量方差确定的困难,则会对以参数估计量的统计性质和分布特征为基础的统计推断等分析,以及区间估计和区间预测等造成严重影响,使这些统计推断失去基础。13第二节异方差的发现和判断一、残差序列图分析二、戈德菲尔德-夸特检验三、戈里瑟检验14一、残差序列分析利用模型回归残差序列的分布形态进行分析,是发现和判断异方差问题的基本方法。以i或为横轴,残差e为纵轴,作残差序列的分布图形,那么模型不存在异方差问题时,回归残差应该均匀地分布在横轴上下的一定范围内,如图6.2(a)。如果残差序列的分布形态如图6.2(b),的分布有随着的增大而越分散的趋势,那么应该怀疑存在异方差性,而且是递增异方差。kXiekX15图6.2异方差的发现和识别(a)(b)ekXiekXi16如果残差序列分布形态如图6.2(c)或(d),应该考虑递减异方差或复杂异方差的可能性。如果残差序列分布形态如图6.2(e)或(f),应该考虑假性异方差,也就是参数变化或函数设定偏差的可能性等。17图6.2异方差的发现和识别(c)(d)ekXiekXi18图6.2异方差的发现和识别(e)(f)ekXiekXi19残差序列图分析虽然直观简便,但有时无法作出明确的判断,特别是残差分布形态不很典型时很难得出结论。为此提出了一些更严密的判断方法,戈德菲尔德-夸特(Goldfeld-Quandt)检验和戈里瑟(Glejser)检验是其中比较常见的两种。20二、戈德菲尔德-夸特检验这种方法适合检验样本容量较大的线性回归模型的递增或递减型异方差性。我们以递增异方差为例说明戈-夸检验的思路和方法。模型存在递增异方差时会在回归残差序列的分布中反映出来,表现为其发散程度随某个解释变量的增大而不断增大。21如果将样本按排序,那么对应较小的回归残差,平均将明显小于对应较大的的回归残差。把按排序的观测样本分成数目相同的两部分,并为了加强显著性起见,去掉中间占样本总数大约1/4到1/3的部分样本,同时注意使剩余样本数为偶数。iXiXiXiX22对两个子样本分别进行回归,并计算这两组样本各自的回归残差平方和,若这两个残差平方和有明显差异或者它们之比明显异于1,就表明存在递增异方差问题。可以利用F检验确定上述残差平方和之比是否异于1。23最小二乘估计的回归残差平方和服从卡方分布,因此用上述两个残差平方和可以构造统计量其中表示对应较小样本的残差平方和。则表示对应较大样本的残差平方和,c是去掉的中间部分样本数目。1212221212221212iiiiiiiieeKcneKcneF121iie222iieiXiX24这个F统计量服从两自由度为的F分布。若给定显著性水平,则可以从F分布表中查出对应上述自由度的临界值。如果计算到的F统计量值,则可认为两个残差平方和之比明显大于1,误差项存在明显的递增异方差性。12KcnFFF25如果,则认为误差项没有明显的异方差性。事实上F越大,则表明异方差性越严重。检验递减异方差性的方法是相似的。只要把前面构造的F统计量的分子分母互换,就完全可以用同样的程序检验模型是否存在递减型异方差问题。对于复杂形态的异方差性,戈-夸检验无法应用。FF126三、戈里瑟检验戈-夸检验有一个缺点,就是无法确定异方差的具体模式,即方差是如何随解释变量或样本序数而变化的。由于异方差的具体模式对于克服异方差有重要作用,因此戈-夸检验这方面的弱点对它的价值有很大影响。“戈里瑟(Gleiser)检验”或与它相似的其他检验方法,在识别、确定异方差类型方面比戈-夸检验更有效,但在判断异方差的存在性方面也许略微不如戈-夸检验。27戈里瑟检验的思路是:模型误差项的异方差性会在回归残差序列的分布中反映出来,通常表现为随解释变量(或某个解释变量)变化的某种规律性。因为方差与误差项的符号无关,因此考察的分布情况。那么在存在明显异方差性时,会有明显的随解释变量变化的趋势。ieie28图6.3异方差的戈里瑟检验ee0jXa0jXbe0jXc29可以通过回归方法拟合与之间的关系。如果经过检验确定两者之间确实存在显著的函数关系,那么表明异方差确实存在。通常拟合的回归模型是,其中l根据图6.3中的分布形态,可以在中选择。ejXljXe211,2,1或l30当时,先作一个简单变换,然后用最小二乘法估计和的估计值,对的显著性检验等价于对模型误差项是否存在异方差性的检验。如果确实存在显著性,说明模型确实存在异方差性。异方差的具体模式也可以根据上述回归方程判断。1l31与戈里瑟检验相似的另一种检验方法,是根据对残差序列和残差平方序列的直观分析,采用适当的函数形式,对模型进行回归拟合与的关系,并通过检验它们之间是否存在显著关系判断原模型误差项是否有异方差问题。的函数形式反映原模型异方差的模式。jXfeXfej222ejXjXf32第三节异方差的克服和处理处理异方差,首先可以利用增长率具有消除随着数据数值增大而波动幅度增大问题的作用,通过改用增长模型来消除或避免异方差问题。但这些方法比较盲目,效果如何需要事后的检验评价判断。处理异方差更主要的方法,是根据异方差的具体形式,通过对模型的相应变换等,针对性地克服异方差问题。33如线性回归模型经检验,知误差项有如下形式的异方差性:可以用除模型的各项,得到iKiKiiXXY11022jiiXfjiXfjiijiKiKjiijijiiXfXfXXfXXfXfY110134新模型误差项的方差为:显然已经不存在异方差问题。用这个新模型进行线性回归分析,可以克服原模型的异方差问题,同样可以得到原模型所有参数的估计。2222111jijiijiijijiiXfXfXfVarXfXfVar35考察上述新模型最小二乘估计的回归残差平方和:可以发现该残差平方和相当于原模型最小二乘估计残差平方和,每一项都乘一个权重的加权平方和,其中权重即=2110)(1iKiKiijiXbXbbYXfViW)(1jiXf36因此通过上述模型变换得到的参数估计量也称为“加权最小二乘估计”。加权最小二乘估计正是克服线性回归模型异方差性的针对性方法,这种方法的实质可以理解为对方差较小部分的样本数据的信息更加重视。37[例6-1]在研究某地区居民的储蓄倾向时,得到了如表6.1的数据资料。判断用线性回归模型研究居民储蓄倾向时,误差项是否存在异方差,以及处理的方法。具体处理请参考eviews软件。38表6.1个人收入和储蓄数据n储蓄收入n储蓄收入1264877717157824127210592101816542560439099541914002650041311050820182927670512210979212200283006107119122220172743074061274723210529560850313499241600281509431142692522503210010588155222624203250011898167302725703525012950176632817203350013779185752919003600014819196353021003620015122221163312300382001617022288039数据在坐标平面上的散点分布0100020003000010000200003000040000XYYvs.X