1第五章异方差性本章教学要求:根据类型,异方差性是违背古典假定情况下线性回归模型建立的另一问题。通过本章的学习应达到,掌握异方差的基本概念包括经济学解释,异方差的出现对模型的不良影响,诊断异方差的方法和修正异方差的方法。经过学习能够处理模型中出现的异方差问题。第一节异方差性的概念一、例子例1,研究我国制造业利润函数,选取销售收入作为解释变量,数据为1998年的食品年制造业、饮料制造业等28个截面数据(即n=28)。数据如下表,其中y表示制造业利润函数,x表示销售收入(单位为亿元)。2Y对X的散点图为从散点图可以看出,在线性的基础上,有的点分散幅度较小,有的点分散幅度较大。因此,这种分散幅度的大小不一致,可以认为是由于销售收入的影响,使得制造业利润偏离均值的程度发生了变化,而这种偏离均值的程度大小不同是一种什么现象?如何定义?如果非线性,则属于哪类非线性,从图形所反映的特征看并不明显。下面给出制造业利润对销售收入的回归估计。3模型的书写格式为2ˆ12.03350.1044(0.6165)(12.3666)0.8547,..84191.34,152.9322213.4639,146.4905YYXRSEFYs通过变量的散点图、参数估计、残差图,可以看到模型中(随机误差)很有可能存在一种系统性的表现。例2,改革开放以来,各地区的医疗机构都有了较快发展,不仅政府建立了一批医疗机构,还建立了不少民营医疗机构。各地医疗机构的发展状况,除了其他因素外主要决定于对医疗服务的需求量,而医疗服务需求与人口数量有关。为了给制定医疗机构的规划提供依据,分析比较医疗机构与人口数量的关系,建立卫生医疗机构数与人口数的回归模型。根据四川省2000年21个地市州医疗机构数与人口数资料对模型估计的结果如下:iiXY3735.50548.563ˆ(291.5778)(0.644284)t=(-1.931062)(8.340265)785456.02R774146.02R56003.69F式中Y表示卫生医疗机构数(个),X表示人口数量(万人)。从回归模型估计的4结果看,人口数量对应参数的标准误差较小,t统计量远大于临界值,说明人口数量对医疗机构确有显著影响,可决系数和修正的可决系数还可以,F检验结果也明显显著。表明该模型的估计效果还不错,可以认为人口数量每增加1万人,平均说来医疗机构将增加5.3735个。然而,这里得出的结论可能是不可靠的,按照四川省的经济水平和实际情况看,平均说来每增加1万人口可能并不需要增加这样多的医疗机构,所得结论并不符合真实情况。那末,有什么充分的理由说明这一回归结果不可靠呢?更为接近真实的结论又是什么呢?二、异方差的定义设模型为122331,2,,iiikkiiYXXXuin如果对于模型中随机误差项iu,有22(|)(|),1,2,3,,.iiiiiVaruXEuXin(()0iEu)则称iu具有异方差性。进一步,把异方差看成是由于某个解释变量的变化而引起的,则22(|)()iiiiVaruXfX例1,一个食品支出与收入的关系。表明异方差的产生与人们的收入状况有关。设食品支出与收入之间的关系为2123ttttYXXu式中,Y为食品支出,X为收入,X2为收入的平方,并且230,0。在食品支出与收入这种假定关系下,当X很大的时候,Y与均值2123()EYXX的偏差有可能比当X很小时大。这是由于低收入住户的食品支出几乎全部由收入来解释,而高收入住户的食品支出在很大程度上取决于其它因素,这样就出现了高收入住户的食品支出有一部分没有得到其收入的解释,而这一部分可能会相当大。例2,研究浙江省农业总产值与农业劳动力人数、耕地面积之间的关系。选5取该省17个县市1992年的数据资料(截面数据),为了研究的方便,将各县市按农业总产值从小到大进行了排列。通过EViews的操作可以看到该问题中的农业总产值与其均值之间差异程度的变化现象。例3,根据美国一项制造业调查的资料,可以看到企业规模越大,平均生产力会越高,但生产力的波动也变大了(用标准差反映),数据见下表。雇佣人数平均生产力生产力的标准差1-45-910-1920-4950-99100-249250-499500-9991000-249993558544796283758389941897951028111750248726423055270631194493491058935550表明生产力的波动随着企业人数的增加而变大。三、产生异方差的背景1、由于模型中缺失了某些重要解释变量,或者是随着时间的推移有可能成为重要影响因素的变量,但也应注意设定误差问题。2、截面数据更易引起异方差(时间序列数据也要引起异方差,比如人们的打字技术随时间推移而出现的差异)。3、由于样本数据的观测误差。4、异方差的出现与某个解释变量的变动有关。5、模型的设定误差。在实际经济问题中,人们很难得到总体u的信息,因此,我们只能够通过对残差e的认识和处理,来实现对总体随机误差是否存在异方差的推断和分析。第二节异方差性对模型的影响一、在异方差存在的前提下,参数估计值的特性61、参数估计值仍是无偏的。设模型为niUXYiii,,2,1,21对于参数2的估计量2ˆ用如下离差形式表示22ˆiiixyx式中YYyXXxiiii,。则iiiuxy2UUuii222222222222222)()()ˆ()(ˆiiiiiiiiiiiiiiiiiiiixuxExuxEExuxxuxxxuxxxyx在证明中用了假定0)(iiuxE。2、参数估计值的方差不再是最小。在异方差下)()ˆ()()()()()()(2)()(2ˆ)ˆ(ˆ)ˆ(22222222222222222222222222222222bxVaraxxxuExxuuExxuExxuuxxuxExuxExuxEEEEVariijiiiijiiiijijijijiiiijijijijiiiiiiiii同方差下有同理在上述推导中用了假定jiuuEji,0)(。在上述讨论的过程中,用到了边际分析的思想。7比较上述(a)式与(b)式的结果,可以看到只有当对每个i都有22i时,才能相等。因此,在同方差假定下,有参数估计值的方差最小,而在异方差下,参数估计值的方差就不再最小了。二、参数显著性检验失效在参数估计中,如果忽略上述差异,仍然用(b)作为参数估计方差去衡量,可能会使得参数估计值的方差低估其真实方差。同时,当出现异方差时,)ˆ(ˆ2es与Xi的变化有关,它不再为一固定值。从而t统计量不确定,这时参数(如2)的置信区间将会无意义。三、预测精度降低由于受上述差异的影响,这时knei22ˆ不再是2的无偏估计,从而置信区间将受到严重的误导,并且预测区间也会随着方差的变动而变化,从而使Y的预测区间的精度会降低。第三节异方差性的检验对异方差性的检验主要有以下一些方法,1、图形法。2、Goldfeld-Quandt方法。3、Glejser方法。4、White方法。5、ARCH方法。6、Park检验。7、Spearman等级相关检验。8、Breusch-Pagan-Godfrey检验。9、Koenker-Bassett检验。等等。下面只介绍前1-5检验方法。81、图形法。由残差ˆeYY,得到2e。以2e为纵轴,某个解释变量jX为横轴,画出散点图,由此可粗略判断异方差的存在。利用前面制造业利润与销售收入之间短系的例子,由残差平方与解释变量的散点图说明异方差存在。2、Goldfeld-Quandt方法。(1)前提条件。●样本容量要充分的大(为什么?);●随机误差项~iu正态分布,除异方差以外,其它基本假定成立。(2)检验的基本步骤。●将解释变量的取值按从小到大排序(也可从大到小,但F统计量的分子于分母需要交换,为什么?)。●将排列在中间的约1/4的观察值删除掉,记为c,再将剩余的分为两个部分,每部分观察值的个数为(n-c)/2(根据Goldfeld和Quandt的证实,一元线性模型里当样本容量大于60时,c可取16,而当n=30时,取c为4)。JackJohnston,JohnDiNardo(2002)指出,在除去其它因素之外,该检验9功效有赖于剔除的c的多少。如果c太大,2221iiee和的自由度会很小,检验功效自然会很低;如果c太小,将会减弱2221iiee和之间的对比,检验供销也会很低。因此,按照经验,一般c的选取大致在3n左右。●提出假设。即222211220:;,,2,1,:niHniH●构造F统计量。分别对上述两个部分的观察值求回归模型,由此得到的两个部分的残差平方和为2221iiee和,它们的自由度均为[(n-c)/2]-k,其中k为参数的个数。(这里如果假定u服从正态分布,并且同方差性假定是真实的,则可证明下式成立)于是在原假设成立的前提下,有)2,2(~]2/[]2/[2122*kcnkcnFkcnekcneFii●判断。给定显著性水平,查F分布表,得临界值)()2,2(kcnkcnF,如果F*>)()2,2(kcnkcnF则拒绝原假设,接受备择假设,即模型中的随机误差存在异方差。例如,分析某地区家庭消费与收入之间的关系,n=30。下面是在EViews上运用G-Q检验的操作过程。3、Glejser方法。Glejser检验的基本思想是,由OLS法得到残差ie,取ie的绝对值ie,然后将ie对某个解释变量iX回归,根据回归模型的显著性和拟合优度来判断是否存在异方差。该检验的特点是不仅能对异方差的存在进行判断,而且还能对异方差随某个解释变量变化的函数形式进行诊断。该检验要求变量的观测值为大样本。Glejser检验的具体步骤:(1)根据样本数据建立回归模型,并求残差序列ˆiiieYY。(2)用残差绝对值ie对iX的进行回归,由于ie与X的真实函数形式并不知道,只能用样本数据对各种函数形式进行试验,从中选择最佳形式。Glejser曾提出如下一些假设的函数形式:10iiivXeiiieXv1iiievX1iiievX式中v为随机误差项。(3)通常可用2ie作为ie的替代变量,对所选函数形式回归。用回归所得到的2R、t、F等信息判断,若表明参数显著不为零,即认为存在异方差性。如果是小样本情况,Glejser检验只能作为了解异方差性某些信息的一种手段。4、White检验方法。(1)检验条件,要求在大样本下(为什么?)。(2)White检验的基本步骤,以一个二元线性回归模型为例。设模型为12233ttttYXXu并且,设异方差与23,ttXX的一般关系为222122334253623ttttttttXXXXXXv其中tv为随机误差项。具体操作如下●求样本回归模型。●计算残差te,并求2te。●用残差平方2te作为异方差2t的估计,并建立2te对22232323,,,,ttttttXXXXXX的辅助回归,即222122334253623ˆˆˆˆˆˆˆttttttteXXXXXX。●由此计算统计量2nR,其中n为样本容量,2R为辅助回归函数的可决系11数。●提出假设jHH:,0:1620中至少有一个不为零,6,,3,2j2nR渐进服从自由度为5(在本例中除了截距项以外,斜率系数有5项)的2分布,给定显著性水平,查2分布表得临界值)5(2。●判断,计算2nR值,如果2nR>)5(2,则拒绝原假设,表明模型