浙江工商大学金融学院姚耀军讲义系列1第四讲异方差一、同方差与异方差:图形展示对于模型12iiiyx,在高斯-马尔科夫假定下有:12222()iiiiyEyx其中22i意味着同方差假定成立。为了理解同方差假定,我们先考察图一。在图一中,空心圆点代表(,())iixEy,实心圆点代表观测值(,)iixy观测,iy观测是随机变量iy的一个实现(注意,按照假定,ix是非随机的,即在重复抽样的情况下,给定i的取值,ix不随样本的变化而变化),倾斜的直线代表总体回归函数:12()iiEyx。图一显示了一个重要特征,即,尽管12,,...yy的期望值随着12,,...xx的不同而随之变化,但由于假定222iiy,它们的离散程度(方差)是不变的。然而,假定误差项同方差从而被解释变量同方差可能并不符合经济现实。例如,如果被解释变量y代表居民储蓄,x代表收入,那么经常出现的情况是,低收入居民间的储蓄不会有太大的差异,这是因为在满足基本消费后剩余收入已不多。但在高收入居民间,储蓄可能受消费习惯、家庭成员构成等因素的影响而千差万别。图二能够展示这种现象。浙江工商大学金融学院姚耀军讲义系列2图一同方差情况图二异方差情况在图二中,依据x1所对应的分布曲线形状,x5所对应的实心圆点看起来是一个异常点(但依据x5所对应的分布曲线形状,它或许称不上是异常点)。异常点的出现是同方差假定被违背情况下的一个典型症状,事实上通过散点图来发现异常点从而初步识别异方差现象在实践中经常被采用,见图三。浙江工商大学金融学院姚耀军讲义系列3图三异方差情况下的散点图笔记:应该注意的是,如果第一个高斯-马尔科夫假定被违背,即模型设定有误,那么也可能出现异方差症状。例如,正确模型是非线性的,但我们错误地设定为线性,以这个线性模型为参照,散点图也许显示出明显的异方差症状。事实上,在很多情况下,异方差症状被认为是模型错误设定的一个表现。如果产生异方差症状的原因是模型设定有误,那么我们首先应该要做的事情是正确设定模型,而不是基于错误设定的模型寻找有效的估计方法。在本讲中,我们假定其他所有的高斯-马尔科夫假定成立。二、异方差的后果在证明高斯-马尔科夫定理时,我们仅仅在证明OLS估计量具有有效性时涉及到了同方差假定,而在证明线性、无偏性并没有用到该假定,因此违背同方差假定并不影响OLS估计量所具有的线性与无偏性这两个性质(实际上也不影响OLS估计量的一致性,一致性只涉及到高斯-马尔科夫假定一、二、三)。既然存在异方差,在估计各系数时我们为何不利用这个信息呢?要知道,利用的信息越多,我们获得的估计量其方差将越小,即估计精度越高。利用OLS估计法来估计系数时并没有利用异方差这个信息,因此,在存在异方差的情况下,在所有线性无偏估计量中,OLS浙江工商大学金融学院姚耀军讲义系列4估计量并不是最有效的。另外值得注意的是,当同方差假定被违背时,计量软件包在默认状态下计算出的参数估计量的标准误是无意义的,因为默认状态是同方差假定成立。作为一个复习,下面我们把默认状态下参数估计量的标准差与标准误公式再推导一遍。真实模型是:01iiiyx,那么有:12ˆ12222()()()()(())()()[()]iiiiiiiiixxVarxxxxVarxxVarxxxx在重要假定五:(,)0,ijCovij下,有:122ˆ22()()[()]iiixxVarxx在重要假定四:22()iiVar下,12ˆ222222()[()]()iiixxxxxx计量软件包默认状态下通过公式:122ˆ)ˆ(()isexx来计算1ˆ的标准误,其中用22ˆˆ2iN来估计误差项的方差。显然,如果同方差假定不成立,则12ˆ22()ixx,故试图浙江工商大学金融学院姚耀军讲义系列5以22ˆ()ixx来估计22()ixx从而达到估计1ˆ的想法是错误的。我们也注意到,只有在高斯-马尔科夫假定成立的前提下,22ˆˆ2iN才是对误差项方差的一个无偏估计。当误差项具有异方差性时,即误差项的方差随着i的变化而变化时,用一个与i无关的估计量(2ˆ2iN的最终结果与i无关)去估计误差项的方差显然是不合理的。换句话说,当误差项具有异方差性时,22ˆˆ2iN不可能是对误差方差的一个恰当估计。笔记:如果误差项方差已被恰当估计出,如22212,,...,ˆˆˆN,直观来看,我们应该以2222ˆ()[()]iiixxxx来作为对1ˆ的标准差估计。不幸的是,我们无法很好地估计出各个误差项的方差。误差项是观察不到的,因为我们并不知道参数的真实值。但我们可以获得残差。如果残差是对误差的良好近似,则对误差项性质的任何推断都可以建立在对残差的观察基础上。然而,在异方差情况下,对于每一种不同的误差分布曲线,我们只有一个残差观测值。仅仅依靠一个观察值,我们无法获得对误差方差的一致估计。应该注意到,22)2([]()iiiiEEE,既然残差是对误差的近似,难道我们不可以用2ˆi来作为对2i的估计吗?问题还是在于,我们只能使用一个观测值来估计2i,它不可能是一个一致估计。然而,尽管2ˆi是对2i的糟糕估计,但以2222ˆ()[()]iiixxxx来估计12ˆ其情况应该更为乐观,因为借助于求和,浙江工商大学金融学院姚耀军讲义系列6单个估计误差有被抵消的可能。事实上White(1980)已经证明,2222ˆ()[()]iiixxxx是对估计量1ˆ方差的一致估计,其正的平方根被称为异方差稳健性标准误,或者White-Huber-Eicher标准误。总而言之,在异方差情况下采用公式122ˆ)ˆ(()isexx来计算1ˆ的标准误是不恰当的,当然,依靠这个错误的标准误来进行的t检验也是无效的。思考题:通常的F检验有效吗?F检验在何处体现了同方差假定?三、发现异方差我们是通过对残差的分析来检验同方差假定是否被违背。因此,下面所有的异方差检验方法都隐含一个前提,即残差是对误差的良好近似。记住这一点十分重要,因为高斯-马尔科夫假定中的假定一、二、三被违背将使得下面的一系列检验都无效。(一)Goldfeld-Quandt检验Goldfeld-Quandt检验法假设,在经典线性模型假定中,只有同方差假定或许并不成立,而其他假定是成立的。笔记:如果误差项序列相关,即使其他经典线性模型假定成立,但2RSS/并不服从卡方分布,而2RSS/对于构造F检验十分重要。为什么2RSS/不服从浙江工商大学金融学院姚耀军讲义系列7卡方分布呢?这是因为按照定义,221()niinz,其中..(0,1)iidizN。如果服从正态分布的误差项序列相关,则各误差项并不独立,此时,作为对误差项的近似,各残差将不是独立的,进而通过残差标准化所构建的卡方统计量就再也不服从卡方分布了。这意味着,在利用Goldfeld-Quandt检验法之前,误差项序列无关的假定是否被违背应该先于检验,在序列相关情况下,异方差检验将无效。只有在序列相关被校正之后,异方差检验才能被进行。该检验的原假设是误差项同方差,备择假设是方差随着某一个变量z的增加而增加。其检验步骤是:1、对N个观测值按z升序排列,并抛弃中间的N-2N*个观测值,形成两个容量都为N*的子样本;2、就两个子样本分别进行回归,记RSS1、RSS2分别为两次回归的残差平方和。3、计算RSS2/RSS1。在同方差的原假设下有:22***2122*RSS/1=RSS/RSS(1,1)RSS/1NkFNkNkNk若计算出的F值大于Fa,则在显著水平a下我们拒绝原假设。笔记:1、在原假设为真时,*2RSS/(1)Nk与*1RSS/(1)Nk都是对2的无偏、一致估计,故RSS2与RSS1应该相差不大,而RSS2/RSS1与1接近。2、为了提高检验的势(不会错误地不拒绝原假设的概率),中间被抛弃的观测值数目约为总样本容量的3/8,以使RSS2与RSS1的差异显得更明显(“放大镜”作用)。通俗地讲,所谓检验的势,是指该检验对原假设的“苛刻度”,如果该检验不会轻易地“不拒绝原假设”,那么检验的势就高。实际上,如果轻易地“不拒绝原假设”,那么我们犯“第二类错误”(不拒绝错误的原假设)的概率就高。显然,当检验对原假设的“苛刻度”较高时我们仍然不拒绝原假设,那么原假设的真实性是更加可信的。3、有时我们或许具有确切的理由认为不同的样本期间被解释变量具有不同的方差。例如,在解释我国1952-2002年间工业产值增长率时,我们有理由认为,在1952-1978年间工业产值增长率的方差应该小于1979-2002年期间的方差,因为前段样本期间属于计划经济,缺乏市场冲击,而后一段时期属于市场或者半市浙江工商大学金融学院姚耀军讲义系列8场经济,存在市场冲击。此时,我们可以把完整样本期间只划分为两个子期间,按照Goldfeld-Quandt检验法第2、3步进行异方差检验。(二)White检验Goldfeld-Quandt检验对误差方差的形式作了一定的假定。然而,很多时候我们除了知道方差与解释变量具有一定关系之外,并无其他的关于方差的确切先验信息。此时,我们可以利用White检验。假设模型是01122iiiiyxx,则White检验的步骤是:1、估计模型并计算残差的平方2ˆi;2、估计辅助回归(auxiliaryregression)模型:222501122314212ˆiiiiiiiiaaxaxaxaxaxxv原模型同方差的原假设对应于辅助模型的原假设:512340aaaaa3、对于辅助回归模型,利用拉格朗日乘数(LM)统计量22()aurNRq进行检验原假设512340aaaaa。其中2urR是辅助模型的判定系数(利用第三讲的术语,对于辅助模型,它就是不受约束情况下的判定系数),q是辅助模型中不包含截距项的解释变量的个数,在上例中q=5。笔记:1、应该注意到,辅助模型的被解释变量是2ˆi而不是误差方差2,毕竟误差方差是无法获得的。采取这样的做法有什么理由呢?注意到0011ˆˆˆ()()iiix。在误差项序列无关的前提下,再假设同方差原假设成立,则必定有:20101ˆˆˆˆˆ()()()2(,)()iiiiVarVarxVarxCovVar浙江工商大学金融学院姚耀军讲义系列92221)[1]()1(NjjixxNxx当N趋于无穷大时,1/N趋于0;222211))/()()/((NNjjjjiiNxxxxNxxxx将趋于一个一个分母为()Varx、分子为0的分数,故该项趋于0。因此,ˆ()iVar将收敛于误差方差2。我们注意到ˆ()0iE,因此2ˆˆ()()iiVarE,故当N趋于无穷大时,2ˆ()iE将趋于2。由于22ˆˆ()iiEerror,因此当N趋于无穷大时,22ˆierror。总结上述数学推理,如果在辅助模型中用2ˆi代替误差方差,那么隐含的前提是:(1)大样本。故相关的检验是大样本下的检验。(2)其他高斯-马尔科夫假定成立,尤其要注意到误差项序列无关假定要成立。与Goldfeld-Quandt检验一样,在利用White检验之前,误差项序列无关的假定是否被违背应该先于检验。只有在序列相关被校正之后,异方差检验才能被进行。2、在White检验下,我们对误差方差的形式212(,)ifxx并无确切的先验信息。然而利用泰勒展开式,我们可以利用22501122314212iiiiiiaaxaxaxaxaxx来近似12(,)fxx。3、为什么不直接用F检验