第七章模型变换的检验与诊断§7.1引言经济计量模型的构建,是在不断的探索、修正与完善过程中完成的。从一定先验信息出发,我们建立了初始的经验模型,但这些模型往往并不能正确地反映经济运行的实际过程。为了一致地满足经济学家、统计学家和数学家的实际需要和客观要求,我们要对所建经验模型作进一步的修正。修正的方法很多,其中,较为常用的是变换法,即对模型重新进行参数化,使模型参数估计、统计推断和假设检验更适合它们所应满足的前提条件,从而改进经验模型。“Box-Cox幂变换簇”是一种典型的模型变换范例,它通过引入一个新的参数λ,并由样本数据集本身对变换参数λ进行自适应估计,从而能有效地改善经1964年,Box,G.E.P.和Cox,D.R.提出的“Box-Cox幂变1,0;()ln(),0.yyy(7.1.1)这里,假定y为正值无界变量。对于取负值或有界的变量,可采用下述推广的Box—Cox幂变换簇:()1,0;(,)ln(),0.yyy(7.1.2)此变换适合于变量y可取负值的无界变量情形,并称为漂移参数,满足:0y。当y在[a,b]内取值时,可使用如下折叠的幂变换簇:()(),0;(,)ln(),0.yabyyyaby(7.1.3)此外,对于对称长尾分布数据来讲,John,J.A.和Draper,N.R.(1980)建议使用如下模变换簇:(1)1(),0;()()ln(1),0.ysignyysignyy(7.1.4)除了对响应变量可作上述变换外,还可对解释变量作以上变换。当然,还可对响应变量与解释变量同时作变换。后者称之为“双边Box—Cox不论采用何种变换,我们的出发点总是使变换后的模型更能适合经济过程本身,以及更能适合作估计、推断、检验和预测的前提。显然,模型变换的关键是对变换参数λ依据样本观测作出恰如其分的估计。由于变换参数的估计值ˆ强烈地依赖于样本数据,并且由样本数据自动调节,因而这种变换的优点在于:针对不同的经济过程采用不同的变换,从而具有自适应性(adptive)。但同时也存在着严重的、有待深入研究的问题:样本数据的质量和属性强烈地影响着变换参数的估计ˆ。一般来说,不同样本点对ˆ的影响程度千差万别,其影响机理也不尽相同。因此,如何有效地估计变换参数,以及如何精细地刻画数据对ˆ的影响,成为模型变换研究中两个亟待解决的、富有实际意义的问题。变换参数的估计通常采用两种方法:Atkinson估计法和最大似然估计法。它们是在1982年分别由Atkinson,A.C.和Cook,R.D&Weisberg,S.提出的。一般来说,同一个模型变换问题可使用上述两种方法对变换参数进行估计,所得结果基本相同。但也有例外情况发生:使用Atkinson方法和使用最大似然法所得两个估计值差异很大。最著名的例证是美国22种喷气式战斗机机型数据,它出现于诊断理论的开创性经典著作Cook,R.D.&Weisberg,S.(1982)中。在该例中,变换参数的Atkinson估计为ˆ=-0.54,而相应的最大似然估计为ˆ=-0.024。出现这种显著差异的根本原因在于数据集中包含有极端异常值点。事实上,将F-111A这种机型的数据删除后,在Atkinson方法下接受了原假设H0:λ=1,置信水平为α=0.05,而相应的最大似然估计ˆ=0.973,它十分接近1。因而,在F-111A单点删除后两种方法所得结论相同,即不需要对响应变量作变换。这从一个侧面反映了这样一个重要事实:样本信息差异对不同估计方法,以及对不同检验方法的影响是不同的。另一个值得关注的问题是:样本信息差异对同一估计方法的影响机理。本章给出的中国消费数据,正好提供了模型变换参数检验诊断的具体范例,诊断出了Box-Cox幂变换簇下变换参数λ的Atkinson估计检验强影响点群。§7.2变换参数的Atkinson估计及检验法对于数据集(xTi,Yi),i=1,2,…,n,记响应变量Y=(yi)的数据变换为Y(λ),Y(λ)=(yi(λ)),yi(λ)=h(yi,λ),i=1,2,…,n。我们讨论h(yi,λ)取Box-Cox变换(7.1.1)的情形。一般设定,经过幂变换后,Y(λ)形成线性模型,且满足正态2nY()=X+e,e~N(0,I)(7.2.1)将Y(λ)作标准化,记标准化数2nZ()=X+e,e~N(0,I)(7.2.2)其中,iZ()=(z()),而iz()可表示为:i1iy1,0;z()=(())()ln(),0.iGYGYy(7.2.3)这里,G(Y)为T12nY=(y,y,,y)各分量的几何平均值:12G(Y)=nnyyyAtkinson方法的基本思想是,将Z(λ)在初值0(常取01,即对数据不作变换)处进行Taylor一阶展开,从而化为一个常规线性模型:2000nZ()=XW()()+e,e~N(0,I)(7.2.4)其中,0i0W()=(W())称为构造变量(constructedvariable),W()=dZ()/d。不难证明,由(7.2.4)给出的变换参数的最小二乘估计为:00000()()ˆ()()TATWQZWQW(7.2.5)此外,获得变换参数λ的估计后,在实际建模时是否真正作变换的问题,可通过作假设检验00:H来确定。对应的检验统计量为:0001200()()()ˆ(()())TATAWQZTWQW(7.2.6)其中,22000000(()())ˆ()()(2)()()TTATWQZZQZnpWQW(7.2.7)可以证明:在2ne~N(0,I)假定下,0()~(2)ATtnp,由此不难对原假设00:H做出判决与推断。§7.3模型变换的检验与诊断算例按照经典的凯恩斯理论,消费量是由收入所决定的。为了研究中国的消费模型,我们采集了1952—1992年共41年的数据,将国民收入中消费额对国民收入总额作回归分析,建立了一个简单的消费模型。当然,影响消费的经济变量不只是单个收入变量。样本期也尽量地长,尤其是应取到现在为止。这里所建模型只是为了说明我们所论及的模型变换检验的诊断问题而已,它能恰如其分地提供该问题的典型案例。表7.3.1国民收入总额与消费额(单位:亿元)年份国民收入总额(X)消费额(Y)年份国民收入总额(X)消费额(Y)195258947719732318151119537095591974234815501954748570197525031621195578862219762427167619568826711977264417411957908702197830101888195811187381979335021951959122271619803688253119601220763198139412799196199681819824258305419629248491983473633581963100086419845652390519641166921198570204879196513879821986785955521966158610651987931363861967148711241988117388038196814151111198913176900519691617118019901438496631970192612581991165571096919712077132419921964012945197221361404资料来源:《中国统计摘要》(1993),中国统计出版社。利用最小二乘理论,得如下回归方程:ˆY=73.0741+0.6667X(7.3.1)对应的复相关系数平方为20.99874R,修正复相关系数平方为*20.99871R。对回归方程(7.3.1)分别作显著性检验:(i)回归系数的显著性检验bbt=bS=0.666740.00379176.0303式中,2byS=S(x-x)为参数b的标准误差,22yˆS=(Y-Y)(n-2),而Sy为回归标准误差。对给定水平α=0.01,查自由度df=n-2=41-2=39的t-分布表,得临界值ct=2.7079。显然有:bctt,说明国民收入总额对消费额有极显著的影响。(ii)回归方程的显著性检验22ˆ(Y-Y)1394734636F(1,n-2)=30986.67ˆ12739(Y-Y)(2)n对给定水平α=0.01,查n1=1,n2=39的F-分布表知,临界值满足:F0.01(1,39)<F0.01(1,30)=7.56F(1,39)=30986.67表明用模型(7.3.1)对消费额作预测,有较高的可靠性。(iii)D.W检验nn221i=2i=1d=()0.550238iii对给定水平α=0.01,查D.WLULUn=40,k=1,d=1.25,d=1.34n=45,k=1,d=1.29,d=1.38故n=41,k=1时,有:L0d=0.550238d,从而回归余项存在正序列相关,序列相关系数0.749728SC,D.W检验未予通过。这表明:模型(7.3.1)的残差序列中存在可利用的共同信息,现在的模型还不能用于实际的预测,模型有待为研究上述回归模型是否受到异常值影响,下面我们对模型(7.3.1)作异常值诊断。表7.3.2列出了有关的诊断统计量值。它有助于探测各类异常值点,为进一步分析模型、改善模型奠定基础。表7.3.2中国消费数据模型下部分诊断统计量值年份iˆYδiγit2ihii1952465.7911.2150.10500.01070.03801953545.7913.2050.12360.01490.03701954571.80-1.798-0.01650.00030.03671955598.4723.5330.21990.04720.03641956661.149.8590.09230.00830.03581957678.4823.5240.21980.04710.03561958818.49-80.492-0.74980.55580.03411959887.83-171.833-0.60062.67170.03351960886.50-123.500-1.15031.33450.03351961737.1580.8500.75430.56260.03501962689.14159.8561.49142.29830.03551963739.82124.1831.15841.35410.03491964850.5070.5040.65750.42590.03381965997.85-15.846-0.14700.02110.032419661130.53-65.528-0.60930.36520.031319671064.5259.4800.55430.20500.031819681016.5194.4850.88040.77050.032319691151.2028.8030.26870.07050.031119701357.22-99.220-0.92190.84660.029519711457.90-133.898-1.24391.56990.028919721497.24-93.236-0.86570.74450.028619731618.58-107.583-0.99860.99710.027819741638.59-88.586-0.82200.67000.027719751741.93-120.931-0.44290.19210.024419761691.26-15.258-0.14080.01930.027419771835.94-94.941-0.880