备课笔记-回归检验

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1.ttest二个样本独立T检验use(yr_rnd)Two-samplettestwithequalvariances2.检查回归模型残差的正态性一般的观点是多元回归要求残差为正态分布。实际情况是,进行回归的有效性检验如t检验的P值、F检验的p值的情况下要求残差是正态性分布的,但回归系数估计的无偏性并不要求残差的正态性。OLS只要求残差项(误差项)独立同分布。此外,对X变量的正态分布假设也不是必要的,例如对虚拟变量的回归。当我们进行回归分析时,通常用predict命令提取回归的残差项,并用kdensity,qnorm,pnorm等命令检验残差是否为正态分布。use:学术绩效;ell:英语学习人数;emer:拥有证书的教师比例;regressapi00mealsellemerpredictr,resid//用predict命令求得残差kdensityr,normal//用kdensity命令进行核心密度估计并生成核密度图,其中normal选项要求正态密度和计算的核密度叠加。核密度图可以相像成是一系列无限小的柱状图组合而成。_cons886.70336.25976141.650.000874.3967899.0098emer-1.573496.293112-5.370.000-2.149746-.9972456ell-.9098732.1846442-4.930.000-1.272879-.5468678meals-3.159189.1497371-21.100.000-3.453568-2.864809api00Coef.Std.Err.tP|t|[95%Conf.Interval]Total807367239920234.7669RootMSE=57.82AdjR-squared=0.8348Residual1323889.253963343.15467R-squared=0.8360Model6749782.7532249927.58ProbF=0.0000F(3,396)=673.00SourceSSdfMSNumberofobs=400pnormr//pnorm命令画出标准正态概率图(P-P)。pnorm对数据中段的非正态性非常敏感。qnormr//qnorm命令画出变量r的分位数(与分位数的正态分布相反)。qnorm对数据两端的非正态性比较敏感。从上面两张图可以看到,残差分布稍微偏离正态分布,接受残差分布为正态分布的假设。除图形检验外,还可以用数值方法检验分布的正态性。其中一个检验程序是由LawrenceC.Hamilton编写的,可以通过finditiqr命令将其从网络中搜寻并安装,或者在Stata中的帮助里查找iqr,找到后击相对应的程序再点击、install。iqrr另一个可用的检验是swilk命令,是Shapiro-WilkW正态性检验,零假设为正态分布。swilkr从检验结果来看,p值非常大(p=0.51),表明不能拒绝零假设。3.检查残差的同方差(CheckingHomoscedasticityofResiduals)OLS的一个主要假设是残差方差是齐次的,即同方差。如果模型拟合较好,残差图和拟合值应该是一致的。如果残差的方差不是常数,意味着残差方差为“异方差”(heteroscedastic)。可以用图形法,或者非图形法检测异方差。较常用的图形法是画出残差与拟合值,即rvfplot命令。rvfplot,yline(0)//yline(0)选项指使用y=0作为参考线。从图上可以看到数据点分布基本均匀,只是右端有点窄,这时可认为是同方差。还有两个命令可以检验同方差,estatimtest和estathettest。%severeoutliers0.00%0.00%#severeoutliers00outerfences-269.4265.9%mildoutliers0.25%1.25%#mildoutliers15innerfences-154.7151.2-------------------lowhigh10trim=-1.083median=-3.657pseudostd.dev.=56.69(IQR=76.47)mean=7.4e-08std.dev.=57.6(n=400)r4000.996410.989-0.0250.51006VariableObsWVzProbzShapiro-WilkWtestfornormaldata-200-1000100200Residuals400500600700800900Fittedvalues第一个是White'stest,第二个是Breusch-Pagantest。二者的零假设均为方差残差是同方差。因此,如果p值非常小,我们拒绝零假设,接受备择假设,即存在异方差。estatimtestestathettest从上面的结果来看,拒绝了同方差的零假设。这两个检验对模型假设非常敏感,因此需要和图形诊断结合起来检验异方差,以及决定是否需要修正异方差。从前面的例子来看,图形分析结果不是很明确。如何修正异方差,则需要用GLS(广义最小二乘法)、FGLS(可行广义最小二乘法)、WLS(加权最小二乘法)估计来解决,或者使用稳健标准差进行回归(Stata的命令是在回归时加上robust参数)。使用“OLS+稳健标准差”时对回归系数和标准差的估计都是一致的,并不需要知道条件方差函数的形式,在Stata中的操作也十分简单,在回归命令reg后加上选择项“robust”即可。从理论上来讲,GLS是BLUE,但FGLS即非线性估计,也不是无偏估计,因此它不是BLUE。FGLS必须先用用样本数据来一致地估计扰动项的协方差矩阵V(X),然后再使用GLS,因此也被称为可行加权最小二乘法(FWLS),有,其中𝑉̂是V的一致估计,此时𝑉̂是数据集(y,x)的非线性函数,因此𝛽̂𝐹𝐺𝐿𝑆是y的非线性函数,一般来说是有偏的。FWLS一般用于大样本理论中。FWLS的另一个缺点是必段估计条件方差函数Var(𝜀𝑖|𝑥𝑖),而通常情况下并不知道条件方差的具体形式,如果该函数的设定不正确,则根据FWLS计算的标准差可能失效从而导致不正确的推断。总之“OLS+稳健标准差”适用于更一般的情形,而FWLS更为有效,因此我们必须在稳健性和有效性之间作出选择。具体来说,如果对V的估计不准确,FWLS估计效果不如“OLS+稳健标准差”。StockandWaston(2004)建议大多数情况下应该使用后者。下面是一个完整诊断异方差和处理异方差的例子。usenerlve.dta,clearreglntclnqlnpllnpklnpfTotal26.40130.0150Kurtosis0.2710.6067Skewness7.7830.0507Heteroskedasticity18.3590.0313Sourcechi2dfpCameron&Trivedi'sdecompositionofIM-test.estatimtestProbchi2=0.0031chi2(1)=8.75Variables:fittedvaluesofapi00Ho:ConstantvarianceBreusch-Pagan/Cook-Weisbergtestforheteroskedasticityrvfplot//画残差与拟合值的散点图rvpplotlnq//画残差与解释变量的散点图从上面两个图均可以看到残差和拟合值、解释变量均存在较大的波动,很可能存在异方差。Estatimtest,white//怀特检验estathettest,iid//默认设置为使用拟合值𝑦̂检验,同时假定扰动项𝜀𝑖独立同分布estathettest,rhsiid//使用方程右边的解释变量进行检验estathottestlnq,iid//各种BP检验结果的p值都拒绝同方差的原假设在stata中实现WLS的方法如下:reg(被解释变量)(解释变量1)(解释变量2)……[aweight=变量名]其中,aweight后面的变量就是权重,是我们设定的函数。一种经常的设定是假设扰动项的条件方差是所有解释变量的某个线性组合的指数函数。在stata中也可以方便地实现:首先做标准的OLS回归,并得到残差项;reg(被解释变量)(解释变量1)(解释变量2)……predictr,resid生成新变量logusq,并用它对所有解释变量做回归,得到这个回归的拟合值,再对这个拟合值求指数函数;genlogusq=ln(r^2)reglogusq(解释变量1)(解释变量2)……predictg,xbgenh=exp(g)最后以h作为权重做WLS回归;reg(被解释变量)(解释变量1)(解释变量2)……[aweight=h]如果我们确切地知道扰动项的协方差矩阵的形式,那么GLS估计是最小方差线性无偏估计,是所有线性估计中最好的。显然它比OLS更有效率。虽然GLS有很多好处,但有一个致命弱点:就是一般而言我们不知道扰动项的协方差矩阵,因而无法保证结果的有效性。到现在我们已经有了两种处理异方差的方法:一是使用对异方差稳健的标准误调整t统计量,并以此作推断;另一种是设定异方差的形式,使用可行的GLS得到有效估计。下面总结一下标准的OLS估计同上述两种方法的优劣,并结合检验异方差的方法,给出处理异方差的一般步骤。4.检查多重共线性(CheckingforMulticollinearity)多重共线性指两个以上解释变量有较强的关联性,这意味着它们之间是可以相互替代的。我们主要关心多重共线性的程度有多少?因为从OLS估计的假设来看,多重共线性会导致回归系数标准误大幅增加,使得估计的回归系数不稳定。可以使用vif命令在回归完成后检验多重共线性。vif可以替代方差波动指标,如果VIF值大于10,说明存在多重共线性。一般来说VIF值在0.1-10之间是可以接受的,即因变量可以看成是其它自变量的线性组合。regressapi00mealsellemervif//共线性检验结果可以接受regressapi00acs_k3avg_edgrad_schcol_gradsome_col//又一个例子vif//共线性检验结果可以接受从上面VIF和1/VIF(容忍度)的结果来看,avg_ed,grad_sch和col_grad变量的结果比较糟糕,所有这些衡量父母受教育程度的变量有较高的VIF值,这说明部分变量是过度加入的。例如,当得知rad_sch和col_grad的值时,能够求出avg_ed的值。因为在模型中放入了3个同样说明父母教育程度的变量,多重共线性情况就非常严重。去掉一个解释父母受教育平均程度的解释变量avg_ed,可以看到VIF值变得比较理想。同样,也可以看到变量grad_sch和col_grad的回归标准误较之前面一个回归模型大幅减小,因为多重共线性会导致回归标准误大幅增加。当多重共线性情况消除后,变量grad_sch从不显著变变得显著了。regressapi00acs_k3grad_schcol_gradsome_colvifMeanVIF2.22emer1.410.706805ell2.510.398325meals2.730.366965VariableVIF1/VIF_cons-82.6091381.84638-1.010.313-243.547378.32904some_col-.7604543.8109676-0.940.349-2.355096.8341872col_grad-2.9678311.017812-2.920.004-4.969199-.9664626grad_sch-2.0908

1 / 17
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功