stata笔记要点

107600027
1 ℃
2020-04-19

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

1.一般检验假设系数为0，t比较大则拒绝假设，认为系数不为0.假设系数为0，P比较小则拒绝假设，认为系数不为0.假设方程不显著，F比较大则拒绝假设，认为方程显著。2.小样本运用OLS进行估计的前提条件为：（1）线性假定。即解释变量与被解释变量之间为线性关系。这一前提可以通过将非线性转换为线性方程来解决。（2）严格外生性。即随机扰动项独立于所有解释变量：与解释变量之间所有时候都是正交关系，随机扰动项期望为0。(工具变量法解决)（3）不存在严格的多重共线性。一般在现实数据中不会出现，但是设置过多的虚拟变量时，可能会出现这种现象。Stata可以自动剔除。（4）扰动项为球型扰动项，即随即扰动项同方差，无自相关性。3.大样本估计时，一般要求数据在30个以上就可以称为大样本了。大样本的前提是（1）线性假定（2）渐进独立的平稳过程（3）前定解释变量，即解释变量与同期的扰动项正交。（4）E（XiXit）为非退化矩阵。（5）gt为鞅差分序列，且其协方差矩阵为非退化矩阵。与小样本相比，其不需要严格的外生性和正太随机扰动项的要求。4.命令稳健标准差回归：regyx1x2x3,robust回归系数与OLS一样，但标准差存在差异。如果认为存在异方差，则使用稳健标准差。使用稳健标准差可以对大样本进行检验。只要样本容量足够大，在模型出现异方差的情况下，使用稳健标准差时参数估计、假设检验等均可正常进行，即可以很大程度上消除异方差带来的副作用对单个系数进行检验：testlnq=1线性检验：testnl_b[lnpl]=_b[lnq]^25.如果回归模型为非线性，不方便使用OLS,则可以采取最大似然估计法（MLE）,或者非线性最小二乘法（NLS）6.违背经典假设，即存在异方差的情况。截面数据通常会出现异方差。因此检验异方差可以：（1）看残差图，但只是直观，可能并不准确。rvfplot(residual-versus-fittedplot)与拟合值的散点图rvpplotvarname(residual-versus-predictorplot)与解释变量的散点图扰动项的方差随观测值而变动，表示可能存在异方差。（2）怀特检验：estatimtest,white(post-estimationinformationmatrixtest)P比较小，则拒绝同方差假设，表示存在异方差,不能用OLS。反之则证明为同方差。（3）BP检验estathettest，iid(默认设置为使用拟合值y^)estathettest,rhsiid(使用方程右边的解释变量，而不是y^)estathettest[varlist]，iid(使用某个指定的解释变量)P小，则拒绝原假设。如果存在异方差，则可以：（1）使用OLS+稳健标准差robust（2）广义最小二乘法（GLS）（3）加权最小二乘法（WLS）predictel,res（预测残差）ge2=el^2辅助回归：glne2=log(e2)reglne2lnq,nocpredictlne2f计算辅助回归的拟合值ge2f=exp(lne2f)去掉对数即权重之倒数reglntclnqlnpllnpklnpf[aw=1/e2f]regyx1x2x3[aw=1/var](aw表示analyticalweight,var表示随即扰动项的方差。)或者：predictu,residualspredictyf,xbgenlnu2=ln(u^2)genyf2=yf^2quietlyreglnu2yfyf2predictnlu2f=exp(xb())gensd=sqrt(u2f)vwlslntclnqlnpllnpflnpk,sd(sd)（4）可行广义最小二乘法（FGLS）FGLS所做的过程和GLS一样，只是GLS假设扰动项的方差已知，若要用GLS，必须计算得到扰动项方差，而FGLS则是在未知方差的情况下求方差并最终通过将异方差转换为同方差后再运用OLS的结果。因此，GLS和FGLS在过程上是一致的。6.自相关时间序列中容易出现自相关，而截面数据也可能存在空间自相关。人为处理数据如移动平均等做法也可能导致自相关。检验自相关可以：（1）作图，但并不严格。定义滞后算子L.(只有时间序列数据和面板数据才能定义时间变量。)tssetyaear一阶差分：D.x=xt-xt-1D2.X=xt-xt-2LD.表示一阶差分的滞后值画图：scatterelL.elacel(看自相关图)pacel(看偏相关图)（2）BG检验estatbgodfrey(默认p=1)estatbgodfrey，lags（p）estatbgodfrey，nomiss0(使用不添加0的BG检验)使用命令ac查看自相关图，或者设置较大的p值进行显著性检验，t期不显著了，则选择P=T-1统计检验P值小，则拒绝假设。（3）box-pierceQ检验/Ljung-BoxQregyx1x2x3predictel,residwntestqel(使用stata提供的默认滞后期)wntestqel,lags(p)(使用自己设定的滞后期)（4）DW检验：现在已经不常用，因为其只能检验一阶自相关。estatdwatson自相关的处理方法：（1）使用OLS+异方差自相关稳健的标准差（HeteroskedasticityandAutocorrelationConsistentStandardError,HAC）neweyyx1x2x3,lag(p)(HAC标准差，必须制定滞后阶数p)滞后期数选择n^1/4(2)使用OLS+聚类稳健的标准差（clusterrobuststandarderror）面板数据中经常使用聚类稳健的标准差。regyx1x2x3,cluster(state)(聚类稳健标准差，假设“state”为聚类变量)（3）使用可行广义最小二乘法（FGLS）praisyx1x2x3(使用默认的PW估计法)praisyx1x2x3,corc(使用CO估计法)（4）修改模型设定，可能自相关是由于遗漏了自相关的解释变量。7多重共线性在回归后，使用命令VIFestatvif经验表示，vif10,则不存在多重共线性。如果存在多重共线性，但是只关心整个方程预测被解释变量的能力，或者只关心变量的显著性，则不必理会多重共线性，因为多重共线性只是对单个解释变量的解释能力估计出现了偏差。存在多重共线性，则逐个剔除。8.遗漏变量（解决扰动项严格外生性的问题）遗漏变量与解释变量不相关时，扰动项与解释变量不相关，OLS估计依然一致，但扰动项方差过大，影响估计的精确度如果遗漏变量与解释变量相关，扰动项与解释变量则会相关，导致OLS估计不再一致。出现“遗漏变量偏差”。所以可以不研究某些解释变量而只对感兴趣的解释变量进行研究，但是重要的是遗漏解释变量不能与解释变量相关。解决遗漏解释变量的方法有：（1）加入尽可能多的控制变量（controlvarible），从理论上说明遗漏变量与扰动项不相关，或很弱的相关（2）使用代理变量（proxyvariable），这在控制变量不可得的时候采用，如用IQ代替能力（3）工具变量法（4）使用面板数据（短面板、长面板、动态面板）（5）随即实验和自然实验9.选择解释变量的个数的时候，要选择适当的方式。（1）按照变量个数使得矫正可决系数最大的准则选择个数（如果加入变量，反倒A-R变小，则去掉加入的变量。）（2）赤池信息准则（AICakaikeInformationCriteria）（3）贝叶斯信息准则（BayesianInformationCriteria）（4）汉南-昆信息准则（Hanan-QuinnInformationCriteria）但这一准则不常用命令：estatic取AICBIC最大时候的变量个数10.处理极端数据：regyx1x2x3predictlev,leverage(列出所有解释变量的影响力值)gsort–lev(将所有的观测值按照lev的降序排列)sumlev（看LVE的最大值和平均值）listlev1/3(列出影响力最大的三个值)可以将极端数据加入和省略进行对比。10虚拟变量M个定性的量，最多可以有（M-1）个虚拟变量设置虚拟变量：generated=(year=1978)如希望将每个省设置为虚拟变量，则需要：tabulateprovince,generate（pr）回归简化为：regyx1x2x3pr2-pr3111.工具变量法这可以解决扰动项与自变量的相关问题，设置的工具变量需要与扰动项无关而与内生解释变量相关。传统的工具变量法一般通过两阶段最小二乘法TSLS、2SLS（twostageleastsquare）。第一阶段，工具变量对内生解释变量回归；第二阶段，被解释变量对工具变量的拟合值进行回归。多个工具变量的线性组合仍然可以作为工具变量。命令：ivregress2slsdepvar[varlist1](varlist2=inslist)Depvar为被解释变量，varlist1为外生解释变量，varlist2为内生解释变量，instlist为工具变量。如：ivregress2slsyx1(x2=z1z2)ivregress2slsyx1(x2x3=z1z2z3z4),rfirst(r表示用异方差的标准差，first表示在结果中显示第一阶段的回归。)在面板数据中执行2SLS可以用：xtivregdepvar[varlist1](varlist_2=varlist_iv)(详见helpxtivreg)检验工具变量与解释变量的相关性：即检验工具变量是否为弱工具变量，命令：estatfirststage,allforcenonrobust(all表示显示每个内生变量的统计量，而非仅仅所有内生变量综合的统计量，forcenonrobust表示及时在进行工具变量法时用了稳健标准差，也仍然允许计算estatfirststage)解决弱工具变量的方法包括A．寻找更强的工具变量B．弱工具变量较多，则舍弃弱工具变量，C．用有限信息最大似然估计法（Limitedinformationmaximumlikelihoodestimation,LIML）LIML与2SLS渐进等价，但在弱工具变量的情况下，LIML的小样本性质可能优于2SLS.命令为：ivregresslimldepvar[varlist1](varlist2=instlist)过度识别（即多余的工具变量的个数）命令为：estatoverid但并不能告诉哪些工具变量无效。使用工具变量的前提是存在内生解释变量（即解释变量与扰动项相关），这也需要检验。如果所有解释变量都是外生变量则用OLS比用工具变量法更有效，反之应该用工具变量法。豪斯曼检验就是假设所有解释变量都为外生变量。豪斯曼检验的stata命令：regyx1x2estimatesstoreols(存储OLS的结果)ivregress2slsyx1(x2=z1z2)（假设怀疑x2为内生变量）estimatesstoreiv（存储2SLS的结果）hausmanivols,constantsigmamore（根据存储的结果进行豪斯曼检验）但uguo存在异方差，则OLS并不是最有效的，传统额豪斯曼检验不适用于异方差的情形，解决方法是“自助法”；或者使用“杜宾-吴-豪斯曼DWH检验”也可以适用于存在异方差的情况。命令：estatendogenous在球型扰动项的假定下，2SLS是最有效的，但是如果扰动项存在异方差或者自相关，则广义矩估计（generalizedmethodofmoments,GMM）更有效。GMM与2SLS的关系就相当于GLS与OLS之间的关系。GMM过程：sccinstallivreg2(安装程序ivreg2)sccinstallranktest(安装另外一个在运行ivreg2时需要用到的辅助程序ranktest)usedataxtsetpanelvartimevar(设置面板变量和时间变量)ivreg2yx1(x2=z1z2),gmm2s12.短面板：（固定效应和随机效应模型）N