1Stata命令大全面板数据计量分析与软件实现说明:以下do文件相当一部分内容来自于中山大学连玉君STATA教程,感谢他的贡献。本人做了一定的修改与筛选。*----------面板数据模型*1.静态面板模型:FE和RE*2.模型选择:FEvsPOLS,REvsPOLS,FEvsRE(pols混合最小二乘估计)*3.异方差、序列相关和截面相关检验*4.动态面板模型(DID-GMM,SYS-GMM)*5.面板随机前沿模型*6.面板协整分析(FMOLS,DOLS)***说明:1-5均用STATA软件实现,6用GAUSS软件实现。*生产效率分析(尤其指TFP):数据包络分析(DEA)与随机前沿分析(SFA)***说明:DEA由DEAP2.1软件实现,SFA由Frontier4.1实现,尤其后者,侧重于比较C-D与Translog生产函数,一步法与两步法的区别。常应用于地区经济差异、FDI溢出效应(SpilloversEffect)、工业行业效率状况等。*空间计量分析:SLM模型与SEM模型*说明:STATA与Matlab结合使用。常应用于空间溢出效应(R&D)、财政分权、地方政府公共行为等。*---------------------------------*--------一、常用的数据处理与作图-----------*---------------------------------*指定面板格式xtsetidyear(id为截面名称,year为时间名称)xtdes/*数据特征*/xtsumlogyh/*数据统计特征*/sumlogyh/*数据统计特征*/*添加标签或更改变量名labelvarh人力资本2renamehhum*排序sortidyear/*是以STATA面板数据格式出现*/sortyearid/*是以DEA格式出现*/*删除个别年份或省份dropifyear1992dropifid==2/*注意用==*/*如何得到连续year或id编号(当完成上述操作时,year或id就不连续,为形成panel格式,需要用egen命令)egenyear_new=group(year)xtsetidyear_new**保留变量或保留观测值keepinv/*删除变量*/**或keepifyear==2000**排序sortidyear/*是以STATA面板数据格式出现sortyearid/*是以DEA格式出现**长数据和宽数据的转换*长宽数据reshapewidelogy,i(id)j(year)*宽长数据reshapelogy,i(id)j(year)**追加数据(用于面板数据和时间序列)xtsetidyear*或者xtdes3tsappend,add(5)/表示在每个省份再追加5年,用于面板数据/tsset*或者tsdes.tsappend,add(8)/表示追加8年,用于时间序列/*方差分解,比如三个变量Y,X,Z都是面板格式的数据,且满足Y=X+Z,求方差var(Y),协方差Cov(X,Y)和Cov(Z,Y)bysortyear:corrYXZ,cov**生产虚拟变量*生成年份虚拟变量tabyear,gen(yr)*生成省份虚拟变量tabid,gen(dum)**生成滞后项和差分项xtsetidyeargenylag=l.y/*产生一阶滞后项),同样可产生二阶滞后项*/genylag2=L2.ygendy=D.y/*产生差分项*/*求出各省2000年以前的openinv的平均增长率collapse(mean)openinvifyear2000,by(id)变量排序,当变量太多,按规律排列。可用命令aorder或者orderfdiopeninsti4*-----------------*二、静态面板模型*-----------------*---------简介-----------*面板数据的结构(兼具截面资料和时间序列资料的特征)useproduct.dta,clearbrowsextsetidyearxtdes*---------------------------------*--------固定效应模型-----------*---------------------------------*实质上就是在传统的线性回归模型中加入N-1个虚拟变量,*使得每个截面都有自己的截距项,*截距项的不同反映了个体的某些不随时间改变的特征**例如:lny=a_i+b1*lnK+b2*lnL+e_it*考虑中国29个省份的C-D生产函数*******-------画图------**散点图+线性拟合直线twoway(scatterlogyh)(lfitlogyh)*散点图+二次拟合曲线twoway(scatterlogyh)(qfitlogyh)*散点图+线性拟合直线+置信区间twoway(scatterlogyh)(lfitlogyh)(lfitcilogyh)5*按不同个体画出散点图和拟合线,可以以做出fevsre的初判断*twoway(scatterlogyhifid4)(lfitlogyhifid4)(lfitlogyhifid==1)(lfitlogyhifid==2)(lfitlogyhifid==3)*按不同个体画散点图,sobeautiful!!!*graphtwowayscatterlogyhifid==1||scatterlogyhifid==2,msymbol(Sh)||scatterlogyhifid==3,msymbol(T)||scatterlogyhifid==4,msymbol(d)||,legend(position(11)ring(0)label(1北京)label(2天津)label(3河北)label(4山西))**每个省份logy与h的散点图,并将各个图形合并twowayscatterlogyh,by(id)ylabel(,format(%3.0f))xlabel(,format(%3.0f))*每个个体的时间趋势图*xtlinehifid11,overlaylegend(on)*一个例子:中国29个省份的C-D生产函数的估计tabid,gen(dum)list*回归分析reglogylogklogldum*,eststorem_olsxtreglogylogklogl,feeststorem_feesttablem_olsm_fe,b(%6.3f)star(0.10.050.01)*Wald检验testlogk=logl=0testlogk=logl*stata的估计方法解析*目的:如果截面的个数非常多,那么采用虚拟变量的方式运算量过大*因此,要寻求合理的方式去除掉个体效应*因为,我们关注的是x的系数,而非每个截面的截距项*处理方法:*6*y_it=u_i+x_it*b+e_it(1)*ym_i=u_i+xm_i*b+em_i(2)组内平均*ym=um+xm*b+em(3)样本平均*(1)-(2),可得:*(y_it-ym_i)=(x_it-xm_i)*b+(e_it-em_i)(4)/*withinestimator*/*(4)+(3),可得:*(y_it-ym_i+ym)=um+(x_it-xm_i+xm)*b+(e_it-em_i+em)*可重新表示为:*Y_it=a_0+X_it*b+E_it*对该模型执行OLS估计,即可得到b的无偏估计量**stata后台操作,揭开fe估计的神秘面纱!!!egeny_meanw=mean(logy),by(id)/*个体内部平均*/egeny_mean=mean(logy)/*样本平均*/egenk_meanw=mean(logk),by(id)egenk_mean=mean(logk)egenl_meanw=mean(logl),by(id)egenl_mean=mean(logl)gendyw=logy-y_meanwgendkw=logk-k_meanwgendlw=logl-l_meanwregdywdkwdlw,noconseststorem_statagendy=logy-y_meanw+y_meangendk=logk-k_meanw+k_meangendl=logl-l_meanw+l_meanregdydkdleststorem_stataesttablem_*,b(%6.3f)star(0.10.050.01)*解读xtreg,fe的估计结果7xtreglogyhinvgovopen,fe*--R^2*y_it=a_0+x_it*b_o+e_it(1)pooledOLS*y_it=u_i+x_it*b_w+e_it(2)withinestimator*ym_i=a_0+xm_i*b_b+em_i(3)betweenestimator**--R-sq:within模型(2)对应的R2,是一个真正意义上的R2*--R-sq:betweencorr{xm_i*b_w,ym_i}^2*--R-sq:overallcorr{x_it*b_w,y_it}^2**--F(4,373)=855.93检验除常数项外其他解释变量的联合显著性***--corr(u_i,Xb)=-0.2347**--sigma_u,sigma_e,rho*rho=sigma_u^2/(sigma_u^2+sigma_e^2)dise(sigma_u)^2/(e(sigma_u)^2+e(sigma_e)^2)**个体效应是否显著?*F(28,373)=338.86H0:a1=a2=a3=a4=a29*ProbF=0.0000表明,固定效应高度显著*---如何得到调整后的R2,即adj-R2?ereturnlistreglogyhinvgovopendum**---拟合值和残差*y_it=u_i+x_it*b+e_it*predictnewvar,[option]/*xbxb,fittedvalues;thedefaultstdpcalculatestandarderrorofthefittedvaluesueu_i+e_it,thecombinedresidualxbuxb+u_i,predictionincludingeffect8uu_i,thefixed-orrandom-errorcomponentee_it,theoverallerrorcomponent*/xtreglogylogklogl,fepredicty_hatpredicta,upredictres,epredictcres,uegenares=a+reslistarescresin1/10*---------------------------------*----------随机效应模型---------*---------------------------------*y_it=x_it*b+(a_i+u_it)*=x_it*b+v_it*基本思想:将随机干扰项分成两种*一种是不随时间改变的,即个体效应a_i*另一种是随时间改变的,即通常意义上的干扰项u_it*估计方法:FGLS*Var(v_it)=sigma_a^2+sigma_u^2*Cov(v_it,v_is)=sigma_a^2*Cov(v_it,v_js)=0*利用PooledOLS,WithinEstimator,BetweenEstimator*可以估计出sigma_a^2和sigma_u^2,进而采用GLS或FGLS*Re估计量是Fe估计量和Be估计量的加权平均*yr_it=y_it-theta*ym_i*xr_it=x_it-theta*xm_i*theta=1-sigma_u/sqrt[(T*sigma_a^2+sigma_u^2)]*解读xtreg,re的估计结果useproduct.dta,clearxtreglogylogklogl,re*--R29*--R-sq