§3.3线性回归模型的参数估计一元线性回归模型的参数估计多元线性回归模型的估计最小二乘估计量的性质随机干扰项方差的估计一、一元线性回归模型的估计•模型满足基本假设niXYiii,,2,1,1001一元线性模型:问题:如何估计和?参数的普通最小二乘估计(OLS)•给定一组样本观测(Xi,Yi)(i=1,2,…n)•绘制数据散点图,从中可看出Y随着x变动而变动的趋势。希望得到均匀穿过散点的趋势线,尽可能好地拟合数据点。02468100246810YXiiXY10参数的普通最小二乘估计(OLS)(续)•普通最小二乘法(Ordinaryleastsquares,OLS)给出的判断标准是:在给定的样本值下,确定,使残差平方和最小。iiXY10※为什么要平方?而不是直接相加?10,2ieniiiniXYYYQ121021))ˆˆ(()ˆ(即达到最小。拟合直线或者回归直线为:•一阶条件:0010QQ得:0)(0)(1010iiiiiXYXYX或21010iiiiiiXXXYXnY称为正规方程组•解正规方程组得:用离差形式表示:XYxyxiii1021ˆˆˆ其中,YYyXXxiiii由于参数的估计结果是通过最小二乘法得到的,故称为普通最小二乘估计量(ordinaryleastsquaresestimators)。2212220)(ˆ)(ˆiiiiiiiiiiiiiXXnXYXYnXXnXYXYX例2.3:在上述家庭可支配收入-消费支出例中,对于所抽出的一组样本数,参数估计的计算可通过下面的表2.2.1进行。表2.2.1参数估计的计算表iXiYixiyiiyx2ix2iy2iX2iY1800594-1350-9731314090182250094750864000035283621100638-1050-92997587011025008637841210000407044314001122-750-44533405056250019838119600001258884417001155-450-41218558020250017007428900001334025520001408-150-1592391022500254084000000198246462300159515028414022500762529000025440257260019694504021807202025001612836760000387696182900207875051138295056250026071284100004318084932002585105010181068480110250010355101024000066822251035002530135096312995101822500926599122500006400900求和21500156745769300742500045900205365000029157448平均21501567777.074250005769300ˆ21iiixyx因此,由该样本估计的回归方程为:iiXY777.0172.103ˆ0115670.7772150103.172ˆˆYXStata回归程序语言•第一步,从excel拷贝数据库到stata数据库,存为stata数据库文件,如:saveD:\data\ols1•第二步,打开stata数据库文件,如:useD:\data\ols1,replace•第三步,运行回归程序,如:regyiXi•第四步,分析回归结果。Stata回归结果如下:regyixiSourceSSdfMSNumberofobs=10F(1,8)=334.49Model4482804.3814482804.38ProbF=0.0000Residual107216.024813402.003R-squared=0.9766AdjR-squared=0.9737Total4590020.49510002.267RootMSE=115.77yiCoef.Std.Err.tPt[95%Conf.Interval]xi.7770101.042485118.290.000.6790393.8749809_cons-103.171798.40598-1.050.3250.325-330.0963123.7529估计的系数参数估计的最大似然法(ML)•最大似然法(MaximumLikelihood,简称ML),也称最大或然法,是不同于最小二乘法的另一种参数估计方法,是从最大似然原理出发发展起来的其它估计方法的基础。•基本原理:对于最大似然法,当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大。参数估计的最大似然法(ML)-续•在满足基本假设条件下,对一元线性回归模型:•随机抽取n组样本观测值(Xi,Yi)(i=1,2,…n)•假如模型的参数估计量已经求得,为iiiXY10那么Yi服从如下的正态分布:),ˆˆ(~210iiXNY参数估计的最大似然法(ML)-续2102)ˆˆ(2121)(iiXYieYP(i=1,2,…n)),,,(),ˆ,ˆ(21210nYYYPL21022)ˆˆ(21)2(1iinXYne于是Y的概率密度函数为:因为Yi是相互独立的,所以Y的所有样本观测值的联合概率,也即似然函数(likelihoodfunction)为:•将该似然函数极大化,即可求得到模型参数的极大似然估计量。•由于似然函数的极大化与似然函数的对数的极大化是等价的,所以,取对数似然函数如下:2102*)ˆˆ(21)2ln()ln(iiXYnLL参数估计的最大似然法(ML)-续•可见,在满足一系列基本假设的情况下,模型结构参数的最大似然估计量与普通最小二乘估计量是相同的。2212220)(ˆ)(ˆiiiiiiiiiiiiiXXnXYXYnXXnXYXYX参数估计的最大似然法(ML)-续解得模型的参数估计量为:二、多元线性回归模型估计•模型满足基本假设•问题:估计参数niXXXYikikiii,,2,122110i模型:对于随机抽取的n组观测值kjniXYjii,2,1,0,,,2,1),,(如果样本函数的参数估计值已经得到,则有:KikiiiiXXXYˆˆˆˆˆ22110i=1,2…n根据最小二乘原理,参数估计值应该是下列方程组的解0ˆ0ˆ0ˆ0ˆ210QQQQk其中2112)ˆ(niiiniiYYeQ2122110))ˆˆˆˆ((nikikiiiXXXY于是得到关于待估参数估计值的正规方程组:kiikikikiiiiikikiiiiiikikiiikikiiXYXXXXXYXXXXXYXXXXYXXX)ˆˆˆˆ()ˆˆˆˆ()ˆˆˆˆ()ˆˆˆˆ(221102222110112211022110解该(k+1)个方程组成的线性代数方程组,即可得到(k+1)个待估参数的估计值,,,,,jjk012。正规方程组的矩阵形式nknkknkkiikikikiiiikiiYYYXXXXXXXXXXXXXXXXn212111211102112111111ˆˆˆ即YXβX)X(ˆ由于满秩,故有YXXXβ1)(ˆXX三、最小二乘估计量的性质•当模型参数估计出后,需考虑参数估计值的精度,即是否能代表总体参数的真值,或者说需考察参数估计量的统计性质。•假设多元线性模型满足基本假设,则参数的OLS估计是最佳线性无偏估计,记为BLUE。•BLUE:Best,Linear,Unbiased,Estimator•因为OLS估计量有许多有用的统计性质,所以在回归分析中,OLS法得到了广泛的应用。下面介绍OLS估计量的统计性质。高斯—马尔可夫定理(Gauss-Markovtheorem):1.线性性1222()()()()()ˆ()()()iiiiiiiiiixxyyxxyyxxxxyxxxxxx2()()iiixxkxx令代入上式得:1ˆiiky可见是Yi的线性函数,同理0也具有线性特性。1ˆ2.无偏性•OLS估计没有系统偏差,是参数的无偏估计,即•含义:平均地看,参数估计和参数真值相一致。),,2,1()(njEjj的证明过程2xxyxxyxx12ˆxxyyxx11ˆ012xxxxx012xxxxxxxxx120xxxxxxxx12xxxx1111)))))(((((xxxxxxxxxxxxx注:12[]xxxx112ˆxxxx12xxxx111ˆ的证明过程(续)01ˆˆyx011ˆxx011xxn00ˆ0的证明过程3.有效性•在所有无偏估计中,OLS估计的方差最小。•含义:在所有无偏估计中,OLS估计最有效。虽然用别的方法也能得到线性无偏估计,但是用OLS能够更准确地估计参数。有效性的证明过程112ˆvarvarxxxx212ˆvarxx22varvarxxxx222222xxxxxx首先计算两个参数的方差:有效性的证明过程(续)01011ˆˆˆvarvarvaryxxx2202ˆvarxnxx011ˆvarvarvarvarxxn222222221xxxnxxxnn222222222xxnxnxnxxxnxnxx222xxnx其次,证明其他估计方法得到的关于参数的线性无偏估计量的方差都比用OLS得到的参数的方差大,即,OLS得到的参数的方差比其他任何方法得到的参数的方差都小。证明过程参见张晓峒主编的《计量经济学基础》第23页,南开大学出版社。4.一致性•在基本假设下,可以证明因此,最小二乘估计是一致估计。•含义:样本越大,估计得越准确。这是个大样本性质,在小样本下意义不大。lim(1,2,,)jjnpjn全部估计线性估计线性无偏OLS估计四、随机误差项的方差的估计2随机干扰项的方差是一个重要的量,在参数的区间估计、假设检验和预测中都有着重要的作用。由于随机项i不可观测,只能从i的估计——残差ei