1第三讲多元线性回归模型1.假定条件、最小二乘估计量和高斯—马尔可夫定理多元线性回归模型:yt=0+1xt1+2xt2+…+k-1xtk-1+ut,(1.1)其中yt是被解释变量(因变量),xtj是解释变量(自变量),ut是随机误差项,i,i=0,1,…,k-1是回归参数(通常未知)。)1(21)1(110)(111222111111)1(21111TTkkkTkTTjTkjkjTTuuuxxxxxxxxxyyy(1.3)Y=X+u,(1.4)为保证得到最优估计量,回归模型(1.4)应满足如下假定条件。假定⑴随机误差项ut是非自相关的,每一误差项都满足均值为零,方差2相同且为有限值,即E(u)=0=00,Var(u)=E(uˆuˆ')=2I=210000001假定⑵解释变量与误差项相互独立,即E(X'u)=0假定⑶解释变量之间线性无关。rk(X'X)=rk(X)=k其中rk()表示矩阵的秩。假定⑷解释变量是非随机的,且当T→∞时T–1X'X→Q其中Q是一个有限值的非退化矩阵。最小二乘(OLS)法的原理是求残差(误差项的估计值)平方和最小。代数上是求极值问题。minS=(Y-Xˆ)'(Y-Xˆ)=Y'Y-ˆ'X'Y-Y'Xˆ+ˆ'X'Xˆ=Y'Y-2ˆ'X'Y+ˆ'X'Xˆ(1.5)因为Y'Xˆ是一个标量,所以有Y'Xˆ=ˆ'X'Y。(1.5)的一阶条件为:2ˆS=-2X'Y+2X'Xˆ=0(1.6)化简得X'Y=X'Xˆ因为(X'X)是一个非退化矩阵(见假定⑶),所以有ˆ=(X'X)-1X'Y(1.7)因为X的元素是非随机的,(X'X)-1X是一个常数矩阵,则ˆ是Y的线性组合,为线性估计量。求出ˆ,估计的回归模型写为Y=Xˆ+uˆ(1.9)其中ˆ=(0ˆ1ˆ…1ˆk)'是的估计值列向量,uˆ=(Y-Xˆ)称为残差列向量。因为uˆ=Y-Xˆ=Y-X(X'X)-1X'Y=[I-X(X'X)-1X']Y(1.10)所以uˆ也是Y的线性组合。ˆ的期望和方差是E(ˆ)=E[(X'X)-1X'Y]=E[(X'X)-1X'(X+u)]=+(X'X)-1X'E(u)=(1.11)Var(ˆ)=E[(ˆ–)(ˆ–)']=E[(X'X)-1X'uu'X(X'X)-1]=E[(X'X)-1X'2IX(X'X)-1]=2(X'X)-1(1.12)高斯—马尔可夫定理:若前述假定条件成立,OLS估计量是最佳线性无偏估计量。ˆ具有无偏性。ˆ具有最小方差特性。ˆ具有一致性,渐近无偏性和渐近有效性。2.残差的方差s2=uˆ'uˆ/(T-k)(1.13)s2是的无偏估计量,E(s2)=。ˆ的估计的方差协方差矩阵是Var(ˆ)=s(X'X)-1(1.14)3.多重确定系数(多重可决系数)Y=Xˆ+uˆ=Yˆ+uˆ(1.15)总平方和SST=Tttyy12)(=Y'Y-T2y,(1.16)其中y是yt的样本平均数,定义为y=TyTtt/)(1。回归平方和为SSR=Tttyy12)ˆ(=Yˆ'Yˆ-T2y(1.17)3其中y的定义同上。残差平方和为SSE=Ttttyy12)ˆ(=Tttu12ˆ=uˆ'uˆ(1.18)则有如下关系存在,SST=SSR+SSE(1.19)R2=22ˆˆyTyTSSTSSR-YYY'Y(1.20)显然有0R21。R21,拟合优度越好。4.调整的多重确定系数当解释变量的个数增加时,通常R2不下降,而是上升。为调整因自由度减小带来的损失,又定义调整的多重确定系数2R如下:2R=1-))(1(1)1/()/(SSTSSRSSTkTTTSSTkTSSE=1-)1(12RkTT(1.21)5.OLS估计量的分布若uN(0,I),则每个ut都服从正态分布。于是有YN(X,I)(1.22)因ˆ也是u的线性组合(见公式1.7),依据(1.11)和(1.12)有ˆN(,(X'X)-1)(1.23)6.方差分析与F检验与SST相对应,自由度T-1也被分解为两部分,(T-1)=(k-1)+(T-k)(1.24)回归均方定义为MSR=1kSSR,误差均方定义为MSE=kTSSE表1.1方差分析表方差来源平方和自由度均方回归SSR=Yˆ'Yˆ-Ty2k-1MSR=SSR/(k-1)误差SSE=uˆ'uˆT-kMSE=SSE/(T-k)总和SST=Y'Y-Ty2T-1H0:1=2=…=k-1=0;H1:j不全为零F=MSEMSR=)/()1/(kTSSEkSSRF(k-1,T-k)(1.25)设检验水平为,则检验规则是,若FF(k-1,T-k),接受H0;若FF(k-1,T-k),拒绝H0。40F(k-1,T-k)-t(T-k)0t(T-k)F检验示意图t检验示意图7.t检验H0:j=0,(j=1,2,…,k-1),H1:j0t=)ˆ(ˆjjs=1121)'(ˆ)ˆ(ˆjjjjsVarXXt(T-k)(1.26)判别规则:若ttk接受H0;若ttk拒绝H0。11.建模过程中应注意的问题05000100001500020000250003000080818283848586878889909192GDPGDP(f)(1)研究经济变量之间的关系要剔除物价变动因素。以上图为例,按当年价格计算,我国1992年的GDP是1980年的5.9倍,而按固定价格计算,我国1992年的GDP是1980年的2.8倍。另外从图中还可看出,1980-1992期间按名义价格计算的GDP曲线一直是上升的,而按不变价格(1980年价格)计算的GDP曲线在1989年出现一次下降。可见研究经济变量应该剔除物价变动因素。(2)依照经济理论以及对具体经济问题的深入分析初步确定解释变量。例:我国粮食产量=f(耕地面积、农机总动力、施用化肥量、农业人口等)。但根据我国目前情况,“耕地面积”不是“粮食产量”的重要解释变量。粮食产量的提高主要来自科技含量的提高。例:关于某市的食用油消费量,改革开放前常驻人口肯定是重要解释变量。现在则不同,消费水平是重要解释变量,因为食用油供应方式已改变。(3)当引用现成数据时,要注意数据的定义是否与所选定的变量定义相符。例:“农业人口”要区别是“从事农业劳动的人口”还是相对于城市人口的“农业人口”。例:2002年起我国已经执行新的规定划分三次产业。即将农、林、牧、副、渔服务业从原第三产业划归第一产业。(4)通过散点图,相关系数,确定解释变量与被解释变量的具体函数关系。(线性、非线性、无关系)5(nonli8)(5)谨慎对待离群值(outlier)。离群值可能是正常值也可能是异常值。不能把建立模型简单化为一个纯数学过程,目的是寻找经济规律。年INV(投资)IMPORT(进口)19912.56200023.4700019922.42970032.2900019936.71240063.99000199415.3760078.75000199521.31000149.1300199627.37000113.8100199741.71000106.1500199839.78000112.2000(6)过原点回归模型与非过原点回归模型相比有如下不同点。以一元线性过原点模型,yt=1xt+ut,为例,①tuˆ=0不一定成立。原因是正规方程只有一个(不是两个),12ˆ)ˆ(tu=2(yt-1ˆxt)(-xt)=0,即tuˆxt=0,而没有tuˆ=0。所以残差和等于零不一定成立。②可决系数R2有时会得负值!原因是有时会有SSESST。为维持SSE+SSR=SST,迫使SSR0。(7)改变变量的测量单位可能会引起回归系数值的改变,但不会影响t值。即不会影响统计检验结果。以一元回归模型的估计公式为例说明之。1ˆ=2)())((xxyyxxtttt=)1ˆ(1ˆs=2)())((xxyyxxtttˆ)(2xxt=2)())((xxyyxxttt2)ˆ()2(ttyyT(8)回归模型给出估计结果后,首先应进行F检验。F检验是对模型整体回归显著性的检验。(检验一次,H0:1=2=…=k-1=0;H1:j不全为零。)若F检验结果能拒绝原假6设,应进一步作t检验(检验k次,H0:j=0,(j=1,2,…,k-1),H1:j0)。t检验是对单个解释变量的回归显著性的检验。若回归系数估计值未通过t检验,则相应解释变量应从模型中剔除。剔除该解释变量后应重新回归。按经济理论选择的变量剔出时要慎重。(9)在作F与t检验时,不要把自由度和检验水平用错(正确查临界值表)。回归系数的t检验是双端检验,但t检验表的定义有P(tt)=,P(tt)=-t(T-k)0t(T-k)F(k-1,T-k)(10)对于多元回归模型,当解释变量的量纲不相同时,不能在估计的回归系数之间比较大小。若要在多元回归模型中比较解释变量的相对重要性,应该对回归系数作如下变换jˆ*=jˆ)()(ttjysxs,j=1,2,…k-1(1.41)其中s(xt)和s(yt)分别表示xt和yt的样本标准差。jˆ*可用来直接比较大小。以二元模型为例,标准化的回归模型表示如下(标准化后不存在截距项),)(ttysyy=1*)(111ttxsxx+2*)(222ttxsxx+…+ut两侧同乘s(yt),得(yt-y)=1*)()(1ttxsys(xt1-1x)+2*)()(2ttxsys(xt2-2x)+…+uts(yt)所以有j*)()(tjtxsys=j,即j*=j)()(ttjysxs,i=1,2,…k-1既是(1.41)式。(11)利用回归模型预测时,解释变量的值最好不要离开样本范围太远。原因是①根据预测公式离样本平均值越远,预测误差越大。以一元回归模型为例;FyˆN(0+1xF,(1+T1+22)()(xxxxtF))74681012556065707580859095LOG(TRADE)(12)回归模型的估计结果应与经济理论或常识相一致。如边际消费倾向估计结果为1.5,则模型很难被接受。(13)残差项应非自相关(用DW检验,亦可判断虚假回归)。否则说明①仍有重要解释变量被遗漏在模型之外。②选用的模型形式不妥。(14)通过对变量取对数消除异方差。(15)避免多重共线性。(16)解释变量应具有外生性,与误差项不相关。(17)应具有高度概括性。若模型的各种检验及预测能力大致相同,应选择解释变量较少的一个。(18)模型的结构稳定性要强,超样本特性要好。(19)世界是变化的,应该随时间的推移及时修改模型。建模案例1:《全国味精需求量的计量经济模型》(见《预测》1987年第2期)1.依据经济理论选择影响味精需求量变化的因素依据经济理论一种商品的需求量主要取决于四个因素,即①商品价格,②代用品价格,③消费者收入水平,④消费者偏好。模型为:商品需求量=f(商品价格,代用品价格,收入水平,消费者偏好)对于特定商品味精,当建立模型时要对上述四个因素能否作为重要解释变量逐一鉴别。商品价格:味精是一种生活常用品,当时又是一种价格较高的调味品。初步判断价格会对需求量产生影响。所以确定价格作为一个重要解释变量。代用品价格:味精是一种独特的调味品,目前尚没有替代商品。所以不考虑代用品价格这一因素。消费者收入:显然消费者收入应该是一个较重要的解释变量。偏好:由于因偏好不食味精或大量食用味精的情形很少见,所以每人用量只会在小范围内波动