第二章一元线性回归模型古典线性回归模型及其基本假设回归参数的点估计——OLS法经典假设满足时的区间估计与假设检验方差分析与拟合优度用回归模型进行预测一元线性回归分析案例一、古典线性回归模型任意抽出一个妇女,试猜测其体重如何猜?准确性如何?猜平均体重,最大偏差:26如何猜得更准确?影响体重的最直接因素是身高:一般身高高的人体重大。平均身高:62.85inch,标准差:3.3以平均身高分界:最大偏差20E(weight/hight)=b0+b1hight,09.4ˆ,134ˆ10bb例:20个妇女的体重资料如表,平均体重:123.6pound,标准差:15.5最低体重:93pound,最大体重:155一个身高60的妇女体重平均111.5,最大偏差12highttweigh09.4134ˆ身高INCH7068666462605856体重POUN1601501401301201101009093155体重均值123.6猜体重平均值,最大偏差:268.4606)(2wwi总变异身高INCH7068666462605856体重POUN16015014013012011010090身高相同的人体重不一定相同平均来看,体重随身高的增加而增加身高INCH7068666462605856体重POUN16015014013012011010090平均身高62.85134.0113.2以平均身高分界,高于平均身高猜134,低于平均身高猜113.2:最大偏差20能不能猜得更准?身高INCH7068666462605856体重POUN16015014013012011010090highttweigh09.4134ˆ这条直线的含义是什么?一个身高60的妇女体重平均111.5,最大偏差12观测值weighti估计值weight残差iiietweighweightˆ身高INCH7068666462605856体重POUN16015014013012011010090highttweigh09.4134ˆ%8.73%100*8.46063.33995.1207)ˆ((3.3399)ˆ(8.4606)(2222R回归线的解释程度残差平方和)剩余变异身高解释的变异总变异身高体重总体回归线通常,身高高的人体重大。同样身高的人体重不同,即在给定身高下,体重有一个分布。大样本下为正态分布。总体回归线反映了给定身高下,体重的平均水平:E(weight/hight)=b0+b1hight,b0,b1是未知的参数hightbbweight10实际体重:已知20个妇女的身高体重资料以此为样本估计总体参数样本回归线为什么要有回归分析的任务:从样本回归线估计总体回归线iiieheightbbweightheightbbtweigh1010ˆˆˆˆˆheighttweigh09.4134ˆ一元线性回归的一般模型niXYiii,,2,110其中:(Yi,Xi)-样本观测值,0、1回归系数(总体参数,待估),i-随机误差项(方差为总体参数,待估,反映了因变量的离散程度)1的经济意义:X对Y的影响程度:X增加一个单位,平均来说将导致Y增加1个单位经典回归模型的基本假定假设1:解释变量x是非随机变量,它的值是确定的——条件回归。Yi与i同分布。假设2:随机误差项具有0均值和同方差。即:E(i)=0,Var(i)=i=1,2,…,n2685810360111144hightweightniXYiii,,2,110E(i)=0的说明E(i)=0即:凡是模型不显含的、因而归属于i的因素,对y的均值都没有系统影响。如果E(i)=,即被省略的变量对y的均值有系统性影响,则有:Yi=0+1Xi+i=0+1Xi+i+-=(0+)+1Xi+(i-)=+1Xi+——新模型,——所有系统性影响都包含在截距项(常数项)中,所以一般不予过多关注。*0*i0)(*iEiiiXXYE10)(总体回归函数Var(i)=的说明随机误差项具有相同的散布程度,即对应于不同x值的y总体具有同样的方差。如果Var(i)=则称随机误差项具有异方差22i每周收入$每周支出$每周收入$每周支出$古典回归模型的基本假定假设3:随机误差项在不同样本点之间是独立的,不存在序列相关,即:Cov(i,j)=0iji,j=1,2,…,nCov(i,j)=E[(i–E(i))(j–E(j))]=E(ij)=0当来自于不同观测值的误差项相关时,即其协方差不为0,则称这个误差序列是序列相关的。古典回归模型的基本假定ijiijj古典回归模型的基本假定假设4:随机误差项与解释变量之间不相关,即:Cov(Xi,i)=0i=1,2,…,n此假定意味着X和(代表了所有被省略的变量的影响)对Y有各自的影响,并且使可加的。当X为非随机变量时,此假设自动成立。证明?Cov(Xi,i)=E[(Xi–E(Xi))(i–E(i))]=0古典回归模型的基本假定假设5:随机误差项服从0均值,同方差的正态分布,即:iN(0,)YiN(0+1Xi,)前4个假设构成了古典线性回归模型。对于假设5,根据中心极限定理,但样本容量趋于无穷大时,对于任何实际模型都是满足的。22二、回归参数的点估计回归参数的最小二乘估计最小二乘估计量的性质1.普通最小二乘估计(OLS)一元线性回归模型:Y=0+1X+在μ的零均值假设下,iiXXYE10)|(——总体回归线总体回归线:说明被解释变量Y的平均状态(总体条件期望)随解释变量X变化的规律。0、1为总体参数1.普通最小二乘估计(OLS)随机抽取n组样本值Xi,Yi,i=1,2,…,n,有Yi=0+1Xi+i利用样本数据得到参数0、1的估计量、设被解释变量Yi的估计值为:样本回归线可以看作是对总体回归线的一个点估计样本观测值与估计值的关系为:称为回归残差,它是对随机误差项i的一个估计0ˆ1ˆiiXY10ˆˆˆiiiYYeˆiiiiieXeYY10ˆˆˆ——样本回归线身高INCH7068666462605856体重POUN16015014013012011010090iYˆiiXXYE10)|(iiXY10ˆˆˆiXiY)|(iXYEiie回归分析的主要目的:根据样本回归函数估计总体回归函数。iiiiieXeYY10ˆˆˆiiiiiXXYEY10)|(1.普通最小二乘估计(OLS)OLS的思路:使残差平方和最小,即:极值条件:niiiniiiXYYYQ121012)]ˆˆ([)ˆ(min0010QQ0)ˆˆ(0)ˆˆ(1010iiiiiXXYXY00iiiXee残差的性质正规方程组正规方程组的另一种写法:1.普通最小二乘估计(OLS)求解上述联立方程得到回归参数点估计量:XYxyxXXYYXXiiiiii10221ˆˆ)())((ˆ其中:YYyXXxiiii分别是xi和yi的离差随机误差项方差的估计量为:2ˆ22nei1.普通最小二乘估计(OLS)OLS回归线的性质:回归线通过Y和X的样本均值,即:残差之和为零,即:残差和Xi不相关,即:残差和Ŷi不相关,即:XY10ˆˆYYˆ0ˆiieY00iiiXee证明?*极大似然估计基本原理:当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大。ML必须已知随机项的分布。),ˆˆ(~210iiXNY2102)ˆˆ(2121)(iiXYieYP),,,(),ˆ,ˆ(21210nYYYPL21022)ˆˆ(21)2(1iinXYneYi的分布Yi的概率函数Y的所有样本观测值的联合概率—似然函数2102*)ˆˆ(21)2ln()ln(iiXYnLL0)ˆˆ(ˆ0)ˆˆ(ˆ21012100iiiiXYXY2212220)(ˆ)(ˆiiiiiiiiiiiiiXXnXYXYnXXnXYXYX对数似然函数对数似然函数极大化的一阶条件结构参数的ML估计量结果与参数的OLS估计相同。0)ˆˆ(210212*222iinXYLneXYniii22102)ˆˆ(1ˆ分布参数的ML估计量分布参数估计结果与OLS不同2.最小二乘估计量的性质高斯-马尔可夫定理:在给定经典线性回归模型的假定下,最小二乘估计量在无偏线性估计量一类中具有最小方差,即它们是最优线性无偏估计量(BLUE)。线性性:0、1的最小二乘估计量是Y的观测值的线性函数,即:无偏性:一个估计量的均值(期望)等于其真值,即:有效性:在所有线性无偏估计量中方差最小iiYk1ˆ)ˆ(EOSL估计量与各类估计量的关系全部估计量线性估计量子集线性无偏估计量子集BLUEOLS估计量性质的证明线性性的证明:22221)(ˆiiiiiiiiiiiiiixxkYkxYxxYYxxyx性质:1.ki非随机2.ki=03.4.221iixk1iiiiXkxk基本假设1OLS估计量性质的证明无偏性证明:iiiiiiiiiiiikkXkkXkYk110101)(ˆ11111)()()()()ˆ(iiiiiiEkkEEkEE0均值假设OLS估计量性质的证明有效性证明:方差的推导222222211)()()()()ˆ(XXxkVarkkVarkVarVariiiiiiiii2220221)()ˆ()()ˆ(XXnXVarXXVariii方差的性质:)()(2xVarabaxVar),(2)()()(yxCovyVarxVaryxVar同方差假设无序列相关假设最小二乘估计量的方差OLS估计量性质的证明有效性证明:设为1的任一线性无偏估计量,则有:*1iiY*1且i=0,iXi=12222222222222*11)()(2)()()()(iiiiiiiiiiiiiiixkkkkkkkYVarVar01)(22iiiixxx只要iki,)ˆ()(1*1VarVar关于OLS估计量方差的说明对给定的,方差越大,回归系数估计量的方差就越大,估计精度越低;对给定的,x值越分散,的方差越小,估计的精度越高。和之间的依赖性由它们间的协方差来衡量。随着样本容量n的增大,总和中的项数将增加,1的估计精度也随之增加。221)()ˆ(XXVari2220)()ˆ(XXnXVarii2ix221ˆ2ix)ˆ()ˆ,ˆ(12210VarXxXCovi负号表明:如果1被高估,0就将被低估1ˆ0ˆ三、经典假设满足时的区间估计与假设检验只有在经典假设满足时,OLS估计量是最优线性无偏估计量——区间估