一元线性回归模型及其参数估计一、一元线性回归模型的参数估计二、最小二乘参数估计量的统计性质三、最小二乘参数估计量的概率分布一、一元线性回归模型的参数估计一元线性回归模型的一般形式一元线性回归模型的一般形式是:iiXiYmbb++=10i=1,2,…,n在满足基本假设:====0),(0),(2)(0)(iixCovjiCoviVariEmmmmsmmi=1,2,…,nj=1,2,…,ni≠j的情况下,随机抽取n组样本观测值iXiY,(i=1,2,…n),就可以估计模型的参数。同方差期望或均方值协方差模型参数估计的任务•模型参数估计的任务为两项:一是求得反映变量之间数量关系的结构参数的估计量,在一元线性回归模型即是参数和的估计量;b0b1二是求得随机误差项的分布参数,由于随机误差项的均值已经被假定为0,所以所要求的分布参数只有方差。2ms1、普通最小二乘法(OrdinaryLeastSquare,OLS)给定一组样本观测值(Xi,Yi),i=1,2,…n,假如模型参数估计量已经求得,并且是最合理的参数估计量,那么样本回归函数应该能够最好地拟合样本数据,即样本回归线上的点与真实观测点的“总体误差”应该尽可能地小。最小二乘法给出的判断标准是:二者之差的平方和最小,即==+==niiiniiiXYYYQ121012))ˆˆ(()ˆ(bb最小由于2)ˆ1(iYniYQ==2))1ˆ0ˆ(1(iXniYbb+是$b0、$b1的二次函数,并且非负,所以其极小值总是存在的。根据极值存在的条件,当Q对$b0、$b1的一阶偏导数为0时,Q达到最小。即001ˆ0ˆ==bbQQ=+=+0)1ˆ0ˆ(0)1ˆ0ˆ(iXiYiXiYiXbbbbS+S=SS+=S21ˆ0ˆ1ˆ0ˆiXiXiXiYiXniYbbbb解得:10=ˆˆXYbbSSSSS=2)(21ˆiXiXniXiYiXiYnb由于0ˆb、1ˆb的估计结果是从最小二乘原理得到的,故称为最小二乘估计量(least-squaresestimators)。最小二乘参数估计量的离差形式(deviationform)注:在计量经济学中,往往以大写字母表示原始数据(观测值),而以小写字母表示对均值的离差(deviation)。记====YiYiyXiXixiYnYiXnX11,则参数估计量可以写成:==21ˆ1ˆ0ˆixiyixXYbbb随机误差项方差的估计量$sm222=Seni记iYiYieˆ=为第i个样本观测点的残差,即被解释变量的估计值与观测值之差,则随机误差项方差的估计量为:1.用原始数据(观测值)Xi,Yi计算2ie简捷公式为=iXiYiYiYie1ˆ0ˆ22bb2.用离差形式的数据xi,yi计算=22122ˆiiixyeb其中==2222)(YnYYYyiii2222)(XnXXXxiii==2ie简捷公式为2、最大似然法(MaximumLikelihood,ML)•最大或然法,也称最大似然法,是不同于最小二乘法的另一种参数估计方法,是从最大或然原理出发发展起来的其它估计方法的基础。•基本原理:对于最大或然法,当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型总体中抽取该n组样本观测值的联合概率最大。对于一元线性回归模型:iiiXYmbb++=10i=1,2,…n随机抽取n组样本观测值iiXY,(i=1,2,…n),假如模型的参数估计量已经求得到,为$b0和$b1,那么iY服从如下的正态分布:iY~),ˆˆ(210msbbiXN+于是,iY的概率函数为2102)ˆˆ(2121)(iiXYieYPbbsms=i=1,2,…,n将该或然函数极大化,即可求得到模型参数的极大或然估计量。因为iY是相互独立的,所以Y的所有样本观测值的联合概率,也即或然函数(likelihoodfunction)为:),,,(),ˆ,ˆ(21210nYYYPL=msbb21022)ˆˆ(21)2(1iinXYnebbsmmsS=由于或然函数的极大化与或然函数的对数的极大化是等价的,所以,取对数或然函数如下:2102*)ˆˆ(21)2ln()ln(iiXYnLLbbssmmS==对L*求极大值,等价于对210)ˆˆ(iiXYbbS求极小值:=S=S0)ˆˆ(ˆ0)ˆˆ(ˆ21012100iiiiXYXYbbbbbb可见,在满足一系列基本假设的情况下,模型结构参数的最大或然估计量与普通最小二乘估计量是相同的。解得模型的参数估计量为:SSSSS=SSSSSS=2212220)(ˆ)(ˆiiiiiiiiiiiiiXYnXYXYnXXnXYXYXbb但是,随机误差项的方差的估计量是不同的。解或然方程0)ˆˆ(21221042*2=S+=iiXYnLbbsssmmm即可得到sm2的最大或然估计量为:neXYniii=S=22102)ˆˆ(1ˆbbsm3、样本回归线的数值性质(numericalproperties)•样本回归线通过Y和X的样本均值;•Y估计值的均值等于观测值的均值;•残差的均值为0。二、最小二乘参数估计量的统计性质高斯-马尔可夫定理当模型参数估计完成后,需考虑参数估计值的精度,即是否能代表总体参数的真值,或者说需考察参数估计量的统计性质。高斯—马尔可夫定理(Gauss-Markovtheorem)在给定经典线性回归的假定下,最小二乘参数估计量是具有最小方差的线性无偏估计量。1、线性性:最小二乘参数估计量是Y的线性函数。证:+===22221)(ˆiiiiiiiiiiixxYxYxxYYxxyxb令=2iiixxk,因==0)(XXxii,故有==iiiiiYkYxx21ˆb====iiiiiiiYwYkXnXYkYnXY)1(1ˆˆ10bb2、无偏性:最小二乘参数估计量的均值等于总体回归参数真值。证:++=++==iiiiiiiiiikXkkXkYkmbbmbbb10101)(ˆ由于02==iiixxk,1)()(222222=+=+=+==iiiiiiiiiiiiiiixxXxxxXxxxXXXxxXxXk故:+=iikmbb11ˆ=+=+=1111)()()ˆ(bmbmbbiiiiEkkEE++=++==iiiiiiiiiiwXwwXwYwmbbmbbb10100)(ˆ由于:===11)/1(iiikXkXnw====01)/1(XXXkXXnXkXnXwiiiiiii故:+=iiwmbb00ˆ=+=+=0000)()()()ˆ(bmbmbbiiiiEwEwEE3、有效性:在所有线性无偏估计量中,最小二乘参数估计量具有最小方差。(1)先求0ˆb和1ˆb的方差222221021)()()ˆ(iiiiiiiixxxXVarkYkVarVarS==++==mmssmbbb2222222222222222222210201211211)()ˆ(mmmmmmssssssmbbbiiiiiiiiiiiiiiiixnXxnXnxxXnxxXkXnnkXkXnnkXnXVarwYwVarVarSS=+=+=+=+==++==(2)证明最小方差性假设*1ˆb是其他方法得到的关于1b的线性无偏估计量:=iiYc*1ˆb其中,iiidkc+=,id为不全为零的常数。+=+===iiiiiiiiiXccXcYEcYcEE1010*1)()()()ˆ(bbbbb由*1ˆb的无偏性,即1*1)ˆ(bb=E可知:=+110bbbiiiXcc从而有:=0ic,=1iiXc*1ˆb的方差====2222*1)var()var()var()ˆvar(smbiiiiiiiccYcYc=++=+iiiiiidkdkdk22222222)(ssss由于==2)(iiiiiiiikckkckdk====011222222iiiiiiiiiiixxkxcXcXkcxx故+=+=+=22122222222*1)ˆvar(1)ˆvar(iiiiiddxdksbssssb因为02id所以)ˆvar()ˆvar(1*1bb当0=id,(ni,2,1=)等号成立,此时:iikc=,*1ˆb就是OLS估计量1ˆb。同理可证明)ˆvar()ˆvar(0*0bbSamplingdistributionofOLSestimator1ˆbandalternativeestimator*1ˆb11*11)ˆ()ˆ(bbb==EE1ˆb*1ˆb4、结论普通最小二乘参数估计量具有线性性、无偏性、最小方差性等优良性质。具有这些优良性质的估计量又称为最佳线性无偏估计量,即BLUE估计量(theBestLinearUnbiasedEstimators)。显然这些优良的性质依赖于对模型的基本假设。全部估计量线性无偏估计量BLUE估计量三、最小二乘参数估计量的概率分布1、0ˆb和1ˆb的概率分布首先,由于解释变量iX是确定性变量,随机误差项im是随机性变量,因此被解释变量iY是随机变量,且其分布(特征)与im相同。其次,0ˆb和1ˆb分别是iY的线性组合,因此0ˆb、1ˆb的概率分布取决于Y。在m是正态分布的假设下,Y是正态分布,因此0ˆb和1ˆb也服从正态分布,其分布特征(密度函数)由其均值和方差唯一决定。因此:),(~ˆ2211ixNsbb,),(~ˆ22200sbbiixnXN1ibibˆ0ˆb和1ˆb的标准差分别为:22200)ˆ()ˆ(msbb==iixnXVarSe==2211)ˆ()ˆ(ixVarSemsbb2、随机误差项m的方差2s的估计在参数估计量0ˆb和1ˆb的方差和标准差的表达式中,都含有随机扰动项方差2s=)var(im。由于2s实际上是未知的,因此0ˆb和1ˆb的方差与标准差实际上无法计算。由于随机项im不可观测,只能从im的估计——残差ie出发,对2s进行估计。可以证明,随机误差项方差的无偏估计量为:$sm222=Seni在随机误差项mi的方差的无偏估计量2ˆms求出后,0ˆb和1ˆb的方差及标准差的估计量分别是:1ˆb的样本方差:221ˆ)ˆ(ixVarS=msb1ˆb的样本标准差:=221ˆ)ˆ(ixSemsb0ˆb的样本方差:2220ˆ)ˆ(msbiixnXVarSS=0ˆb的样本标准差:2220ˆ)ˆ(msb=iixnXSe例:已知收入X和消费支出Y的如下数据,试估计Y对X的一元线性回归方程,并计算参数估计量的标准差。收入X(元)支出Y(元)XXYY))((YYXX2)(XX2XYˆ2)ˆ(YY1800700-900-410369000810000640000652232121000650-700-46032200049000010000007541074031200900-500-2101050002500001440000855198441400950-300-1604800090000196000095753516001100-100-101000100002560000105916746180011501004040001000032400001161119720001200300902700090000400000012633935822001400500290145000250000484000013651257924001550