三、系数的估计误差与置信区间(一)OLS估计的概率分析根据(2-1)式计算的只是回归系数a,b的点估计值,计量经济研究中经济使用系数(的估计值)来定量分析解释变量对y的影响程度。因此,分析过程中需要了解参数估计值与真值之间究竟有多大误差,或者说,两者的接近程度如何,是否能以一定的概率确定参数真值所属的范围。例如,例2中曾估计出我国城镇居民的边际消费倾向为0.6237,这个估计值有多大误差?边际消费倾向的上下限各为多少(置信区间)?为了说明这些问题,需要先确定OLS估计的概率分布。在高斯——马尔可夫定理的证明过程中已经得到:xxSbDbbE/)ˆ()ˆ(2而且)(ˆiiiiibxakykb假定:i~),0(2N由于正态分布的线性组合仍然服从正态分布,而且分布形式由其均值和方差惟一确定,所以:bˆ~)/,(2xxSbN同理可以证得:aˆ~)/,(22xxinSxaN(二)系数的估计误差估计误差即估计值bˆ与真值的偏差bbˆ,随着抽样的不同,误差大小是一个随机变量,因此考虑概率意义下的平均误差。由于,平均误差(平方)=xxSbDbEbEbbE/)ˆ())ˆ(ˆ()ˆ(222上式解释:若不取平方,则0)ˆ()ˆ(bbEbbE,第二等式应用的是:)ˆ(bEb上式的含义:即等于估计量的方差;这一点也容易理解,因为OLS估计是无偏估计,均值即为参数真值,所以估计量匀值的平均偏差————方差也就反映了估计量与参数真值的平均偏差。这样,参数估计量的平均误差为:xxSbDbbE/)ˆ()ˆ(22,其中,涉及到随机误差项i的方差,这个值通常并不知道,实际计算中一般采用2的无偏估计量:)2/(ˆ22nei来估计2,并且用符号)ˆ(bS表示系数bˆ的估计误差:xxixxSneSbS)2(ˆ)ˆ(22同理a的估计误差为:xxii)SnnxeaS2())(()ˆ(22)ˆ(),ˆ(aSbS又称为系数的标准误差(或标准差)。Eviews软件在估计回归模型时,将同时输出系数的估计值和标准差。如在例2中,baˆ,ˆ的标准误差分别为86.4262和0.0144。需要指出的是,系数的标准误差只是反映了估计量与真值的相对偏离程度;)ˆ(bS越小,由bb与ˆ的近似误差越小,但不能认为bb与ˆ之间的绝对误差就是)ˆ(bS,这可以从参数的置位区间得到进一步的说明。(三)系数的置信区间利用OLS估计式(2-1)得到的只是系数的点估计,为了对系数的取值情况有更多的了解,可以按一定的可靠性确定系数的取值范围:用统计术语来说,就是在一定的置信度下,求得系数的置信区间。可以证明,统计量:)ˆ(ˆbSbbt~)2(nt所以,对于给定的置信度1,由t分布表可以查得临界值2/t,使得:1)|(|2/ttP,即:1))ˆ(ˆ)ˆ(ˆ(2/2/bStbbbStbP所以系数b的100(1)%置信区间为:))ˆ(ˆ),ˆ(ˆ(2/2/bStbbStb即以100(1)%的概率保证回归系数属于该区间内。在例2中,若取05.0,查表得25.0t)28(=2.447,6237.0ˆb,0144.0)ˆ(bS,所以系数b的置信区间为:0.6237±2.447×0.0144=(0.5885,0.6589)即以95%的概率保证,我国城镇居民的边际消费倾向在(0.5885,0.6589)该区间内。显然,置信区间越小,对回归系数的估计精度就越高。从置信区间的计算公式可以看出,置信区间的长度为)ˆ(22/bSt,在取定的情况下,2/t是一个常数,所以置信区间的长度主要取决于系数的标准差)ˆ(bS。)ˆ(bS越小,则估计的误差越小,估计值bˆ与真值b越接近。因此,称)ˆ(bS为系数的估计误差,并用它来衡量估计的精度是合理的;而且,在一定的概率下,bˆ与真值b的绝对误差充其量不会超过)ˆ(2/bSt。四、多元线性回归模型的参数估计(一)OLS估计的矩阵表示形式对于多元线性回归模型nixbxbxbbyikikiii,,2,122110如果利用最小二乘法估计模型的参数,同样应该使残差平方和达到最小,即有:最小22211022)ˆˆˆˆ()ˆ(kikiiiiiixbxbxbbyyye因此,参数估计值应该是下列方程的解:0)ˆˆˆ(2ˆ0)ˆˆˆ(2ˆ0)ˆˆˆ(2ˆ110211101211002kikikiikiikikiiikikiiixxbxbbybexxbxbbybexbxbbybe等价于:2221102222121202121221110122110ˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆkikikiikikiikikiikiiiiiikiikiiiiiikikiiixbxxbxxbxbyxxxbxbxxbxbyxxxbxxbxbxbyxxbxbxbbny(2----2)称(2-2)式为正规方程组。若定义矩阵:)1(212221212111121111knknnnkknnxxxxxxxxxXyyyY1211)1(10ˆˆˆˆnnkkeeeebbbB则正规方程组(2-2)式可以用矩阵形式表示成如下形式:BXXYXˆ)(所以,参数的最小二乘估计为:)32()(ˆ1YXXXB(二)系数的估计误差与置信区间若记1)(XXC可以证明:kicbDiii,,2,1,0)ˆ(2其中,iic为矩阵C对角线上第i个元素,2为随机误差项的方差,可以用无偏估计量2ˆ进行估计:11ˆ22kneeknei这样,系数估计值的标准差为:)42(1ˆ)ˆ(22kneccbSiiiiii利用EViews软件可以直接求得系数估计值的标准差。同理,因为统计量)ˆ(ˆiiibSbbt~)1(knt所以,对于给定的置信度1,回归系数ib的100(1)%置信区间为:)52())ˆ(ˆ),ˆ(ˆ(2/2/iiiibStbbStb例3我国国有独立核算工业企业生产函数。根据生产函数理论,生产函数的基本形式为:),,,(KLtfY。其中,L,K分别为生产过程中投入的劳动与资金,时间变量t反映技术进步的影响。表2-7列出了我国1978~1994年期间国有独立核算工业企业的有关统计资料;其中产出Y为工业总产值(可比价),L,K分别为年末职工人数和固定资产净值(可比价)。试利用EViews软件建立线性生产函数:KbLbtbbY3210(1)建立工作文件:CREATEA7894(2)输入统计资料:DATAYLK(3)生成时间变量tGENRT=@TREND(77)(4)建立回归模型:LSYCTLK我国国有独立核算工业企业统计资料(表2-7)年份时间t工业总产值Y(亿元)职工人数L(万人)固定资产K(亿元)1978197919801981198219831984198519861987198819891990199119921993199412345678910111213141516173289.183581.263782.173877.864151.254541.054946.115586.145931.366601.607434.067721.017949.558634.809705.5210261.6510928.66313932083334348835823632366938153955408642294273436444724521449845452225.702376.342522.812700.902902.193141.763350.953835.794302.254786.055251.905808.716365.797071.357757.258628.779374.34资料来源:根据《中国统计年鉴——1995》和〈〈中国工业经济年鉴——1995〉〉计算整理表2-8列出了回归方程式窗显示的有关信息生产函数的估计结果(表2-8)VariableCoefficienStd.Errort-StatisticProb.C-675.32082682.060-0.2517920.8051T77.67893115.67310.6715380.5136L0.6666650.8536260.7809800.4488K0.7764170.1044597.4327450.0000R-squared0.995764Meandependentavr6407.247AdjustedR-squared0.994786S.D.dependentvar2486.742S.E.ofregression179.5630Akaikeinfocriter10.58338Sumsquaredresid419157.5Schwarzcriterion10.77943Loglikelihood-110.0807F-statistic1018.551Durbin-Watsonstat1.510903Prob(F-statistic)0.000000因此,我国国有独立工业企业的生产函数为:KLty7764.06667,06789.7732.675ˆ(2682.06)(115.67)(0.8536)(0.1045)其中括号里的数字为系数的标准差。模型的计算结果表明,我国国有独立核算工业企业的劳动力边际产出为0.6667,资金的边际产出为0.7764,技术进步的影响使工业总产值平均每年递增77.68亿元。但是模型中除资金变量K之外,其他变量(包括常数项)所对应回归系数的估计误差都比较大。因此需要对模型做适当的调整。至于模型的统计检验和进一步调整,我们将在后面逐步介绍。五、极大似估估计(ML)(一)极大似然估计原理极大似然估计(MaximumLikelihood,简称ML,又称为最大似然估计)是一种估计原理与最小二乘估计完全不同的参数估计方法。虽然ML估计没有OLS估计应用普遍,但近代计量经济学理论的发展,更多地是以极大似然原理作为基础;一些特殊的计量经济模型也只有使用ML估计才能获得理想的结果。因此,有必要了解极大似然估计的基本原理和方法。若i~),0(2N则iiibxay~),(2ibxaN设随机抽取了n组观察数据,则),,,(21nyyy的联合密度函数为:])(21exp[21()()()(),,,(2222121iininnbxay)()yyfyfyfyyyfL相互独立因为对于一组确定的样本,这是一个关于参数2,,ba的函数,称之为参数的似然函数。极大似然估计基于这样的原理:既然所抽取的样本是一次观测中得到的,表明“观察值落在该样本周围”是一个比较容易发生的大概率事件,因此,所选择的参数估计值应该使这一事件的概率达到最大。由于连续型随机变量在某一点周围取值的概率主要由联合密度函数f),,,(21nyyy决定,所以一元线性回归模型的极大似然估计,就是选择baˆ,ˆ(实际上还包括2ˆ),使似然函数),(baL取到最大值。即:),(max)ˆ,ˆ(baLbaL(二)回归系数的极大似然估计由于对数函数是单调函数,使对数似然函数Lln达到最大化的参数值同样也使似然函数L达到最大值。因此,为了便于求解极值,将似然函数取成对数形式:222)ˆˆ(21)2ln()ˆ,ˆ(lniixbaynbaL根据:0)ˆˆ(1ˆln0)ˆˆ(1ˆln22iiiiixxbaybLxb