第六章回归分析原理6·1、一元线性回归数学模型这里所讨论的一元线性回归数学模型,是数学模型的最简单形式。当然要注意的是,这里模型讨论是在真正回归意义上来进行的,也可称之为概率意义上的线性模型。在非确定性意义上,或概率意义上讨论问题,首先要注意一个最基本的概念或思路问题,这就是总体和样本的概念。概率论和数理统计的基本思想和目的,就是希望通过样本所反映出来的信息来揭示总体的规律性,这种想法或思路显然存在重大的问题。但另一方面,我们也必须承认,为了寻找总体的规律或客观规律,只能通过样本来进行,因为我们只可能得到样本。在真正回归意义上建立其有效方法时,必须作出相应的假设条件。基本假设条件:(1)假设概率函数或随机变量的分布对于所有值,具有相同的方差,且是一个常数,亦即(2)假设的期望值位于同一条直线上,即其回归直线为等价于)|(iiXYPiYiX22)(iYVar=)(iVar=2。iY)(iYE)(iYE=iX0)(iE上面这个假设是核心假设,它实际上表明与之间是确定性的关系。(3)假设随机变量是完全独立的,亦即)(iYEiXiY。jiuuCovYYCovjiji,0),(),(6·2、随机项或误差项的含义一元线性回归模型的一般形式为是一随机项或误差项,它的存在表明对的影响是随机的,非确定性的。那么,究竟包含了什么意义或内容呢?概括地说来主要有:(1)模型中被忽视了的影响因素;(2)变量的测量误差,这种误差主要来自统计数据本身的误差;iiixYiiXiYi(3)随机误差。社会经济现象中涉及到人的主观因素和行为,还有历史的、文化的等因素,这些因素一般来说是难以量化的、多变的;(4)模型的数量关系误差。即数学形式所带来的误差。一般来说,所有的经济数学模型的误差也就是这4个方面,或者说是存在的主要问题,对此我们必须要有清醒和深入的认识。6·3、一元线性回归模型的参数估计必须理解和认识总体回归模型和样本回归模型的区别和关系,假设总体真正的回归直线是它是由总体回归模型显然,上面的模型是想象的、理论上的,实际上是找不到的,它们实际上就是所谓客观规律。iixYE)(iiixY而样本的回归直线为它是来自于样本的回归模型注意总体和样本模型的区别和联系,无限和有限,相同和不同等。下面我们同样根据最小二乘准则,建立真正回归意义上的最小二乘法:iiXYˆˆˆiiieXYˆˆ对样本模型iiieXYˆˆ假设其估计的回归模型为iiXYˆˆˆ因此,其残差则为iIiiiXYYYeˆˆˆ所以,其残差平方和为22)ˆˆ(iiiXYeQ根据前面的结果,我们有其中到此样本回归模型的参数就估计出来了。对于这个结果需要注意的是,这里的,都是的函数,而是随机变量,因此,从理论上说,随机变量,而不是一个或几个固定的值,是一个概率分布。iiixyxˆYYyXXxiiii,XYˆˆˆˆ6.4、估计值的性质(1)估计值的线性性质所谓线性性是指估计值,是观测值的线性函数。证明:222)(ˆiiiiiiiiiixxYYxxYYxxyx而0ixiiiiiYwxYx2ˆ其中iiixxw2同理可证:ˆ=iiYk其中Xwnkii1所以,ˆ,ˆ是iY线性函数ˆˆ(2)估计值的无偏性。所谓无偏性是指估计值,的期望值等于总体回归模型参数,的值。亦即,。证明:通过计算可知ˆˆ)ˆ(E)ˆ(E)()ˆ(iiYwEE)()(iiiiiiiiwXwwEXwE1,0iiiXww)()()()ˆ(iiiiEwEwEE,其中),.3,2,1(,0)(niEi所以有)ˆ(E同理可证)ˆ(E(3)有效性(或称ˆ,ˆ具有最小方差性)。所谓有效性主要是指最小二乘估计ˆ,ˆ在所有线性无偏估计中,其方差是最小的。证明的基本思路是:)ˆ()~(VarVar,)ˆ()~(VarVar证明(略)。上面三个性质是最小二乘估计的主要性质,理论上说已达到最好的结果了。因此,满足这三条的估计也称作最优线性无偏估计。6·5、最小二乘估计,的显著性检验与置信区间所谓显著性检验实际上就是对检验估计值与总体参数值差别大小的方法。也就是数理统计中的“假设检验”的方法一种实际应用。这里再一次指出,参数估计之所以要进行检验,是因为这里的,是随机变量。假设服从正态分布,又因,是的线性函数,所以,也是服从正态分布的。只要计算出,的方差,我们就可得到ˆˆˆˆˆˆˆˆiYiY在上面的分布函数中,除了,不可能知道外,我们必须解决未知数估计值,才可能继续进行显著性检验。ˆ~),(222iixnXNˆ~),(22ixN21、建立随机变量方差的估计值采用一定的办法是可以解决估计值的,下面给出其推理过程,并证明其估计值是一个无偏估计。设:YYyiiXXxYYyiiii,ˆˆ所以iiiiyyYYeˆˆ而(1)XYXYiii,)(iiixy又(2)XYˆˆ代入iiXYˆˆˆ22ˆ2则有)(ˆˆXXYYiiixyˆˆ由此我们就有iiye)()ˆ(ˆiiixy因此,进一步则有)()ˆ(2)()ˆ(222iiiiixxe下面我们分别计算上式右边每一项的期望值:2222)ˆvar()()ˆ(iixxE其中22)ˆvar(ix222)(1)(iiinEE2)1(niiiiiiiiiiixxExxxxExE222)()()()ˆ(2222iixx(注意其中222)(ˆiiiiiiiiiixxxXxxYx2ˆiiixx)我们最终得到22222)2(2)1()(nneEi如果我们定义2ˆ22nei,那么2ˆ就是2的无偏估计,亦即有222)2()ˆ(neEEi。但是我们还不能证明2ˆ是最小方差估计,这是十分遗憾的。2、最小二乘估计值,的显著性检验显著性检验实际上是检验,与,之间的差距和可靠性。具体的检验方法就是“假设检验”的方法。一般假设检验中用来进行检验的统计量(实际上就是一种随机变量)主要有二个,即Z统计量和T统计量。(1)应用Z统计量的条件是:已知而无论样本的大小,或者未知但样本足够的大(n至少大于30)。ˆˆˆˆ22已知ˆ~),(222iixnXNˆ~),(22ixN则我们有222ˆiixnXZ~N(0,1)22ˆIXz~N(0,1)当然如果未知2,但样本数大于30,则在上式中用2ˆ替代即可。2)应用T统计量的条件:当方差2未知,且样本小于30时。已知ˆ~),(222iixnXNˆ~),(22ixN则我们有222ˆˆiixnXT=ˆˆ~t(n-k)22ˆIXT=ˆˆ~t(n-k)这里的n是样本的个数,k是模型中变量的个数,n-k是自由度。在“假设检验”的实际应用中,一个十分重要的问题是如何确定总体意义上的,的值。我们知道“总体”概念说到底只是一个设想,一个信念而已,我们不可能知道,的具体值,但我们又要依据,具体值才能判断或检验,是否是可接受的或误差不大。我们只能用假设、或者具体地说是用理论假说的数量结论来替代,的具体值,也就是“假设检验”方法中作出“零假设”的主要依据;这样我们就可看到,所谓“假设检验”中原来希望检验,与,之间差异的想法或思路,已经转变为检验,是否与理论假说或其他主观判断和经验相符。ˆˆ3、总体参数,置信区间的估计为了确定,是怎样接近真实总体的参数,,我们期望构造一个区间来具体加以说明,亦即建立一个围绕估计值,的一定限制范围,来推断总体参数,在一定置信度下落在此区间。所谓置信(或称置信水平)度实际上与显著性水平的意义类似,只是数量的大小相反而已。ˆˆˆˆ例如,对于ˆ的T统计量,有22ˆIXT=ˆˆ~t(n-k)先确定其置信度如95%和自由度(n-k),然后通过t分布表找出临界值0250t的值。则我们有950)(0250ˆ0250tTtp即950)ˆˆˆˆ(ˆ0250ˆ0250ttp所以,置信度是95%的置信区间为)ˆˆ,ˆˆ(ˆ0250ˆ0250tt6·6、预测值问题的分析0ˆY根据最小二乘法我们从样本模型iiieXYˆˆ找到了它的回归直线iiXYˆˆˆ我们已对ˆ,ˆ作了检验并通过后,应该可以根据上式来进行预测了,亦即对于0X,可得到0ˆY,亦即00ˆˆˆXY我们要具体考察0ˆY性质,实际上主要是分析它的误差性质,可以从两种角度来看待0ˆY的误差。一是把0ˆY看成是总体回归线)(0YE(即00)(XYE)的估计值;二是把0ˆY看成是0Y(即000XY)的估计值。(1)如果把0ˆY看成是总体回归线即)(0YE的近似值,则0ˆY有什么样的性质呢。可以证明的是0ˆY是)(0YE的无偏估计。现证明如下:)()ˆ()ˆ()ˆˆ()ˆ(00000YEXXEEXEYE然后,我们来看看0ˆY方差的性质和具体形式:)ˆ,ˆcov(2)ˆvar()ˆvar()ˆˆvar())(ˆvar()ˆvar(0200000XXXYEYY))(1(2202ixXXn从0ˆY方差的计算结果可看出,如果0X离样本观测值X的距离越大,则0ˆY的方差也就越大。这实际上说明回归的基本思想实际上是归纳的思路,亦即我们的0X不能脱离样本或经验的范围太远,否则模型的预测值的方差将增大,预测将将变得更加不可靠。同时这个结果也把回归模型预测的类型分为两类,第一类称之为“内插检验”亦即这时的0X必须在样本所限定的区间内,言外之意是对经验之内的情况,回归模型的预测效果是比较可靠的。第二类称之为“外推预测”,这时的0X是在样本区间的外面,这时的预测值的误差方差显然是较大的,亦即“外推预测”是十分不可靠的。(2)如果把0ˆY看作真正总体0Y或000XY的预测估计值,其性质和结果又会什么变化呢?下面我们来具体看看这种情况下0ˆY的期望值和方差:对于给定的0X,有000XY00ˆˆˆXY则0000)ˆ()ˆ(ˆXYY取其期望值,则有0)()ˆ()ˆ()ˆ(0000EXEEYYE再来看看此时的0ˆY方差又有什么变化:20020000)ˆ()ˆ()ˆ()ˆvar(XEYYEYY=002020)ˆ()ˆ()(2)()ˆ()ˆ(XEEEXE=))(11()ˆvar(220220ixXXnY从上面的结果可清楚看出,总体的0Y与样本的估计值0ˆY之间的方差,要比与总体回归线)(0YE的方差大,准确地说大2。这是一个十分重要的结论,可具体表示为预测误差的方差=抽样误差的方差+随机误差项的方差这个结论表明,人为降低预测误差只能在抽样误差的方差方面作出努力,而其存在的随机误差是无法避免或改变的。通过上面的讨论和计算,我们就可以进一步对0ˆY进行显著性检验和计算其置信区间。