第二章一元线性回归模型回归的含义总体回归函数样本回归函数普通最小二乘法(OLS)线性模型与非线性模型关于随机误差项的古典假设OLS估计量的性质OLS估计量的概率分布假设检验与置信区间拟合优度案例分析与Eviews的应用回归的含义回归的历史含义F.加尔顿最先使用“回归(regression)”。父母高,子女也高;父母矮,子女也矮。给定父母的身高,子女平均身高趋向于“回归”到全体人口的平均身高。回归的现代释义回归分析用于研究一个变量关于另一个(些)变量的具体依赖关系的计算方法和理论。商品需求函数:ntunemploymebainflation12)(TRbaTaxbPaQ生产函数:LKAQlnlnlnln菲利普斯曲线:拉弗曲线:等式左边的变量被称为被解释变量(ExplainedVariable)或应变量(DependeniVariable)。等式右边的变量被称为解释变量(ExplanaioryVariable)或自变量(IndependeniVariable)。回归的现代释义回归分析的目的根据自变量的值,估计因变量的均值。检验(基于经济理论的)假设。根据样本外自变量的值,预测因变量的均值。相关与独立、协方差与相关系数相关分析的目的是测度两个变量之间线性关系的强度。回归分析关心的是根据自变量的值估计或预测因变量的均值。相关分析所研究的变量是对等的。回归分析中把变量分为自变量和因变量。自变量是确定的;因变量是随机的。回归与相关回归与因果关系从逻辑上说,统计关系式本身不可能意味着任何因果关系。“一个统计关系式,不管多强也不管多么有启发性,却永远不能确立因果方面的联系:对因果关系的理念,必须来自统计学以外,最终来自这种或那种理论。”——Kendall和Stuart前面四个例子都是基于经济理论设定的,包括身高和体重的关系。总体回归函数假想案例总体回归函数的随机设定随机误差项的意义XY80100120140160180200220240260556579801021101201351371506070849310711513613714515265749095110120140140155175708094103116130144152165178758598108118135145157175180-88-113125140-160189185---115---162-191户数5657665765总支出32546244570767875068510439661211假设一个国家只有60户居民,他们的可支配收入和消费支出数据如下(单位:美元):假想案例(1)由于不确定因素的影响,对同一收入水平X,不同家庭的消费支出不完全相同;(2)但由于调查的完备性,给定收入水平X的消费支出Y的分布是确定的,即以X的给定值为条件的Y的条件分布(Conditionaldistribution)是已知的,如:P(Y=55|X=80)=1/5。因此,给定收入X的值Xi,可得消费支出Y的条件均值(conditionalmean)或条件期望(conditionalexpectation):E(Y|X=Xi)该例中:E(Y|X=80)=65分析:描出散点图发现:随着收入的增加,消费“平均地说”也在增加,且Y的条件均值均落在一根正斜率的直线上。这条直线称为总体回归线。E(Y|Xi)=0+1Xi=17.00+0.6Xi“天行有常,不为尧存,不为桀亡。应之以治则吉,应之以乱则凶。”---荀子《天论》E(Y|Xi)=0+1Xi总体回归函数其中:Y——被解释变量;X——解释变量;0,1—回归系数(待定系数或待估参数)总体回归函数的随机设定对于某一个家庭,如何描述可支配收入和消费支出的关系?XiYi.........E(Y|Xi)=0+1XiY1Y2Y3u1u2u3—总体回归直线ui=Yi-E(Y|Xi)—随机误差项某个家庭的消费支出分为两部分:一是E(Y|Xi)=0+1Xi,称为系统成分或确定性成分;二是ui,称为非系统或随机性成分。Yi=E(Y|Xi)+ui=0+1Xi+uiYi=0+1Xi+uiE(Y|Xi)=0+1Xi,随机性总体回归函数确定性总体回归函数随机误差项u的意义理论的含糊性。数据的欠缺。未纳入模型的其他变量的影响。如攀比心理、受教育水平等。模型设定误差人类行为内在的随机性。度量误差。XY8010012014016018020022024026055——————135137—60——93107115————6574—95110120—140—175——94103——144——17875—98108—135——175—-88-113125—-—189—---115---162-191户数4226331333总支出255162192627342370144337501544样本回归函数为研究总体,我们需要抽取一定的样本。第一个样本样本回归线样本均值连线XY80100120140160180200220240260—6579—102—120135——60708493—115——145152—7490—————155——80——116—144152165—7585——118—145——180-—-——140-160189185---115---—-—户数2532323343总支出135374253208336255409447654517样本回归函数第二个样本样本回归线样本均值连线总体回归模型和样本回归模型的比较XiYiY1Y2Y3u1u2u3e2e3e1E(Y|Xi)=0+1XiiiXY10ˆˆˆ注意:分清几个关系式和表示符号(2)样本(估计的)回归直线:(3)总体(真实的)回归函数:(4)样本(估计的)回归函数:(1)总体(真实的)回归直线:iiiuXY10iiX)X|Y(E10iiieXY10ˆˆiiXY10ˆˆˆui——随机误差项ei——残差项对于所研究的经济问题,通常总体回归直线E(Yi|Xi)=0+1Xi是观测不到的。可以通过收集样本来对总体(真实的)回归直线做出估计。样本回归模型:iiXY10ˆˆˆ其中:为Yi的估计值(拟合值);iYˆ10ˆ,ˆ为0,1的估计值;iiieXY10ˆˆei为残差,可视为ui的估计值。普通最小二乘法或:4060801001201401601802004080120160200240280XY如何得到一条能够较好地反映这些点变化规律的直线呢?对于参数的估计采用最小二乘估计法、最小二乘法的原则是以“残差平方和最小”确定直线位置(即估计参数)。(Q为残差平方和)Q=niie12niiiYY12)ˆ(==niiiXY1210)ˆˆ(则通过Q最小确定这条直线,即确定,以为变量,把它们看作是Q的函数,就变成了一个求极值的问题,可以通过求导数得到。10ˆ,ˆ10ˆ,ˆiiiiiiXYeeXY1010ˆˆˆˆ样本回归模型:则通过Q最小确定这条直线,即确定,以为变量,把它们看作是Q的函数,就变成了一个求极值的问题,可以通过求导数得到。10ˆ,ˆ10ˆ,ˆ求Q对两个待估参数的偏导数:0ˆQ=)1()ˆˆ(2110niiiXY=01ˆQ=)()ˆˆ(2110iniiiXXY=0正规方程组00iiiXee即221)())((ˆiiiiiixyxXXYYXXXY10ˆˆ根据以上两个偏导方程得以下正规方程(Normalequation):iiXnY10ˆˆ210ˆˆiiiiXXXY)为离差。()和(的均值,、分别为和其中YYyXXxYXYXiiii,OLS回归直线的性质(1)残差和等于零(2)估计的回归直线过点.iiXY10ˆˆˆ),(YX(3)Yi的拟合值的平均数等于其样本观测值的平均数.YYˆ0te(4)Cov(ei,Xi)=0(5)Cov(ei,)=0iYˆ线性与非线性ntunemploymebainflation1生产函数:LKAQlnlnlnln菲利普斯曲线:拉弗曲线:bYaTaxTRYTRbaTax22)()(LlKkAaQqln,ln,ln,lnlkaqinversentunemployme1inversebainflation*受教育年限与平均小时工资奥肯定律股票价格与利率古董钟与拍卖价格iiXY7241.00144.0ˆ一些例子)5.2(4.0ttXYttXY1517.26066035.15ˆiiieAgeP4856.106662.191利用OLS方法得到一个样本回归模型(一条样本回归线)后,问题结束了吗?为什么要用普通最小二乘法?样本回归模型有无穷多个,我们仅仅得到其中一个,它能反映真实的总体回归模型吗?样本回归模型对数据的拟合程度可以接受吗?如何用样本回归模型进行预测?问题结束了吗?11ˆ密度函数假定1:零期望假定:E(ui|Xi)=0。古典线性回归模型的基本假定E(Y|Xi)=0+1XiXY0假定2:同方差性假定:Var(ui)=E[ui-E(ui)]2=E(ui2)=2。XY0XY0同方差异方差假定3:无序列相关(无自相关)假定:Cov(ui,uj)=E[(ui-E(ui))(uj-E(uj))]=E(uiuj)=0,(ij)。无自相关正自相关负自相关假定4:解释变量X与随机误差项u不相关Cov(ui,Xi)=E[(ui-E(ui))(Xi-E(Xi))]=E(uiXi)=0如果X为确定性变量,该假定自然满足假定5:回归模型是关于参数线性的,但不一定关于变量线性。假定6:回归模型设定正确,即不存在设定误差或设定错误。OLS估计量的性质高斯-马尔可夫定理如果满足古典线性回归模型的基本假定(假定1-假定6),则在所有的线性估计量中,OLS估计量是最优线性无偏估计量(BLUE)。线性性无偏性有效性10ˆ,ˆ都是Yi的线性函数。证明:1ˆ=2()()()iiiXXYYXX=2()()()iiiiXXYYXXXX2()()iiiXXYXX=令22()()iiiiiXXxkXXx2iiixYx代入上式,得:iiYk1ˆ=线性性线性估计量的处理要比非线性估计量更为容易证明:)ˆ(1E===)(iiYkE]([10iiiuXkE][10iiiiiukXkkE=)(])([1iiiiukEXXkE=)(1iiuEk=122(-)(-)iiiiiXXxkXXx无偏性=1)ˆ(1E1)~(1E无偏估计量有偏估计量OLS估计量的方差比其他线性无偏估计量的方差都小。最小方差性与有效性1)ˆ(1f)~(1f)(1f一致性(了解)1200),ˆ(1nf150),ˆ(1nf100),ˆ(1nf50),ˆ(1nf概率密度OLS估计量的方差为什么要估计方差?方差反映了数据的离散程度和估计结果的精确性。受教育年限与每小时工资iiXY7241.00144.0ˆ1211ix)ˆ(Var)ˆ(s2200)ˆ()ˆ(标准误ixnXVarsei:总体(随机误差项)真实方差2的估计量:210)()()(iiiiuVaruXVarYVar22ˆˆ222nenuii2的估计受教育年限与每小时工资iiXY7241.00144.0ˆOLS估计量的概率分布概率分布是进行假设检验的前提如果受教育年限的单位为月ii