一元线性回归方程

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

回归的含义一元回归模型的建立参数估计——最小二乘法随机误差项的古典假定最小二乘估计量的性质最小二乘估计量的概率分布回归系数的显著性检验与置信区间用样本可决系数检验回归方程的拟合优度案例分析第二章一元线性回归模型回归概念的提出FrancisGalton最先使用“回归(regression)”。父母高,子女也高;父母矮,子女也矮。给定父母的身高,子女平均身高趋向于“回归”到全体人口的平均身高。F.加尔顿是达尔文的表弟,是研究智力的先驱者之一,他非常严肃,非常聪明,但也有些疯狂,他出生在一个贵格教徒家庭中,祖上是著名的和平主义者,有趣的是,他家的名下却有生产枪支的企业。高尔顿是个申通,6岁便能阅读和背诵莎士比亚的作品,他在更小的时候已经会说了希腊语和拉丁语。他似乎对什么事情都感兴趣,成年后的高尔顿在气象学、心理学、摄影学,甚至是刑事司法领域都有所建树(他倡导使用指纹分析的科学方法来确定罪犯身份)。此外,他还发明了“标准差”这一统计概念及线性回归法,并用这些数学工具来研究人类的行为。一、回归的含义回归的现代释义回归分析用于研究一个变量关于另一个(些)变量的具体依赖关系的计算方法和理论。商品需求函数:ntunemploymebainflation12)(TRbaTaxbPaQLKAQlnlnlnln生产函数:菲利普斯曲线:拉弗曲线:等式左边的变量被称为被解释变量(explainedvariable)因变量(dependentvariable)响应变量(responsevariable)被预测变量(predictedvariable)回归子(regressand)回归的现代释义等式右边的变量被称为解释变量(explanatoryvariable)自变量(independentvariable)控制变量(controlvariable)预测变量(predictorvariable)回归元(regressor)。在多数对经济理论的检验中(包括对公共政策的评价),经济学家的目标就是要退订一个变量(比如受教育程度)对另一个变量(如犯罪率或工人的生产率)具有因果效应(causaleffect)。有时可能会很简单就能发现两个或多个变量之间存在很强的联系,但除非能得到某种因果关系,否则这种联系很难令人信服。其他条件不变(ceterisparibus):意味着“其他(相关因素保持不变)”的概念,它在因果分析中有重要的作用。这个概念看似简单,但是除非在极为特殊的条件下,很难实现多数经验研究中的一个关键问题是:要做出一个因果推断,是否能使其他足够多的因素保持不变呢?只要方法得当,用计量经济方法可以模拟一个其他条件不变的实验——通过对模型进行假定。回归分析中的因果关系和其他条件不变的概念二、一元线性回归模型回归分析都是从如下假设前提开始的:Y和X是代表某个总体的变量,我们感兴趣的是“用X解释Y”或“研究Y如何随X而变化”在写出用X解释Y的模型时,面临三个问题Y和X的函数关系是怎么样的?如何考虑其他影响Y的因素呢?我们如何才能确信我们得到的是,是在其他条件不变情况下的Y和X之间的关系?Y=0+1X+u其中:Y——被解释变量;X——解释变量;u——随机误差项;表示除X之外其他影响Y的因素,一元回归分析将除X之外的其他所有影响Y的因素都看成了无法观测的因素0,1—回归系数(待定系数或待估参数)1是斜率系数,是主要的研究对象0是常数项,也被称作截距参数,很少被当做分析的核心我们可以通过建立一个如下的关于Y和X的方程来解决上述三个问题总体回归模型为解决上面提到的第三个问题,及如何在忽略其他因素的同时,又得到其他因素不变情况下X对Y的影响呢?这需要我们对无法观测的u和X之间的关系加以约束,并且只有如此,才能从一个随机样本数据中获得β0和β1的可靠估计量。E(u)=0即无法观测的因素的平均值为零,不会对结果产生影响E(u|X)=0根据X的不同把总体划分为若干部分,每个部分中无法观测的因素都具有想通的平均值,且这个共同的平均值必然等于整个总体中u的平均值,即u是均值独立的。根据上面的假定对原模型取期望得:E(Y|X)=E[(0+1X+u)|X]E(Y|Xi)=0+1X总体回归函数E(Y|X)是X的一个线性函数,它表示Y中可以由X解释的部分,线性意味着X变化一个单位,Y的期望改变β1个单位。对于任意给定的X值,Y的分布都是以E(Y|X)为中心的。=0+1X+E(u|X)=0+1X总体回归函数(直线)XiYiY1Y2Y3u1u2u3e2e3e1E(Y|Xi)=0+1XiiiXY10ˆˆˆ通常总体回归函数E(Y)=0+1X是观测不到的,利用样本得到的是对它的估计,即对0和1的估计。令{(Xi,Yi):i=1,…,n}表示从总体中抽取的一个样本容量为n的随机样本,对于每个i,可以写出:iiiuXY10其中ui是第i次观测的误差项(估计的)样本回归函数:(估计的)样本回归模型:iiieXY10ˆˆiiXY10ˆˆˆ其中ei是第i次观测的残差对于所研究的经济问题,通常总体回归直线E(Yi|Xi)=0+1Xi是观测不到的。可以通过收集样本来对总体(真实的)回归直线做出估计。样本回归模型:iiXY10ˆˆˆ其中:为Yi的估计值(拟合值);iYˆ10ˆ,ˆ为0,1的估计值;iiieXY10ˆˆei为残差,可视为ui的估计值。三、参数估计——最小二乘法样本回归直线:4060801001201401601802004080120160200240280XY如何得到一条能够较好地反映这些点变化规律的直线呢?对于参数的估计采用最小二乘估计法、最小二乘法的原则是以“残差平方和最小”确定直线位置(即估计参数)。(Q为残差平方和)Q=niie12niiiYY12)ˆ(==niiiXY1210)ˆˆ(则通过Q最小确定这条直线,即确定,以为变量,把它们看作是Q的函数,就变成了一个求极值的问题,可以通过求导数得到。10ˆ,ˆ10ˆ,ˆ0101ˆˆˆˆiiiiiiYXeeYX样本回归模型:则通过Q最小确定这条直线,即确定,以为变量,把它们看作是Q的函数,就变成了一个求极值的问题,可以通过求导数得到。10ˆ,ˆ10ˆ,ˆ求Q对两个待估参数的偏导数:0ˆQ=)1()ˆˆ(2110niiiXY=01ˆQ=)()ˆˆ(2110iniiiXXY=0正规方程组00iiiXee即221)())((ˆiiiiiixyxXXYYXXXY10ˆˆ根据以上两个偏导方程得以下正规方程(Normalequation):iiXnY10ˆˆ210ˆˆiiiiXXXY)为离差。()和(的均值,、分别为和其中YYyXXxYXYXiiii,对于Wage1中的数据,利用EVIEWS软件,可得到一元回归模型估计结果:0ˆ1ˆeducgeaw541.0905.0ˆOLS回归直线的性质YnYnYYniiniiˆˆ11(1)残差和等于零(2)估计的回归直线过点.iiXY10ˆˆˆ),(YX(3)Yi的拟合值的平均数等于其样本观测值的平均数.YYˆniiniiniiiniiniiYeYeYY11111ˆˆ)ˆ(0ie由正规方程可得。)1()ˆˆ(2110niiiXY=(4)Cov(ei,Xi)=0),(iiXeCov)XX)(ee(nii1=01)XeXe(niii=(5)Cov(ei,)=0)ˆ,(iiYeCov)YY()ee(nii1)YeYˆe(niii1iYˆ01110iiienY)Xˆˆ(e(n利用OLS方法得到一个样本回归模型(一条样本回归线)后,问题结束了吗?为什么要用普通最小二乘法?样本回归模型有无穷多个,我们仅仅得到其中一个,它能反映真实的总体回归模型吗?样本回归模型对数据的拟合程度可以接受吗?如何用样本回归模型进行预测?问题结束了吗?假定1:零期望假定:E(ui|Xi)=0。四、古典线性回归模型的基本假定E(Y|Xi)=0+1XiXY0假定2:同方差性假定:Var(ui)=E[ui-E(ui)]2=E(ui2)=2。XY0同方差XY0异方差假定3:无序列相关(无自相关)假定:Cov(ui,uj)=E[(ui-E(ui))(uj-E(uj))]=E(uiuj)=0,(ij)。无自相关正自相关负自相关假定4:解释变量X与随机误差项uCov(ui,Xi)=E[(ui-E(ui))(Xi-E(Xi))]=E(uiXi)=0如果X为确定性变量,该假定自然满足假定5:ui服从正态分布,即uiN(0,2)。五、OLS估计量的性质高斯-马尔可夫定理如果满足古典线性回归模型的基本假定(假定1-假定5),则在所有的线性估计量中,OLS估计量是最优线性无偏估计量(BLUE)。线性性无偏性有效性10ˆ,ˆ都是Yi的线性函数。证明:1ˆ=2()()()iiiXXYYXX=2()()()iiiiXXYYXXXX2()()iiiXXYXX=令22()()iiiiiXXxkXXx2iiixYx代入上式,得:iiYk1ˆ=线性性iiiiiYkXnYkXnYXY/1ˆˆ10证明:)ˆ(1E===)(iiYkE]([10iiiuXkE][10iiiiiukXkkE=)(])([1iiiiukEXXkE=)(1iiuEk=122(-)(-)iiiiiXXxkXXx无偏性=1)ˆ(1E1)~(1E无偏估计量有偏估计量OLS估计量的方差比其他线性无偏估计量的方差都小。最小方差性与有效性1)ˆ(1f)~(1f)(1f一致性(了解)1200),ˆ(1nf150),ˆ(1nf100),ˆ(1nf50),ˆ(1nf概率密度OLS估计量的方差为什么要估计方差?方差反映了数据的离散程度和估计结果的精确性。受教育年限与每小时工资iieducgeaw5141.0905.0ˆ122111][)]ˆ(ˆ[)ˆ(iiukEEEVar差:标准2222221)ˆ(iiiixkukVar,)(,)(0)(22ijiuEjiuuE211ix)ˆ(Var)ˆ(sXYnXYi110ˆ1ˆˆ:对于0ˆ2200)ˆ()ˆ(标准误ixnXVarsei:222222)1(iixnXxXni])[()ˆ(20iiiukXnuEVariiiukXnu0XuXnii110ˆ)(1Xnui)ˆ(110总体(随机误差项)真实方差2的估计量:210)()()(iiiiuVaruXVarYVar222221222iiiiiiiiix)yx(yxˆy)YˆY(e22ˆˆ222nenuii2的估计2、方差(1)的期望1ˆ11)ˆ(E(2)的期望0ˆ00)ˆ(E1、期望(2)的方差0ˆ221)ˆ(ixVar(1)的方差1ˆ2220)ˆ(iixnXVar1ˆ0ˆ服从N()N()服从221,ix2220,iixnXYi=0+1Xi+ui,所以Yi~N(0+1Xi,2)线性性概率分布是进行假设检验的前提六、假设检验与置信区间OLS估计量的概率分布显著性检验

1 / 63
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功