线性回归模型

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

一元线性回归模型2.1模型的建立及其假定条件2.2一元线性回归模型的参数估计2.3最小二乘估计量的统计性质2.4用样本可决系数检验回归方程的拟合优度2.5回归系数估计值的显著性检验与置信区间2.6一元线性回归方程的预测2.7小结2.8案例分析2020/2/2312.1模型的建立及其假定条件1变量之间的关系2回归分析的概念3一元线性回归模型4随机误差项的假定2020/2/2322.1模型的建立及其假定条件1变量之间的关系经济变量之间的关系,大体可分为两类:确定性关系或函数关系:变量之间存在确定的函数关系例如:某企业的销售收入Y与其产品价格P和销售量X的关系为:Y=PX2020/2/2332.1模型的建立及其假定条件统计依赖或相关关系:变量之间存在非确定的依赖关系.研究的是非确定现象随机变量间的关系。例如:某企业资金投入X与产出Y的关系。Y=f(X)+u对变量间统计依赖关系的考察主要是通过相关分析(correlationanalysis)或回归分析(regressionanalysis)来完成的2020/2/2342.1模型的建立及其假定条件2回归分析的概念回归分析研究一个变量关于另一个(些)变量的具体依赖关系的计算方法和理论。其用意:在于通过后者的已知或设定值,去估计(或)预测前者的(总体)均值。2020/2/2352.1模型的建立及其假定条件回归分析的基本思想和方法以及“回归”名称的由来英国统计学家高尔顿(F.Galton,1822-1911)和他的学生皮尔逊(K.Pearson,1856-1936)在研究父母身高与其子女身高的遗传问题时,观察了1078对夫妇,以每对夫妇的平均身高作为自变量,而取他们的一个成年儿子的身高作为因变量,将结果在平面直角坐标系上绘成散点图,发现趋势近乎一条直线,计算出的回归直线方程为:y=33.73+0.516x这一方程表明:父母平均身高每增减一个单位时,其年子女的身高仅平增减0.516个单位2020/2/236这项研究结果表明,虽然高个子父辈有生高个子儿子的趋势,矮个子的父辈有生矮个子儿子的趋势,但父辈身高增减一个单位,儿子身高仅增减半个单位左右。通俗地说,一群特高个子父辈的儿子们在同龄人中平均仅为高个子,一群高个子父辈的儿子们在同龄人中平均仅为略高个子;一群特矮个子父辈的儿子们在同龄人中平均仅为矮个子,一群矮个子父辈的儿子们在同龄人中平均仅为略矮个子,即子代的平均身高向中间回归了。所以高尔顿引用了“回归”(regression)一词来描述父辈身高与子代身高之间的关系。尽管“回归”这个名称的由来具有特定的含义,但是,人们在研究大量的经济变量间的统计关系时已远远超出了这一特定的含义了,我们现在使用回归这一名称仅仅是接受了高尔顿先生的回归分析基本思想和方法2020/2/2372.1模型的建立及其假定条件3一元线性回归模型一元线性回归模型表示如下:yi=β0+β1xi+uiyi称为被解释变量(因变量)xi称为解释变量(自变量)β0、β1——回归系数(待定系数或待定参数)0称作常数项(截距项),1称作斜率系数。ui是计量经济模型区别于数学模型的最关键的标志,称之为随机扰动项或误差项。正是u的随机性使得我们可以采用统计推断方法对模型的设定进行严格的检验。2020/2/2382.1模型的建立及其假定条件线性回归模型”中的“线性”一词在这里的含义:是指被解释变量y与解释变量x之间为线性关系,即解释变量x仅以一次方的形式出现在模型之中。2020/2/2392.1模型的建立及其假定条件一般来说,回归模型的随机误差项中可能包括如下几项内容。(1)未在模型中列出的影响y变化的非重要解释变量。如消费模型中家庭人口数、消费习惯、物价水平差异等因素的影响都包括在随机误差项中。(2)人的随机行为。经济活动都是人参与的。人的经济行为的变化也会对随机误差项产生影响。2020/2/23102.1模型的建立及其假定条件(3)数学模型形式欠妥。对于同一组观测值,若拟合的数学模型形式不同,则相应的随机误差项的值也不同。当模型形式欠妥时,会直接对随机误差项的值带来影响。(4)归并误差。模型中被解释变量的值常常是归并而成的。当归并不合理时,会产生误差。如由不同种类粮食合并构成的粮食产量的不合理归并会带来归并误差。(5)测量误差。当对被解释变量的测量存在误差时,这种误差将包括在随机误差项中2.1模型的建立及其假定条件4随机误差项的假定条件(1)零均值假定E(ui)=0i=1,2,……这表示对X的每个观测值来说,u可以取不同的值,有些大于零,有些小于零,考虑u的所有可能取值,他们的总体平均值等于零.2020/2/23122.1模型的建立及其假定条件(2)同方差性假定Var(ui)=u2i=1,2,……这表明在各次观测中u具有相同的方差,也就是各次观测所受的随机影响的程度相同.协方差的定义E[(X-E(X))(Y-E(Y))]称为随机变量X和Y的协方差,记作COV(X,Y),即COV(X,Y)=E[(X-E(X))(Y-E(Y))].计算公式为:Cov(X,Y)=E(XY)-E(X)E(Y)协方差可以度量两个变量之间的相关关系,如果两个变量的协方差为零,则表明这两个变量之间不存在相关关系.2.1模型的建立及其假定条件(3)无序列相关假定Cov(ui,uj)=0i≠ji,j=1,2,…这表明,在任意两次观测时,ui,uj是不相关的,即u在某次观测中取的值与任何其它次观测中取的值互不影响.2.1模型的建立及其假定条件(4)解释变量与误差项不相关假定Cov(Xi,ui)=0i=1,2,……这一假定表明随机项u与自变量x不相关.提出这一假定是因为在建立回归模型时,我们用随机项u综合了未包含在模型中的那些自变量以及其它因素对因变量Y的影响.因此,应该把X对Y的影响和u对Y的影响区分开来.如果两者相关,就不可能把各自对Y的影响区分开来2.1模型的建立及其假定条件(5)正态分布假定ui~N(0,u2)i=1,2,…2020/2/23172.2一元线性回归模型的参数估计1几个重要的概念对于一元线性回归模型,随机误差项满足古典假设条件,这个线性回归模型称为X,Y之间的总体回归模型。两边取条件均值,得一元线性回归方程:2020/2/231801iiiyxu01()iiEyx简称总体回归方程(总体回归线)。其中总体回归系数和是未知的,实际上总体回归线是无法求得的,它只是理论上的存在,所以称为理论回归方程012.2一元线性回归模型的参数估计如果变量x和y之间存在线性相关关系,对于任意抽取的若干个观测(样本)值(xi,yi),有(2.2.1)我们称(2.2.1)为样本回归模型,、为、的估计值或估计量。样本回归模型由两部分组成:称为系统分量,是可以被x解释的部分,也称为可解释分量;是不能被解释的部分,称为残差(Residual),它是随机项ui的代表值,也称为不可解释分量。将系统分量表示为(2.2.2)2020/2/231901ˆˆiiiyxe01ˆˆix0ˆ1ˆ01ie01ˆˆˆiiyx2.2一元线性回归模型的参数估计式(2.2.2)称为一元线性样本回归方程,简称样本回归方程。又因(2.2.2)式的建立依赖于样本观测值(xi,yi),所以我们又称其为经验回归方程。、为样本回归系数。其中是估计的回归直线在y轴截距,是直线的斜率。。的实际意义为x每变动一个单位时,y的平均变动值,即x的变动对y变动的边际贡献率;是实际观测值y的拟合值或估计值我们用一个图来表示yi,,E(yi,)、、ui、ei2020/2/23200ˆ1ˆ0ˆ1ˆ1ˆ?iy2.2一元线性回归模型的参数估计2020/2/2321YiYieiYˆXiX01ˆˆˆiiyx01()iiEyx()iEyiu2.2一元线性回归模型的参数估计2普通最小二乘法给定一组样本观测值(Xi,Yi)(i=1,2,…n)要求样本回归函数尽可能好地拟合这组值.普通最小二乘法(Ordinaryleastsquares,OLS)给出的判断标准是:二者之差的平方和最小即在给定样本观测值之下,选择出、能使yi,之差的平方和最小(即为使残差平方和最小)2020/2/2322niiiniXYYYQ121021))ˆˆ(()ˆ(0ˆ1ˆ?iy2.2一元线性回归模型的参数估计2020/2/2323方程组(*)称为正规方程组(normalequations)。2.2一元线性回归模型的参数估计记2020/2/232422221)(iiiiXnXXXxiiiiiiiiYXnYXYYXXyx1))((上述参数估计量可以写成:XYxyxiii1021ˆˆˆ上式称为OLS估计量的离差形式。由于参数的估计结果是通过最小二乘法得到的,故称为普通最小二乘估计量(ordinaryleastsquaresestimators)。2.2一元线性回归模型的参数估计2020/2/23253最小二乘直线的性质(1)残差ei的均值等于0因为,所以(2)残差ei与解释变量xi不相关即(3)样本回归直线经过点()(4)被解释变量的样本平均值等于其估计值的平均值10niie10niieen10niiiex,xy2.2一元线性回归模型的参数估计4截距为零的一元线性回归模型的参数估计截距为零的一元线性回归模型的一般形式为:这个模型只有一个参数需要估计,其最小二乘估计量的表达式为2020/2/2326iiiyxu2ˆiiixyx2.2一元线性回归模型的参数估计例2.2.1题:一个假想的生活小区有100户家庭组成,要研究该小区每月家庭消费支出Y与每月家庭可支配收入X的关系。首先得到这100户家庭的每月家庭消费支出和每月家庭可支配收入的数据,并把100户家庭划分为组内收入差不多的10组,以分析每一收入组的家庭消费支出,分组如下:2020/2/23272020/2/2328表2.1.1某社区家庭每月收入与消费支出统计表每月家庭可支配收入X(元)800110014001700200023002600290032003500561638869102312541408165019692090229959474891311001309145217381991213423216278149241144136415511749204621782530638847979115513971595180420682266262993510121210140816501848210123542860968104512431474167218812189248628711078125414961683192522332552112212981496171619692244258511551331156217492013229926401188136415731771203523101210140816061804210114301650187021121485171619472200每月家庭消费支出Y(元)2002共计242049501149516445193052387025025214502128515510建立变量X与Y之间的样本回归模型:利用分组数据估计模型参数,参数估计的计算可通过下面的表进行2020/2/232901ˆˆiiiyxeiXiYixiyiiyx2ix2iy2iX2iY1800594-1350-9731314090182250094750864000035283621100638-1050-92997587011025008637841210000407044314001122-750-44533405056250019838119600001258884417001155-450-41218558020250017007428900001334025520001408

1 / 87
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功