一元线性回归模型

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第二章一元线性回归模型基本要求:1、了解相关与回归的概念2、理解线性回归模型的假定3、掌握普通最小二乘法4、理解最小二乘估计量的性质5、会进行回归模型的检验第一节一元线性回归模型概述一、相关与回归的基本概念(一)变量之间的关系各种经济变量之间的关系,一般可以分成两类,即完全确定的关系和非确定性的依存关系。1.确定性关系或函数关系如果一个变量值能被一个或若干个其他变量值按某一规律唯一的确定,则这类变量之间就具有完全确定的关系。例如,当每吨水的价格为P元时,居民应缴纳的水费Y(元)与用水量X(吨)之间的关系可表示为Y=PX。2.非确定性关系如果变量之间既存在密切的数量关系,又不能由一个(或几个)变量之值精确的求出另一个变量之值,但在大量统计资料的基础上,可以判别这类变量之间的数量变化具有一定的规律性,也称为统计相关关系。例如消费支出Y与可支配收入X之间有一定的关系,在一定范围内,收入增加,在理论上可以估计出增加的消费支出额。但应看到,可支配收入虽然是影响消费支出的重要因素,却不是唯一的因素。因此,根据可支配收入并不能精确的求出消费支出,也就不能用精确的函数关系表达式来表示这两个变量之间的关系。计量经济学就是研究变量间的非确定关系的,变量间的统计相关关系可以通过相关分析和回归分析来研究。(二)相关分析1、涵义相关分析是通过对经济现象的依存关系的分析,找出现象间的相互依存的形式和相关程度,以及依存关系的变动规律。2、类型——从变量间的依存形式看,可分为线性相关和非线性相关。线性相关反映变量间的依存关系可以近似的表示为一条直线;变量间的依存关系近似的表示为一条曲线则称为非线性相关。3、指标从变量间的相关程度看,可以通过相关系数来度量。两个变量之间的相关程度可以用简单相关系数来衡量;多个变量之间的相关程度可以用复相关系数、偏相关系数等来衡量。(三)回归分析1.回归的定义回归分析是研究某一被解释变量(因变量)与另一个或多个解释变量(自变量)间的依存关系,其目的在于根据已知的解释变量值或固定的解释变量值(重复抽样)来估计和预测被解释变量的总体平均值。在研究某一社会经济现象的发展变化规律时,所研究的现象或对象称为被解释变量,它是分析的对象,把引起这一现象变化的因素称为解释变量,它是引起这一现象变化的原因。被解释变量则反映了解释变量变化的结果。2.回归模型的分类(1)按模型中自变量的多少,分为一元回归模型和多元回归模型。一元回归模型是指只包含一个解释变量的回归模型多元回归模型是指包含两个或两个以上解释变量的回归模型。(2)按模型中参数与被解释变量之间是否线性,分为线性回归模型和非线性回归模型。对于“线性”的解释:一种是就变量而言是线性的,即线性回归模型是指解释变量与被解释变量之间呈线性关系;另一种是就参数而言是线性的,即线性回归模型是指参数与被解释变量之间呈线性关系;非线性回归模型是指参数与被解释变量之间呈非线性关系。就回归模型而言,通常“线性”是就参数而言的。(3)按模型中方程数目的多少,分为单一方程模型和联立方程模型。单一方程模型是指只包含一个方程的回归模型;联立方程模型是指包含两个或两个以上方程的回归模型。3.相关与回归的关系相关分析是回归分析的基础和前提,回归分析则是相关分析的深入和继续。相关分析需要依靠回归分析来表现变量之间数量相关的具体形式,而回归分析则需要依靠相关分析来表现变量之间数量变化的相关程度。相关分析只研究变量之间相关的方向和程度,不能推断变量之间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。注意避免“虚假回归”:只有当变量之间存在高度相关时,进行回归分析寻求其相关的具体形式才有意义。如果在没有对变量之间是否相关以及相关方向和程度做出正确判断之前,就进行回归分析,很容易造成“虚假回归”。二者的区别:(1)在相关分析中涉及的变量不存在自变量和因变量的划分问题,变量之间的关系是对等的;而在回归分析中,则必须根据研究对象的性质和研究分析的目的,对变量进行自变量和因变量的划分。因此,在回归分析中,变量之间的关系是不对等的。(2)在相关分析中所有的变量都必须是随机变量;而在回归分析中,自变量是给定的,因变量才是随机的,即将自变量的给定值代入回归方程后,所得到的因变量的估计值不是惟一确定的,而会表现出一定的随机波动性。(3)相关分析主要是通过一个指标即相关系数来反映变量之间相关程度的大小,由于变量之间是对等的,因此相关系数是惟一确定的。而在回归分析中,对于互为因果的两个变量,则有可能存在多个回归方程。二、一元线性回归模型(一)总体回归函数1、总体回归函数假若我们要研究的问题是某市N户城镇居民家庭的可支配收入X和消费支出Y之间的关系,则全体N户居民家庭构成了研究的总体。表2-1给出了全部居民家庭可支配收入和消费支出统计资料。表2-1居民家庭可支配收入和消费支出统计表可支配收入消费支出户数平均消费支出(X)(Y)1211112111122122222(|)(|jNjNXYYYYNEYXXYYYYNEYX212)(iiiiijiNiXYYYYNEY12|)(|kikkkkjkNkXXYYYYNEYX)k从表2-1可以看出:对于某一收入水平iX(ki,,2,1),有iN(kNNNN21)户居民家庭消费支出与其对应,反映出在某一收入水平下有关消费支出的条件分布。根据该条件分布,可以计算出在某一收入水平下平均消费支出)/(iXYE,即条件均值。从表2-1还可以看出:对于每一收入水平iX,仅有唯一的一个条件均值)/(iXYE与其对应,这种一一对应的关系构成了函数关系,该函数称为总体回归函数(PopulationRegressionFunction,PRF)。记为:)()/(iiXfXYE(2-1)总体回归函数反映了给定Xi的Y分布的总体均值随X的变化而变化的关系。2、回归系数:0和1总体回归函数f(Xi)若采用线性函数的形式,有:iiXXYE10)/((2-2)其中0和1是未知而固定的参数,称为回归系数(RegressionCoefficients),0称为截距系数(InterceptCoefficients),1称为斜率系数(SlopeCoefficients)。该函数称为线性总体回归函数。(二)总体回归函数的随机设定)/(iXYE描述了在某一收入水平下平均消费支出水平,但是对于某一户居民的家庭消费支出iY不一定恰好与该水平一致,或多或少地存在一些偏差。该偏差用i表示,并定义:)/(iiiXYEY(2-3)则有:iiiiiXXYEY10)/((2-4)式(2-4)中i反映了除收入之外众多影响消费支出的因素的综合影响,是一个不能观测的随机变量,称为随机误差项(StochasticError)。式(2-4)为总体回归函数的随机设定形式。(三)样本回归函数根据总体资料可以建立总体回归函数,揭示被解释变量随解释变量的变化而变化的规律。但在大多数实际情况中,总体的信息往往无法全部获得,我们所掌握的不过是与某些固定的X值相对应的Y值的样本。需要根据已知的样本信息去估计总体回归函数。假定现在不知道建立总体回归函数的总体资料,仅仅掌握来自总体的一组样本数据,例如,根据调查得到某市职工个人月可支配收入与月消费支出数据资料(见表2-2)表2-2某市职工个人月可支配收入与月消费支出调查资料单位:元/月序号12345678910可支配收入(X)800100012001400160018002000220024002600消费支出(Y)700650900950110011501200140015501500根据以上样本数据拟合一个线性方程:iiXY10ˆˆˆ(2-5)该方程式称为样本回归函数(SampleRegressionFunction,SRF)。比较式(2-2)与(2-5),假若0ˆ充分地“接近”000,并且1ˆ也充分地“接近”1,就可以用样本回归函数iYˆ去估计总体回归函数E(Y|Xi)。所以iYˆ亦称为E(Y|Xi)的估计量;0ˆ称为0的估计量;1ˆ称为1的估计量。式(2-5)中iYˆ与实际的值存在一定的偏差,该偏差ie用表示。定义:iiiYYeˆ则有:iiiiieXeYY10ˆˆˆ(2-6)ie称为样本剩余项,也称为残差。YYiE(Y|Xi)=0+1XiE(Y|Xi)0XiX图2-1总体回归函数与样本回归函数的关系第二节一元线性回归模型参数估计一、古典线性回归模型的假定以一元线性回归模型Yi=0+1Xi+i为例,古典线性回归模型的假定如下:假定1:在给定Xi的条件下,i的条件均值为零。即,E(i|Xi)=0。假定2:在给定任意Xi、Xj的条件下,i、j不相关。即,Cov(i,j)=0。假定3:对于每一个Xi,i的条件方差是一个等于2的常数。即,Var(i|Xi)=σ2。假定4:在给定Xi的条件下,Xi和i不相关。即,Cov(i,Xi)=0。满足以上四个假定的线性回归模型称为古典线性回归模型。所谓“古典”是作为一种标准或规范来使用的,凡是不满足以上假定的回归模型,就不是“古典”回归模型。在前述假定下,用最小二乘法得到的回归参数的估计值,按照高斯—马尔可夫定理(Gauss-MarkovTheorem)的意义来说,是“最优的”。假定5:对于每一个i都服从于均值为零、方差为2正态分布。即,iN(0,2)满足以上五个假定的线性回归模型称为古典正态线性回归模型。二、普通最小二乘法(一)最小二乘原理利用样本回归函数估计总体回归函数,是根据一个给定的包含n组X和Y观测数据的样本,建立样本回归函数,使估计值iYˆ尽可能接近观测值Yi。最小二乘原理就是根据使样本剩余的平方和达到最小的准则,确定模型中的参数,建立样本回归函数。01iˆˆˆˆiiieYXY(二)最小二乘估计量1、计算、推导由iiiiiXYYYe10ˆˆˆ,得2102)ˆˆ(iiiXYe(2-7)对于给定的样本,2ie的大小取决于0ˆ和1ˆ的大小,即2ie是0ˆ和1ˆ的函数。按照最小二乘原理,要求所选定的0ˆ和1ˆ应使2ie最小,要做到这一点,可以借助微积分中求极值的方法,用2ie分别对0ˆ和1ˆ求偏导数,并令其为零,满足该条件的0ˆ和1ˆ可以使2ie最小。即:22010,0ˆˆiiee可得到:(2-8)整理后有:(2-9)求解得:221)(ˆiiiiiiXXnYXYXn(2-10)ˆˆ10nXnYii(2-11)令nYYnXXii,21)())((ˆXXYYXXiii(2-12)XY10ˆˆ(2-13)令YYyXXxiiii,(离差)01201ˆˆˆˆiiiiiiYnXXYXX0101ˆˆ()0ˆˆ()0iiiiiYXYXX则21ˆiiixyx(2-14)以上0ˆ和1ˆ是根据最小二乘原理求得的,故称为普通最小二乘估计量。2、实例利用表2-2的样本资料建立最小二乘回归模型的过程如下:表2-3计算表序号XiYixiyixi2yi2xiyiXi21800700-900-41081000016810036900064000021000650-700-460490000211600322000100000031200900-500-21025000044100105000144000041400950-300-1609000025600480001960000516001100-100-101000010010002560000618001150100401000016004000324000072000120030090900008100270004000000822001400500290250000

1 / 22
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功