第二章简单线性回归模型(上部分)用计量经济学研究问题的步骤建立模型数据收集参数估计模型检验应用模型本章主要内容:第一节回归分析与回归函数第二节简单线性回归模型参数的估计小结第一节回归分析与回归函数本节主要介绍:一经济变量之间的关系二回归分析三总体回归函数四随机扰动项五样本回归函数六习题up一、经济变量之间的关系确定的函数关系:y=f(x)不确定性的统计关系——相关关系相关关系——x影响Y的值,xY函数关系——决定的值不能确定。2.相关关系◆相关关系的描述相关关系最直观的描述方式——坐标图(散布图)YX3.相关程度的度量—相关系数总体线性相关系数:其中:——X的方差;——Y的方差——X和Y的协方差样本线性相关系数:其中:和分别是变量和的样本观测值和分别是变量和样本值的平均值Cov(,)Var()Var()XYXYVar()XVar()YCov(,)XYYiXiYXXYXY________22()()()()iiXYiiXXYYXXYY●和都是相互对称的随机变量●线性相关系数只反映变量间的线性相关程度,不能说明非线性相关关系●样本相关系数是总体相关系数的样本估计值,由于抽样波动,样本相关系数是个随机变量,其统计显著性有待检验●相关系数只能反映线性相关程度,不能确定因果关系,不能说明相关关系具体接近哪条直线计量经济学关心:变量间的因果关系及隐藏在随机性后面的统计规律性,这有赖于回归分析方法使用相关系数时应注意XYup“回归”一词的历史渊源“回归”一词最早由FrancisGalton引入。Galton发现,虽然父母的身高对子女的身高起到决定性作用,但给定父母的身高后,他们儿女辈的平均身高却趋向于或者“回归”到社会平均水平。回归的古典意义:高尔顿遗传学的回归概念回归的现代意义:一个应变量对若干解释变量依存关系的研究二、回归分析P22:是关于一个变量(被解释变量)对另一个或多个变量(解释变量)依存关系的研究,用适当的数学模型去近似表达或估计变量之间的平均变化关系,其目的是要根据已知的或固定的解释变量的数值,去估计所研究的被解释变量的总体平均值。只有一个自变量的回归分析称为一元回归分析;多于一个自变量的回归分析称为多元回归分析。E()iYX例:100个家庭构成的总体(单位:元)每月家庭可支配收入X2000250030003500400045005000550060006500131215301631184320372277246929243515352113401619172619742210238828893338372139541400171317862006232525263090365038654108每1548175018352265241926813156380240264345月1688181418852367252228873300408741654812家173819851943248526653050332142984380庭180020412037251527993189365443124580消19022186207826892887335338424413费220021792713291335244074支231222982898303837104165出2316292331673834Y238730533310249826893187328635101591191520922586275430393396385340364158回归函数:应变量的条件期望随解释变量的的变化而有规律的变化,如果把的条件期望表现为的某种函数这个函数称为回归函数。回归函数分为:总体回归函数和样本回归函数举例:假如已知100个家庭构成的总体。回归线与回归函数YXXE()()iiYXfXYE()iYXE()iYX回归分析与相关分析的联系和区别联系:两者相互补充。区别:相关分析:不考虑变量之间的因果关系,不区分解释变量和因变量,两变量对称.所涉及的变量都为随机变量。回归分析:需要区分变量之间的因果关系;则要通过建立回归方程,寻求具体数学形式,去估计(预测)因变量的平均值;因变量是随机变量(有一定的概率分布),自变量是非随机变量。up三、总体回归函数(PRF)因变量Y的条件期望随着解释变量X的变化而有规律地变化。把这种变化关系用函数表示出来,就是总体回归函数:此函数称为总体回归函数(PRF,即PopulationRegressionFunction)回归函数在坐标系中用图形表示出来就是回归线。它表示了因变量和解释变量之间的平均关系。)E(Y/Xi)f(X)E(Y/XiiE()iYX例2.1见课本每月家庭可支配收入X2000250030003500400045005000550060006500131215301631184320372277246929243515352113401619172619742210238828893338372139541400171317862006232525263090365038654108每1548175018352265241926813156380240264345月1688181418852367252228873300408741654812家173819851943248526653050332142984380庭180020412037251527993189365443124580消19022186207826892887335338424413费220021792713291335244074支231222982898303837104165出2316292331673834Y238730533310249826893187328635101591191520922586275430393396385340364158100020003000400050001000200030004000500060007000XYYvs.X从散点图发现:随着收入的增加,消费“平均地说”也在增加,且Y的条件均值均落在一根正斜率的直线上。这条直线称为总体回归线。iuiXXY)(iXYEiY(1)条件均值表现形式假如的条件均值是解释变量的线性函数,可表示为:(2)个别值表现形式对于一定的,的各个别值分布在的周围,若令各个与条件均值的偏差为,显然是随机变量,则有或2.总体回归函数的表现形式iXE()iYX12E()()iiiiYXfXXiYE()iYXiYE()iYXiuiu12E()iiiiiiuYYXYX12iiiYXuYYX“线性”一词的含义(有两种解释)1、模型就变量而言是线性的,例如12()iiEYXX12()iiEYXX2、模型就参数而言是线性的,例如212()iiEYXX121()iEYXX注:在计量经济学中,从回归理论的发展、参数的估计方法来说,主要考虑的是模型就参数而言是线性的情形。up四、随机扰动项对于一定的,Y的各个个别值分布在的周围,其差令为,则:因变量Yi与总体条件均值(期望)E(Y/Xi)的偏差(离差)。对该公式,有也即:iXiY)E(Y/XiiuiiiuXYEY)/(12()iiiuYXiuo总体回归模型图解XiPRFYiAE(Y|Xi)PRFui随机扰动项包括哪些因素●未知影响因素的代表●无法取得数据的已知影响因素的代表●众多细小影响因素的综合代表●模型的设定误差●变量的观测误差●变量内在随机性up五、样本回归函数(SRF)1、概念因变量Y的样本观测值的条件均值表示成解释变量X的某种函数,即为样本回归函数。(其函数形式应该与总体回归函数的函数形式一致。)例如:12iiYX1122(|)iiYEYX:的估计量:截距参数的估计量:斜率参数的估计量2、对样本回归函数的说明每次抽样都能够获得一个样本,就可以拟合一条样本回归线,所以样本回归线随抽样波动而变化,可以有多条。SRF1SRF2XY如课本28页不同的样本就会有不同的样本回归线X2000250030003500400045005000550060006500Y1548181421792485266530503321365040874265X2000250030003500400045005000550060006500Y16881750207923672665318933213802416543453、残差定义:那么有:对上例,有:iiiYYeiiieYY01iiiiiYYeXeie在概念上类似于总体回归函数中的ui,可视为对ui的估计ie样本回归函数与总体回归函数区别1、总体回归线是未知的,只有一条。样本回归线是根据样本数据拟合的,每抽取一组样本,便可以拟合一条样本回归线。2、总体回归函数中的β1和β2是未知的参数,表现为常数。而样本回归函数中的是随机变量,其具体数值随所抽取的样本观测值不同而变动。12ˆˆ和回归分析的思路样本SRF的参数一定方法得出总体函数的参数近似看成是SRF1:PRF2:12iiiYXe12iiiYXu(观察参数的对应估计关系)up练习1、若两变量x和y之间的相关系数为-1,这说明两个变量之间()A.低度相关B.不完全相关C.弱正相关D.完全相关2.价格(X,元)与需求量(Y,吨)之间的回归方程为:i=356-1.5Xi说明()A.价格每上涨一元,需求量增加356吨B.价格每上涨一元,需求量减少1.5吨C.价格每上涨一元,需求量平均减少1.5吨D.价格每上涨一元,需求量平均增加356吨3、对样本的相关系数,以下结论错误的是()A.越接近1,X与Y之间线性相关程度高B越接近0,X与Y与之间线性相关程度高CD,则X与Y相互独立||||1104、在回归分析中下列有关解释变量和被解释变量的说法中正确的是()A.被解释变量和解释变量均为随机变量B.被解释变量和解释变量均为非随机变量C.被解释变量为随机变量,解释变量为非随机变量D.被解释变量为非随机变量,解释变量为随机变量5、下图中“{”所指的距离是()A.随机误差项B.残差YiA12iiYX6、下列哪些形式是正确的()。A.D.B.E.C.F.G.H、XY10XY10XY10ˆˆXY10ˆˆˆXY10ˆˆˆeXY10ˆˆXY10ˆˆ01()iiEYXX判断正误并说明理由:(1)随机误差项ui和残差项ei是一回事(2)总体回归函数给出了对应于每一个解释变量的被解释变量的值。(3)在线性回归模型中,解释变量是原因,被解释变量是结果(4)线性回归是指解释变量和被解释变量之间呈现线性关系。up第二节最小二乘估计(OLS)本节主要介绍:一、简单线性回归模型的基本假定二、普通最小二乘法(OLS)三、OLS回归线的性质四、参数估计式的统计性质五、习题up一、简单线性回归的基本假定1为什么要做基本假定●模型中有随机扰动,估计的参数是随机变量,只有对随机扰动的分布作出假定,才能确定所估计参数的分布性质●只有具备一定的假定条件,所作出的估计才具有较好的统计性质,也才可能进行假设检验和区间估计2、假定的两个方面:(1)关于变量和模型的基本假定是非随机的,无测量误差;变量和函数形式设定正确。iXiX假定的两个方面:(2)关于随机扰动项也称高斯假定、古典假定假定1零均值:(|)iEYXiu(/)0iiEuX当解释变量取值时,因变量Y的值可能大于或小于,但平均来看,随即扰动项对Y没有影响.iX假定2同方差:2)/(iiXuVar是说无论解释变量X在其可行范围内取何值,随机扰动项的方差都是相同的。我们把这个假设称为随机扰动项的同方差性假设。如果违背