计量经济学南开大学经济学院张伯伟引言一、计量经济学1、计量经济学(Econometrics)利用数学和统计推断为工具,在经济理论指导下对经济现象进行分析,并对经济理论进行检验和发展的一门学科。其内容涉及经济理论、数理经济、经济统计和数理统计等。2、计量经济学与经济理论经济理论:定性计量经济学:数值估计,检验3、计量经济学与数理经济学数理经济学:以数学形式表述经济理论,不涉及理论的可度量性和经验方面的可论证性。计量经济学:利用数理经济学的数学方程式,并把之改造成适合于经验检验的形式。4、计量经济学与经济统计学经济统计:经济数据的收集、加工,不利用数据来检验经济理论。计量经济学:以经济统计数据为原始资料进行分析。5、计量经济学与数理统计数理统计:是计量经济学的基本工具,但由于经济数据的特殊性,力量经济学需要特殊的处理方法。二、计量经济学的方法基本过程:①经济理论②理论的数学模型③理论的计量经济学模型④数据的收集整理⑤计量经济模型的参数估计⑥假设检验⑦预报和预测⑧控制或政策制定例:检验凯恩斯关于边际消费倾向理论,或利用该理论进行经济控制或经济政策制定。①理论人们的消费支出随收入的增加而增加,但消费支出的增加小于收入的增加。即边际消费倾向MPC大于零而小于1。(定性)②建立数学模型假定消费支出Y与收入X之间有如下关系:10,XbXaY其中,Y为消费支出,X为收入,a和b为模型参数。B就是MPC。这里Y为因变量,X为自变量/解释变量。假定两者之间存在先行关系。(在不同情况下,数学模型的形式不一样,也可能是多个方程连立,有多个解释变量)③建立计量经济学模型由于经济变量之间的关系不是确定的(以函数形式准确表达),必须修改数理模型,建立计量模型:u为误差项,代表了影响变量间非确定关系的其他因素的影响。这是一个线性回归模型。ubXaYOXY斜率为b数理模型OXY斜率为b计量模型aa④数据的收集整理如果1980分析一国的消费情况,要收集该国的总消费支出数据和总收入数据。年份YX年份YX198024473776198629694405198124773843198730524540198225043760198831624719198326193907198932234838198427464149199032604878198528664280199132404821(选择、加工)美国1980-1991年个人消费支出与GDP(10亿美元,1987年不变价格)⑤计量经济模型的参数估计采用回归技术,利用统计数据估计出参数a和b的经验值。根据估计结果,美国1980-1991年的MPC约为0.72。⑥假设检验以一定的标准,对参数的估计结果进行检验。如果在统计意义上,b小于1,说明结果是可接受的。XY7194.08.231⑦预报和预测如果计量模型可以接受,就可用来对因变量进行预测。假定1994年,美国的GDP预计为6万亿美元,则该年的消费支出预计为408560007194.08.231Y⑧控制或政策制定如果希望1994年的消费支出达到4万亿美元,则政府必须通过政策来保证收入水平为:58827194.08.2314000X三、计量经济学的内容可分为理论和应用两大类。理论计量经济学:研究适当的方法,来测度有计量经济模型设定的经济关系式。应用计量经济学:以理论计量经济学为工具,研究经济学或商业中的各领域。四、计量经济学的应用软件包有很多种。常用的有:TSP、SPSS、SAS等。第一章回归分析一、回归分析分析因变量与解释变量之间的统计依赖关系,目的在于通过后者的已知或设定值去估计或预测前者的均值。假定一个国家的所有家庭的收入(X)和消费支出(Y)统计如下,希望知道家庭消费支出与家庭收入之间的关系:Y=F(X)。XY80100120140160180200220240260556579801021101201351371506070849310711513613714515265749095110120140140155175708094103116130144152165178758598108118135145157175180-88-113125140-160189185---115---162-191户数5657665765总支出32546244570767875068510439661211YX5510012014016080根据每个家庭的收入和支出绘出散点图,大致可看出二者间的关系:在统计意义上,二者成正比。由对全体居民的收入和支出的调查结果,我们知道处于不同收入阶层的居民有一个平均的支出水平,这一支出水平与收入大致呈线性关系。图中的这条通过各收入阶层平均支出额的直线,描述了这一依赖关系。我们把这条线称为回归线。二、统计关系与确定关系在回归分析中,得到因变量与自变量之间的依赖关系是统计依赖关系,而不是确定关系或函数关系。三、回归与因果关系回归分析得到的变量间的统计依赖关系,统计关系式自身不代表任何确定的因果关系。四、计量经济分析使用的数据有三类。(1)时间序列数据。一个时间序列是对一个变量在不同时间取的一组观测结果。这些数据可以按固定的时间间隔收集。收集的数据可以是定量的,也可以是定性的(虚拟变量)。中国1993年—1998年的GDP增长率(%)19931994199519961997199814.213.510.59.68.87.8(2)横截面数据。一个或多个变量在同一时点上收集的数据。1992年实际GDP增长(3)混合数据。国家和地区实际GDP增长率1992年1993年1994年1995年1996年1997年1998年加拿大0.92.53.92.21.24.03.1智利12.37.05.710.67.47.13.4墨西哥3.62.04.4-6.25.27.04.8秘鲁-1.76.413.17.42.56.90.3美国2.72.33.52.02.83.93.9中国14.213.512.610.59.68.87.8香港6.36.15.43.94.65.3-5.1日本1.00.30.61.53.91.4-2.8国家/地区加拿大智利墨西哥秘鲁美国中国香港日本GDP0.912.33.6-1.72.714.26.31第二章双变量回归分析第一节经典正态线性回归模型(CNLRM)一、基本概念以下表为例。XY80100120140160180200220240260556579801021101201351371506070849310711513613714515265749095110120140140155175708094103116130144152165178758598108118135145157175180-88-113125140-160189185---115---162-191户数5657665765总支出325462445707678750685104396612111、几个概念条件分布(Conditionaldistribution):以X取定值为条件的Y的条件分布条件概率(Conditionalprobability):给定X的Y的概率,记为P(Y|X)。例如,P(Y=55|X=80)=1/5;P(Y=150|X=260)=1/7。(表)条件期望(conditionalExpectation):给定X的Y的期望值,记为E(Y|X)。例如,E(Y|X=80)=55×1/5+60×1/5+65×1/5+70×1/5+75×1/5=65总体回归曲线(PopularRegressionCurve)(总体回归曲线的几何意义):当解释变量给定值时因变量的条件期望值的轨迹。2、总体回归函数(PopularRegressionFunction,PRFE(Y|Xi)=f(Xi)当PRF的函数形式为线性函数,则有,E(Y|Xi)=1+2Xi其中1和2为未知而固定的参数,称为回归系数。1和2也分别称为截距和斜率系数。上述方程也称为线性总体回归函数。3、“线性”的含义“线性”可作两种解释:对变量为线性,对参数为线性。一般“线性回归”一词总是指对参数为线性的一种回归(即参数只以它的1次方出现)。4、PRF的随机设定将个别的Yi围绕其期望值的离差(Deviation)表述如下:ui=Yi-E(Y|Xi)或Yi=E(Y|Xi)+ui其中ui为随机误差项(Stochasticerror)或随机干扰项(Stochasticdisturbance)。线性总体回归函数:PRF:Yi=1+2Xi+ui=E(Y|Xi)+ui5、随机干扰项的意义随机扰动项是从模型中省略下来的而又集体地影响着Y的全部变量的替代物。显然的问题是:为什么不把这些变量明显地引进到模型中来,而以随即扰动项来替代?理由是多方面的:(1)理论的含糊性:理论不能完全说明影响因变量的所有影响因素。(2)数据的欠缺:无法获得有关数据。(3)核心变量与周边变量:希望能找到与有较大影响的核心变量的关系。(4)内在随机性:因变量具有内在的随机性。(5)替代变量:用来代替不可观测变量的替代变量选择,造成一定误差。(6)省略原则:研究中尽可能使回归式简单。(7)错误的函数形式:回归式的的选择是主观的。6、样本回归函数(SRF)由于在大多数情况下,我们只知道变量值得一个样本,要用样本信息的基础上估计PRF。(表)X(收入)80100120140160180200220240260Y(支出)55657980102110120135137150样本1X(收入)80100120140160180200220240260Y(支出)708094103116130144152165178样本2iiiuXY21ˆˆˆ样本回归函数SRF:的估计量为的估计量为的估计量为其中12211,ˆ,Xi)|E(YYˆ,在回归分析中,我们用SRF估计PRF。估计量(Estimator):一个估计量又称统计量(statistic),是指一个规则、公式或方法,以用来根据已知的样本所提供的信息去估计总体参数。在应用中,由估计量算出的数值称为估计(值)(estimate)。样本回归函数SRF的随机形式为:iiiiuYuXˆˆˆˆˆY21i其中表示(样本)残差项(residual)。iuˆXiXPRF:E(Y|Xi)=1+2XiSRF:YE(Y|Xi)iiXY21ˆˆˆiuˆiuiYiYˆSRF是PRF的近似估计。为了使二者更为接近,即要使2211,ˆ尽可能接近尽可能接近二、经典线性回归模型(CLRM)的基本假定假定1:回归模型对参数是线性的假定2:在重复抽样中X的值是固定的(非随机)假定3:干扰项的均值为零。即,E(ui|Xi)=0假定4:同方差性或ui的方差相等。即Var(ui|Xi)=E[ui-E(ui)|Xi]2=E(ui2|Xi]2=2假定5:各个干扰项无自相关。即Cov(ui,uj|Xi,Xj)=E[ui-E(ui|Xi)][uj-E(uj|Xj)]=E(ui|Xi)(uj|Xj)=0假定6:ui和Xi的协方差为零。即Cov(ui,Xi)=E[ui–E(ui)][Xi–E(Xi)]=E[ui(Xi–E(Xi))]=E(uiXi)–E(ui)E(Xi)=E(uiXi)=0假定7:观测次数必须大于待估计的参数个数。假定8:解释变量X的只要有变异性。即一个样本中,Xi不能完全相同。假定9:模型没有设定误差。假定10:没有完全的多重共线性,即解释变量之间没有完全的线性关系。第二节双变量回归模型:估计一、普通最小二乘法(OrdinaryLeastSquares,OLS)基本思路:用样本回归函数估计总体回归函数。以iiiuXYSRF21ˆˆˆ:iiiuXYPRF21:估计iiiiiuYuXYˆˆˆˆˆ21)ˆˆ(ˆˆ21iiiiiXYYYu残差估计出的参数21ˆˆ和使残差的平方和最小。22