©陈强,《高级计量经济学及Stata应用》,第二版,2013年,高等教育出版社,即将出版。1第1章绪论1.1什么是计量经济学z“计量经济学”(Econometrics)就是运用概率统计的方法对经济变量之间的(因果)关系进行定量分析的科学。z计量经济学常常不足以确定经济变量之间的因果关系(由于实验数据的缺乏);但大多数实证分析的目的恰恰正是要确定变量之间的因果关系(即是否X导致Y),而非仅仅是相关关系。2z比如,你看到街上人们带伞,于是预测今天要下雨。这是一种相关关系。“人们带伞”并不是造成“下雨”的原因。z计量分析必须建立在经济理论的基础之上。z即使有理论基础,因果关系常常依然不好分辨。首先,可能存在“逆向因果关系”(reversecausality)。比如,FDI(外商直接投资)能促进经济增长,但也可能是FDI被吸引到增长潜力高的国家或地区。z其次,也可能是被遗漏的第三个变量(Z)对这两个变量(X,Y)同时产生了作用,参见图1.1。3图1.1可能的因果关系z考虑决定教育投资回报率(returnstoschooling)的因素:lniiiWSαβε=++(1.1)z其中,lnW(工资收入的自然对数)为“被解释变量”(dependentvariable),S(教育年限)为“解释变量”(explanatoryvariable4或regressor)、“自变量”(independentvariable)或“协变量”(covariate),ε为“随机扰动项”(stochasticdisturbance)或“误差项”(errorterm),而下标i表示第i个观测值(即个体i)。z如果用数据估计这个简单的一元回归,其结果一般会显示,对数工资收入与受教育年限显著正相关,而且教育投资回报率β还挺高。但一个人的工资收入也与能力有关;能力不能直接观测,而能力高的人通常选择接受更多教育。在这个简单的回归中,教育的高回报率其实包含了对能力的回报。z影响工资收入的因素还可能包括工作经验、毕业学校、人种、性别、外貌等。须尽可能多地引入“控制变量”(controlvariables),即多元回归的方法,才能准确估计我们“感兴趣的参数”(parametersofinterest),即本例的教育投资回报率β。5z现实中总有某些相关的变量无法观测,即存在“遗漏变量”(omittedvariables),而这些遗漏变量统统被纳入到随机扰动项iε中了。z随机扰动项iε中还可能包含哪些其他因素呢?如果真实模型(truemodel)为2lniiiiWSSαβγε=+++(1.2)z则2iSγ也被纳入到扰动项中了(可以视为广义的遗漏变量)。如果变量测量得不准确,则测量误差也被放入扰动项中了。z扰动项就像是一个“垃圾桶”,所有你不想要、无法把握的东西都往里面扔。另一方面,我们又希望扰动项有很好的性质。6在很多情况下,这是自相矛盾的。z“Thedevilisinthedetails.”⇒“Thedevilisintheerrorterm.”计量经济学的很多玄妙之处就在于扰动项。1.2经济数据的特点与类型z由于在经济学中通常无法像自然科学那样做“控制实验”(controlledexperiment),故经济数据一般不是“实验数据”(experimentaldata),而是自然发生的“观测数据”(observationaldata)。z由于个人行为的随机性,经济变量原则上都是随机变量。7z哪些经济变量不是随机的?z在计量经济学的本科课程中,为了简单起见,有时假设解释变量是非随机的、固定的(fixedregressors)。这只是为了教学法上的方便,给深入的理论探讨带来不便。z如果解释变量为非随机,则无法考虑其与扰动项的相关性。z在这本研究生水平的教材中,所有变量都是随机的(即便非随机的常数,也可以视为退化的随机变量)。8经济数据按照其性质,可大致分成以下三种类型:z横截面数据(cross-sectionaldata,简称截面数据):指的是多个经济个体的变量在同一时点上的取值。比如,2012年中国各省的GDP。z时间序列数据(timeseriesdata):指的是某个经济个体的变量在不同时点上的取值。比如,在1978—2012年山东省每年的GDP。z面板数据(paneldata):指的是多个经济个体的变量在不同时点上的取值。比如,在1978—2012年中国各省每年的GDP。本书将包括以上三种数据类型,并使用国际上最流行的Stata软件。在此之前,首先回顾概率统计,并引入一些新概念。