经济计量分析第四章一元线性回归模型本章介绍一元线性回归模型的概念及一元线性回归模型所依据的理论与应用。一元线性回归模型只包含一个解释变量和一个被解释变量,是最简单的线性回归模型。通过一元线性回归模型的学习,可较容易地理解回归分析的基本理论与应用。第一节回归分析的相关概念一、回归的含义回归一词最早由F·高尔顿(FrancisGalton)提出。在一篇研究父母身高与子女身高相互关系的论文中,高尔顿发现,虽然有一个趋势,父母高,子女也高;父母矮,子女也矮,但给定父母的身高,子女的平均身高却趋向于或者回归到全体人口的平均身高。也就是说,当父母双亲都异常高或异常矮,则子女的身高有趋向于人口总体平均身高的趋势。这种现象被称为高尔顿普遍回归定律。这就是回归一词的原始含义。在现代,回归一词已演变为一种新的概念。回归分析就是研究被解释变量对解释变量的依赖关系,其目的就是通过解释变量的已知或设定值,去估计或预测被解释变量的总体均值。在下面的几个例子中,我们可以清晰地看到回归分析的实际意义。1.高尔顿普遍回归定律。高尔顿的目的在于发现为什么人口的身高分布有一种稳定性。在现代,我们并不关心这种解释,我们关心的是:在给定父辈身高的情形下,找到儿辈平均身高的变化规律。就是说,我们如果知道了父辈的身高,就可预测儿辈的平均身高。假设我们得到了一组父亲、儿子身高的数据,制成如下的散点图。图中按统计分组的方法将父亲身高分为若干组。××××××××××××××××××××父亲身高(cm)儿子身高(cm)图4.1给定父亲身高儿子身高的分布图4.1中对应于设定的父亲身高,儿子身高有一个分布范围。随着父亲身高的增加,儿子的平均身高也在增加,画一条通过儿子平均身高的线,说明儿子的平均身高是如何随着父亲身高的增加而增加的,这条线就是回归线。2.在经济学中,经济学家要研究个人消费支出与个人可支配收入的依赖关系。这种分析有助于估计边际消费倾向,就是可支配收入每增加一元引起消费支出的平均变化。3.在企业中,我们很想知道人们对企业产品的需求与广告费开支的关系。这种研究有助于估计出相对于广告费支出的需求弹性,即广告费支出每变化百分之一的需求变化百分比,这有助于制定最优广告策略。4.农业工作需要预计粮食产量,需要研究粮食产量与播种面积、施肥量、降雨量之间的依赖关系。这种一个变量依赖于另一个或多个变量的事例在经济系统中普遍存在。回归分析就是要研究这种变量之间的依存关系。二、统计关系与确定性关系如果给定一个变量X的结果值就可确定另一个变量Y的结果值,则称变量Y是变量X的函数,即X、Y之间是函数关系。在经典物理学中,给定电阻Ω,电流I和电压V之间的关系即为函数关系,即。这种典型的变量关系就是确定性关系。ΩVI在经济系统中,这种变量之间的函数关系或确定性关系就很少见。常见的是变量之间是一种不确定的关系,既使变量X是变量Y的原因,给定变量X的值也不能具体确定变量Y的值,而只能确定变量Y的统计特征,通常称变量X与Y之间的这种关系为统计关系。例如,企业总产出Y与企业的资本投入K、劳动力投入L之间的关系就是统计关系。虽然资本K和劳动力L是影响产出Y的两大核心要素,但是给定K、L的值并不能确定产出Y的值。因为,总产出Y除了受资本投入K、劳动力投入L的影响外,还要受到技术进步、自然条件等其它因素的影响。三、回归分析与相关分析与回归分析密切相联的是相关分析。相关分析主要测度两个变量之间的线性关联度,相关系数就是用来测度两个变量之间的线性关联程度的。例如,吸烟与肺癌、统计学成绩与数学成绩、身高与体重等等之间的相关程度,就可用相关系数来测度。而在回归分析中,我们的主要目的在于根据其它变量的给定值来估计或预测某一变量的平均值。例如,我们想知道能否从一个学生的数学成绩去预测他的统计学平均成绩。在回归分析中,被解释变量Y被当作是随机变量,而解释变量X则被看作非随机变量。而在相关分析中,我们把两个变量都看作是随机变量。例如,在学生的数学成绩与统计学成绩的分析中,如为回归分析,则统计学成绩是随机变量,数学成绩是非随机变量,即数学成绩被固定在给定的水平上,以此求得统计学的平均成绩。而在相关分析中,两者处于平等地位,不存在谁为解释变量,谁为被解释变量的问题,两者均为随机变量。第二节一元线性回归模型一、引例假定我们要研究一个局部区域的居民消费问题,该区域共有80户家庭组成,将这80户家庭视为一个统计总体。我们研究每月家庭消费支出Y与每月可支配收入X的关系。就是说,已知家庭每月可支配收入,要预测家庭每月消费支出的总体平均水平。为此,将80户家庭分为10组。表4.1给出了人为数据。XY每月家庭可支配收入(元)1000150020002500300035004000450050005500每月家庭消费支出(元)7007407808208609009401050107011201170122012701320137014201380144015001560162016801740180018601780184019001960202020802140220022602180224023002360242024802540260026602620268027402820290029803160290029803060314032203300338034603540332034203520362037203820392037103810391040204130423043304090420043104420453046404750合计5740109801458018180217801974022540253402814030940表4.1居民收入、消费数据从表4.1中可以看出,对于每月1000元收入的7户家庭,每月消费支出为700元到940元不等。同样,当X=3000元时,9户家庭的每月消费支出在2180元到2660元之间。表4.1给出了以X的给定值为条件的Y的条件分布。对于Y的每一条件分布,我们能计算出它的条件期望,记为E(Y/X=Xi),即在X取特定Xi值时Y的期望值。例如,X=1000时,Y的期望值为:82071940719007186071820717807174071700将表4.1中的数据在直角坐标系中描出,则得到图4.2的散点图。XY100020003000400050001000150020002500300035004000450050005500收入、消费散点图图4.2该图表明了对应于各X值的Y的条件分布。虽然每个个别家庭的消费支出都有异,但图4.2清楚地表明随着收入的增加,消费支出平均地说也在增加。就是说,散点图启示我们,Y的条件均值随X的增加而增加。如果我们观察图4.2中那些代表Y的各个条件均值的粗圆点,则表明这些条件平均值落在一根有正斜率的直线上。我们称这根直线叫做总体回归线,它是Y对X的回归。总体回归线就是当解释变量取给定值时,被解释变量的条件均值或期望值的轨迹。图4.2表明,对每一Xi都有Y值的一个总体和一个相应的均值。而回归线是穿过这些条件均值的线。二、总体回归函数从图4.2我们可以看出,条件均值E(Y/Xi)是Xi的函数,即:E(Y/Xi)=f(Xi)(4.1)其中,f(Xi)表示解释变量Xi的某个函数。在我们的引例中,E(Y/Xi)是Xi的一个线性函数。式(4.1)就是总体回归函数,简称总体回归。它表明在给定Xi下Y的分布的总体均值与Xi有函数关系,就是说它给出了Y的均值是怎样随X值的变化而变化的。函数f(Xi)采取什么函数形式,是一个需要解决的重要问题。在实际经济系统中,我们不会得到总体的全部数据,因而就无法据已知数据确定总体回归函数的函数形式。同时,对总体回归函数的形式只能据经济理论与经验去推断。例如,我们可以假定消费支出与收入有线性关系。则总体回归函数为iiXXYE21)/((4.2)其中,和为未知而固定的参数,称为回归系数;为截距系数,为斜率系数。式(4.2)为线性总体回归函数。1221三、线性的含义1.对变量为线性对线性的第一种解释是指Y的条件期望是Xi的线性函数,例如式(4.2)就是线性回归函数,该回归线是一条直线。按这种解释就不是线性的,因为对的一阶导数不是常数。)/(iXYE221)/(iiXXYEiX2.对参数为线性对线性的第二种解释是指Y的条件期望是参数的一个线性函数。它可以是也可以不是变量的X的线性函数。)/(iXYE此时,就是线性回归函数。但则不是线性回归函数,而是非线性回归函数。iiXXYE21)/(221)/(iiXXYE在本书中,主要考虑的是对参数为线性的回归模型,线性回归是指对参数β为线性的一种回归(即参数只以它的1次方出现);对解释变量X则可以不是线性的。从图4.2可清楚地看到,随着家庭收入Xi的增加,家庭平均消费支出E(Y/Xi)也在增加,这表明了Xi与Y的平均水平的关系。我们想知道对于具体家庭而言,消费支出Y与它的收入水平Xi的关系。四、总体回归函数的随机设定就个别家庭而言,收入水平增加,消费支出不一定会增加。例如从表4.1可以看到,对于每月3000元的收入水平,有一户家庭的消费支出为2180元,少于每月收入为2500元的两户家庭的消费支出(2200元和2260元)。但应看到,每月收入为3000元的家庭的平均消费支出大于每月收入2500元的家庭的平均消费支出(2420元大于2020元)。从图4.2可以看到,给定收入水平Xi的个别家庭的消费支出处于在该收入水平的家庭平均消费支出左右,也就是围绕着它的条件均值。我们把个别的Yi围绕它的期望值的离差表示如下:)/(iiiXYEYuiiiuXYEY)/(或(4.3)其中,离差ui是一个不可观测的可正可负的随机变量,在专业术语中,把ui称为随机干扰项或随机误差项。在式(4.3)中,给定收入X的水平,个别家庭的消费支出,可表示为两个成份之和。(1)代表相同收入水平的所有家庭的平均消费支出。这是系统性或确定性成份。(2)ui为随机或非系统性成份,代表所有可能影响Y,但又未能包括到回归模型中来的被忽略变量的代理变量。)/(iXYE假设对Xi为线性的,则:)/(iXYEiiiuXYEY)/(iiuX21(4.4)式(4.4)表示一个家庭的消费支出线性地依赖于它的收入加干扰项。例如,给定X=1000,各家庭的消费支出可表达为7217621652154214321322121211)1000(940)1000(900)1000(860)1000(820)1000(780)1000(740)1000(700uYuYuYuYuYuYuY五、随机误差项u的意义1.理论的欠缺。虽然有决定Y的行为的理论,但常常是不能完全确定的,理论常常有一定的含糊性。我们可以肯定每月收入X影响每月消费支出Y。但不能确定是否有其它变量影响Y,只好用ui作为模型所忽略的全部变量的替代变量。2.数据的欠缺。即使能确定某些变量对Y有显著影响,但由于不能得到这些变量的数据信息而不能引入该变量。例如,从经济理论分析,家庭财富量是影响家庭消费的重要因素,应该引入该变量作为解释变量。但是,通常我们得不到有关家庭财富的信息。因此,我们只得把这个很重要的解释变量舍弃掉。3.核心变量与非核心变量。例如,在引例的居民消费模型中,除了收入X1外,家庭的人口数X2、户主宗教信仰X3、户主受教育水平X4也影响家庭消费支出。但很可能X2、X3、X4合起来的影响也是很微弱的,是一种非系统的或随机的影响。从效果与成本角度来看,引入它们是不合算的。所以,人们把它们的联合效用当作一个随机变量来看待。4.人类行为的内在随机性。即使我们成功地把所有有关的变量都引进到模型中来,在个别的Y中仍不免有一些“内在”的随机性,无论我们花了多少力气都解释不了的。随机误差项ui能很好地反映这种随机性。5.节省原则,我们想保持一个