第3章多元回归分析:估计•简单回归分析的有个缺陷,就是它很难得到在其他条件不变情况下x对y的影响•多元回归分析能让我们明确地控制其他影响因素•多元回归分析可以建立更好的因变量预测模型•多元回归分析可以引入相当一般化的函数关系第3章多元回归分析:估计3.1使用多元回归分析的动因3.2普通最小二乘法的操作和解释3.3OLS估计量的期望值3.4OLS估计量的方差3.5OLS的有效性:高斯-马尔科夫定理3.1使用多元回归模型的动因实际研究中更多时候对因变量有影响的自变量个数将不只一个,需要进行多元回归•例1:在对小时工资的研究中,除了教育水平之外,工作经历也是一个显著的影响因素,因此需要增加自变量个数,建立多元回归模型。012expwageeduceru1.为获得其它因素不变的效应,控制更多的因素•在实证工作中使用简单回归模型,首要的困难在于:要得到在其它因素不变的情况下,x1对y的影响(ceterisparibuseffect),非常困难。•在简单线性回归中,是否能够获得在其它条件不变情况下,x1对y的影响,完全取决于零值条件期望假设是否符合现实。•如果影响y的其它因素,与x1不相关,则改变x1,可以确保u(均值)不变,从而识别出在其它条件不变情况下x对y的影响。•不幸的是,影响y的其它因素(包含在u中),往往与x1相关:改变x1,u(均值)也往往发生变化,从而使得仅仅利用简单回归模型,无法识别出在其它条件不变情况下x1对y的影响。1.控制更多的因素•一个策略就是,将与x1相关的其他因素从误差项u中取出来,放在方程里,作为新的解释变量,这就构成多元回归模型。•多元回归分析可以明确地控制许多其它同时影响因变量的因素,而不是放在不可观测的误差项中,故多元回归分析更适合于其它条件不变情况下(ceterisparibus)的特定因素x对y的影响。•多元回归模型能容许很多解释变量,而这些变量可以是相关的。•在使用非实验数据时,多元回归模型对推断y与解释变量x间的因果关系很重要。2.更好地预测•一个变量y的变化,不仅与一种因素有关,可能决定于许多因素。•预测一个变量的变化,往往需要尽可能多地知道影响该变量变化的因素。•简单回归模型,只包含一个解释变量,有时只能解释y的变动的很小部分。(如,拟合优度很低)•多元回归模型由于可以控制更多地揭示变量,因此,可以解释更多的因变量变动。3.表达更多的函数关系•多元回归模型,可以包含多个解释变量,因此,可以利用变量的函数变换,在模型中表达多种函数关系。•因此,多元线性回归模型,是实证分析中应用最广泛的分析工具。多元线性回归模型的一般形式•其中𝛽0为截距,为斜率参数,u为误差项(干扰项)。•关键假设:即不可观测的误差项中的所有因素都与解释变量无关,无法观测因素的均值总为0。01122...kkyxxxu12(,...,)k12(|,,...,)0kEuxxx多元回归的术语3.2普通最小二乘法的操作和解释如何得到OLS估计值•首先考虑两个自变量的模型:建模的原理依旧是使得达到最小。•要理解OLS在做什么,重要的是理解自变量角标的含义。下标i表示观测序号,这里假设有n个观测变量。第二个下标只是区别不同自变量的方法。在之前的例子中,分别表示样本中第i个人的教育程度和工作经历。01122ˆˆˆˆyxx2011221ˆˆˆ()niiiiyxx12,expiiiixeducxer如何得到OLS估计值•在含有k个自变量的情形中。在选择估计值时,我们最小化了残差平方和这个最小化问题可以使用多元微积分求解。•OLS的一阶条件:2011221ˆˆˆˆmin(...)niiikikiyxxx2011221210112212011221ˆˆˆˆmin(...)0ˆˆˆˆmin(...)0......ˆˆˆˆmin(...)0niiikikiniiiikikinikiiikikiyxxxxyxxxxyxxx如何得到OLS估计值•如同简单回归里那样称为OLS回归线,为截距估计值,为斜率估计值。为了表明已经进行了一个OLS回归分析,我们将方程中的y,x1,x2..xk用其变量名称取代(如wage,educ,exper等)01122ˆˆˆˆˆ...kkyxxx0ˆ12ˆˆˆ(,,...)k对OLS回归方程的解释•估计值具有偏效应或其他情况不变得解释。从方程中我们可以得到所以我们能在给定x1,x2的变化时预测y值得变化。•特别的,当=0时,有•关键是通过把x2包含在模型中,我们所得到的x1的系数可解释为在其他条件不变的情况下的影响。这正是多元回归分析如此有用的原因所在。1122ˆˆˆyxx2x11ˆˆyx例3.2:小时工资方程•我们在log(wage)的方程中包括educ(教育水平),exper(工作经历),和tenure(任现职的任期),估计的方程:系数0.092意味着,在保持tenure和exper不变的情况下,多受一年教育者的log(wage)提高0.092即9.2%。log0.2840.0920.0041exp0.022educertenure(wage)“保持其他因素不变”的含义•多元回归中,所得到的“其他因素不变的效应”,并非是通过在实际抽样中,固定其他因素不变。•在教育-经验-工资一例中,在获得教育对的工资其他条件不变影响时,在实际抽样中,也并非是固定工作经验,收集不同教育年限的样本,来分析教育年限变化,对于工资的影响。•对个体进行随机抽样,就可通过多元回归分析得到“其他因素不变的效应”。•多元回归分析的优势,在于它使我们能在非实验环境中去做自然科学家在受控实验中所能做的事情:保持其它因素不变。同时改变不止一个变量•有时我们想改变一个以上的变量,同时看看由此对因变量的影响,通过回归方程很容易做到。在例2中,当一人在同一企业工作过1年,保持educ不变,exper和tenure都增加一年时,对工资的总影响为:log0.0041exp0.0220.0041*1+0.022*1=0.0261ertenure(wage)OLS的拟合值和残差•对观测i,其拟合值为它只是将第i个自变量值代入回归方程所得的预测值。•OLS最小化了预测误差平方的平均值。第i个观测的残差被定义为:•若,意味着yi被预测的过低;反之说明yi被预测的过高。01122kˆˆˆˆˆ+...+iiiikyxxxˆˆiiiuyyˆˆ0iiiuyyOLS的拟合值和残差•直接从单变量模型推广,可得OLS拟合值和残差的某些重要性质。1.残差的样本平均值为零2.每个自变量和OLS残差之间的样本协方差为零,于是OLS拟合值和OLS残差之间的样本协方差也为零3.点总位于样本OLS回归线上。12(,...,,)kxxxy对多元回归“排除其他变量影响”的解释•在应用OLS时,我们不需要知道估计值的明确表达式,但为进行某些推导,我们需要估计值的明确表达式。•再次考虑k=2的情形,一种表示𝛽1的方式为其中𝑟𝑖1是用现有样本将想x1对x2进行简单回归得到的OLS残差。上述公式表明只要将y对𝑟1进行简单回归就能得到𝛽1111211ˆˆˆniiiniiryr对多元回归“排除其他变量影响”的解释A“PartiallingOut”Interpretation•对于估计的样本回归线•可以表示为:•?1ˆ22110ˆˆˆˆxxy1ˆir211111ˆˆˆ()/nniiiiiryr22对多元回归“排除其他变量影响”的解释•首先,将第一个自变量x1对第二个自变量x2进行回归,得到样本回归函数,•根据xi和拟合值,得到残差。残差表示剔除了x2的影响之后,x1的其他部分。它与x2不相关,样本均值为0。•然后,将y对进行简单回归得到。•衡量的是,剔除了其他自变量的影响之后,x1对于y的净影响。1ˆ1r2101ˆˆˆˆxx1ˆ1ˆix111ˆˆiiixxr23对多元回归“排除其他变量影响”的解释•上述过程表明:将y同时对x1和x2回归得出的x1的影响,与先将x1对x2回归得到残差,再将y对此残差回归得到的x1的影响相同。•同时说明,在多元回归模型中,x1的系数衡量的是,x1中与其他自变量不相关的部分,与y的相关关系。•即,在多元回归模型中,所估计的是,在其他自变量对于x1的影响“被剔除(partialledout)”后,x1对y的影响。24“剔除其它变量影响”“PartiallingOut”•在一个含有k个解释变量的一般模型中,仍然可以写成(3.22)式(证明见本章附录3A.2):•残差是来自x1对x2…,xk的回归。•因此,度量的是,在排除x2…,xk等变量的影响之后,x1对y的影响。1r1ˆ211111ˆˆˆ()/nniiiiiryr25证明(3.22)式:211121111111111111122110111111111111122012211022110ˆˆˆ0ˆˆˆ)6(0)ˆˆ(ˆ)ˆˆˆˆ(ˆ)5(0)ˆ(ˆ)ˆˆˆˆ(ˆ)4(0ˆˆˆˆˆˆˆ)ˆˆ(ˆ)3(ˆˆˆˆˆˆˆˆ)2(ˆˆˆˆˆˆˆˆˆˆˆ)1(iiiiiiiiiiiiiiiiikkiiiiiiiiiiiiiiiiiiiiiikkiiikkiiiiiiikkiiiryrryrryrrxyrxyrxxxyrururuxurxuxrxxxxrxaxaaxxxxyyyuxxxy211111ˆˆˆ()/nniiiiiryr26简单回归与多元回归估计值的比较•用同一个样本:•估计一个最简单的线性回归模型,得到:•估计一个最简单的多元线性回归模型,得到:•存在一个简单关系:•是x2对x1进行简单回归所得到的斜率系数估计值。•证明上式110~~xy22110ˆˆˆxxy21211~ˆˆ~21ˆ1221211221121211222111112111112221112211022110ˆˆ)())((ˆˆ)(]ˆ)(ˆ)(ˆ)[()())((~)4(ˆ)(ˆ)(ˆ)3(ˆˆˆ)2(ˆˆˆˆ)1(xxxxxxxxuxxxxxxxxyyxxuxxxxyyxxyuxxyiiiiiiiiiiiiiiiiiii28•一般而言,•两种特殊情况下,两者相等:•在第(1)种情况下,x2对于y没有局部效应(partialeffect)•在(2)种情况下,x2与x1在样本中不相关。11ˆ~0~)2(0ˆ)1(21229•用同一个样本:•估计一个最简单的线性回归模型,得到:•估计一个最简单的多元线性回归模型,得到:•存在一个关系:•是x2,…,xk分别对x1进行简单回归所得到的斜率系数估计值。110~~~xykkxxxyˆˆˆˆˆ22110121211~ˆ~ˆˆ~kk121ˆ,,ˆk30•一般而言,•两种特殊情况下,两者相等:•在第(1)种情况下,x2,…,xk对于y均没有偏效应(partialeffect)•在(2)种情况下,x2,…,xk中每一个均与x1不相关11ˆ~0~,,0~)2(0ˆ,,0ˆ)1(1212kk例3:401(k)养老金计划•匹配率mrate是指对于一个员工所投入的每一美元的养老金,企业为员工匹配的数量。参与率prate是指有资格拥有一个401(k)账户的员工中参与此计划的百分比。变量age是401(k)养