襄樊学院经管系卢君生第5章多元线性回归模型6学时变量的形式可以不形如x,y吗?假定E(U|Xi)=E(U)=0总是成立的吗?若不成立,怎么办?第5章提纲第一节多元线性回归模型的设定一、线性模型的含义与函数形式选择二、多元回归的动因三、样本数据第二节ols的操作与解释第三节回归结果的统计检验第四节回归分析的应用第五节回归结果报告与分析第一节多元线性回归模型的设定一、线性模型的含义与函数形式选择1、对变量为线性:y的条件期望值是x的线性函数2、对参数为线性:y的条件期望值是诸参数β0、β1等的线性函数我们主要考虑对参数为线性的回归模型,对解释变量则可以是或不是线性的。曲线非线性:直线线性:--|--|21010xxyExxyE210210||xxyExxyE线性:非线性:对数-对数模型—测度弹性P164例子数据:根据lny对lnx的散点图是否形似直线,决定是否采用该模型。β1度量了y对x的弹性,即x的百分比变化引起的y的百分比变化。xxyyuxyuxyxyln,lnlnln***10*10其中计量模型设定:型:经济理论表明的数理模线性-对数模型—测度增长率P166β1度量了Y对t的半弹性,即t的绝对值变化1引起的Y的百分比变化或者增长率β1*100%。txYyuxyrutYrYYttt***10*1100,ln1lnln1其中计量模型设定:型:经济理论表明的数理模对数-线性模型—恩格尔系数P169β1度量X的百分比变化1%引起的Y的绝对值变化β1/100。XxYyuxyuXYln,ln***10*10其中计量模型设定:倒数模型—Y有极限值P170XxYyuxyuXYXY1,11***10*1010其中计量模型设定:型:经济理论表明的数理模倒数-对数模型—Y以先递增后递减的速度增加XxYyuxyuXYXY1,ln1ln1ln***10*1010其中计量模型设定:型:经济理论表明的数理模函数形式的选择双变量简单模型:观察散点图多变量模型根据理论的指引估计系数的符号是否与理论、经验一致估计系数的统计显著性若因变量相同,则R2大者为好引子希望研究在其他条件不变情况下教育对工资的影响简单回归模型:工资=β0+β1教育年限+u利用ols对样本数据做回归,得到的β1估计值是BLUE的,准确衡量了在其他条件不变情况下教育对工资的影响但这样做有一个前提假定:所有u中的因素要与教育年限无关。若该假定不成立,则以上做法是错误的。遗憾的是,该前提假定在现实里确实有可能不成立。如u中的工作经历因素就与受教育水平有关。故简单回归模型不适用,需建立以下多元回归模型:工资=β0+β1教育年限+β2工作年限+u二、多元回归的动因做实验简单回归模型多元回归模型核心追求:在其他条件不变情况下x对y的定量影响社会科学不能做实验有时U中部分因素与X相关uzxy210uxy10简单回归模型y=β0+β1x+u的ols估计有一个前提假设:其他因素u必需与自变量x毫不相干,即零条件均值假定E(u|x)=E(u)=0。否则,ols估计就不是BLUE的。但现实情况却经常出现有些其他因素(如z)与x相关的情况,因此,简单回归模型就不适用了。因为此时利用简单模型将无法准确得到“在其他条件不变情况下x对y的影响”,即β1不再是在其他条件不变情况下x对y的准确影响。要想得到“在其他条件不变情况下x对y的影响”,必需使用:因此,即使我们只关心x对y的影响,并不关心z对y的影响(尽管z对y有影响),但只要z与x相关(但又不能完全线性相关),我们也必需把z显式的列在模型中,形成多元回归模型,以便回答“在其他条件不变情况下x对y的影响”这一核心问题。更何况我们经常希望y的变动得到更多的解释,以建立更好的因变量预测模型。uzxy210多元回归模型能够容纳许多可能相关的解释变量总体回归函数前提假定U与x1、x2…xk不相关,即:零条件均值假定E(u|x1、x2…xk)=E(u)=0x1、x2…xk之间可以相关,但不能有精确的线性关系,即:无多重共线性在满足以上条件的前提下,β1,β2,。。。,βk----斜率参数,偏回归系数β0----截距参数uxxxykk...22110多元回归模型kkkxxxxxxyE......,|2211021总体回归函数:对工人总体中受教育和工作经历的各种组合,其平均天分相同偏回归系数的含义偏回归系数βj度量着在其他条件保持不变情况下,xj每变化1单位时,y的条件均值E(u|x1、x2…xk)的变化。即xj的单位变化对y条件均值的“直接”或“净”(净在不沾有x1…,xj-1,xj+1,…,xk的)影响。x2x1kkkxxxxxxyE......,|2211021总体回归函数:简单回归模型系数的含义在x1与x2相关的情况下,若依然只建立简单回归模型,而把x2放到u中,则得到的α1衡量的是整个x1对y的影响,其中包含部分x2的影响。x2x1uxy110β1ǂα1三、样本数据横截面数据:随机抽样;数据排序不影响计量分析。时间序列数据趋势性:数据与时间有关,因为过去的事件可以影响到未来,而且行为滞后在社会科学中相当普遍。季节性混合横截面数据不同时间点都是随机抽样:同一数据单位在不同点同时出现纯属偶然目的:分析一项新政策的影响;扩大样本容量面板数据同一横截面数据的数据单位都被跟踪了一段特定的时期可控制观测单位本身具有而我们又观测不到的特征样本数量的要求在研究经费和时间的容许下,收集尽可能多的样本横截面数据:至少30个时间序列数据:至少12年(年度数据)样本数量变量数第二节ols的操作与解释估计量。此即的计算公式。、、,即可求出个方程,求解联立方程得到,求一阶偏导数,并令其、、分别对利用拉格朗日定理,将尽可能小,即,使残差平方和、、方法是寻找样本回归函数样本回归模型olsˆˆˆ30ˆˆˆˆˆˆ-ˆˆˆ-minˆminˆ)(ˆˆˆolsˆˆˆYˆˆˆˆˆY1101102121110212111012121102111021110niiiiniiiiniiniiXXYXXYuuRSSXXuXX一、如何得到ols估计量二、ols估计量的性质高斯-马尔可夫定理:在五大假设条件满足的前提下,用ols估计出来的参数是最好的、线性的、无偏差的估计值(BLUE,TheBestLinearUnbiasedEstimator)。与简单回归模型的ols估计量的性质是一样的。三、对ols回归方程的解释通过将众多相关的解释变量包含在模型中而形成的多元回归模型,利用ols方法得到的是总体回归函数中的斜率(偏回归系数)的良好估计(BLUE)。即我们通过ols方法,得到了在其他条件不变情况下xj对y的影响的良好估计值。就好像我们做了一个保持其他条件不变仅仅xj与y发生变化的控制实验,然后利用实验数据得到其关系一样。而事实上我们的样本数据并不是实验数据。在收集数据的过程中,并没有对变量(如教育、工作年限)的样本值施加任何限制。多元回归模型的功能在于,尽管不能在其他条件不变情况下搜集数据,但它提供的系数仍可做其他条件不变的解释。多元回归分析使我们能在非实验环境中去做自然科学家在受控实验中所能做的事情:保持其他因素不变。jˆj计量模型=实验模拟例子P200—P2030、考虑儿童死亡率的降低问题1、理论描述:人均gnp与妇女识字率对儿童死亡率有影响2、3、数理、计量模型:由于PGNP与FLR可能相关,所以应将两者均作为自变量4、样本数据:64个国家的横截面数据5、参数估计若采用简单回归模型,系数将发生较大变化。见P203uFLRPGNPCM321哪个因素对降低儿童死亡率的作用更大些?标准化变量的回归变量标准化:均值=0,方差=1新模型:β系数的解释:标准化自变量增加1个标准差,标准化因变量平均增加β*个标准差。可用于比较各个自变量的相对解释力。ySyyy****3**2*uFLRPGNPCM前面的回归结果可信吗?尽管在众多估计方法中,ols估计的样本回归线是BLUE,但这个最优的估计本身是否令人满意呢?样本回归线是否很好的代表了样本点的信息?回归方程整体上有意义吗?有可能出现所有自变量同时都不能解释因变量的情况吗?各个自变量的系数是否有意义?第三节回归结果的统计检验一、方差分析与拟合优度未解释的变异已解释的变异总的样本变异niiniiniiuRSSyyESSyyTSS122121ˆˆ2111021110ˆˆˆYˆˆˆˆˆYXXuXX样本回归函数样本回归模型TSS=ESS+RSSTSSRSSTSSESSR12由于R2随着自变量个数增加而提高故建立校正R2比较两个模型的拟合优度,要求因变量和样本大小要相同数包含截距在内的参数个knTSSknRSSR1//12R2大小不用太担心,主要关心自变量系数的符号是否正确(符合理论与经验预期),以及统计上是否显著。二、方程整体显著性检验:F检验1、假设检验H0:回归方程无用(所有k个自变量都不能解释Y,β2=β3=0)R2=0H1:回归方程有用2、3、查找临界值:根据允许的误差(显著性水平)α,查找Fα4、计算F值5、若FFα,则否定原假设,说明方程整体是显著的;若FFα,则不能否定原假设。分布服从未解释方差解释方差FknRkRknRSSkESSF1/1/1//22若p-value足够小,则拒绝原假设;否则,不能拒绝原假设。三、单个参数的统计意义检验:t检验1、原假设H0:β2=0备择假设H1:β2ǂ02、3、查找临界值:根据允许的误差(显著性水平)α,查找临界值tα/2,n-k4、由样本计算t值5、若|t|tα/2,则拒绝原假设,说明β2显著不等于0,对应的自变量对因变量有显著影响;若|t|tα/2,则不能否定原假设,说明β2可能等于0,对应的自变量对因变量没有显著影响。分布服从tseseseEtkn22222222ˆ0ˆˆˆˆˆˆ若p-value足够小,则拒绝原假设;否则,不能拒绝原假设。第四节回归分析的应用均值预测P129个值预测P130EVIEWS操作:工具栏选Forecast预测精度高:MAPE10,TIC较小区间预测:小点预测YXXYEiˆ)|(区间预测:大点预测YXXYEiˆ)|(第五节回归结果报告与分析P131襄樊学院经管系卢君生对经典回归分析假设条件的放松假设否则E(μi|x)=0有偏估计Var(μi)=∂2异方差Cov(μi,μj)=0自相关Cov(μi,xi)=0异方差Corr(Xi,Xj)≠1,-1多重共线性思路明确问题的性质(定义及产生原因)分析其影响(危害)提出侦查的方法(诊断)考虑补救措施(解决)襄樊学院经管系卢君生第6章多重共线性问题4学时基本要求通过本章学习,掌握多重共线性的含义;理解其产生原因与危害;掌握多重共线性的诊断方法,能利用经验方法、逐步回归法和差分法解决多重共线性问题;了解岭回归、主成分分析法、偏最小二乘(PLS)回归方法的思路。本章重点:多重共线性的含义与诊断方法;逐步回归法;差分法。本章难点:多重共线性的危害;逐步回归法。提纲第一节多重共线性定义、产生原因与危害一、定义二、产生原因三、危害第二节