第2章简单回归模型2020/2/252.1—2.4节的回顾012.5—2.6节的讲解02总结03目录简单回归模型2.1—2.4节回顾简单回归模型:y=ß0+ß1x+u通过OLS,得出ß0和ß1的估计值拟合值=+x残差=yi-拟合优度R2OLS统计量的代数性质1、OLS残差和及其样本均值均为零,即=02、回归元和OLS残差的样本协方差为零即=03、点(,)总在OLS回归线上度量单位和函数形式改变度量单位对OLS统计量的影响在简单回归中加入非线性因素2020/2/252.5和2.6内容讲解2.5OLS估计量的期望值和方差1.OLS的无偏性2.OLS估计量的方差3误差方差的估计在总体模型中,因变量y和自变量x和残差u的关系可写作:y=b0+b1x+u(2.47)其中b0和b1分别是总体的截距参数和斜率参数1.OLS的无偏性AssumptionSLR.1(LinearinParameters):假定SLR.1(关于参数是线性的)假定我们从总体模型随机抽取容量为n的样本,{(xi,yi):i=1,2,…,n},那么可以写出样本模型为:yi=b0+b1xi+ui(2.48)AssumptionSLR.2(RandomSampling):假定SLR.2(随机抽样)SLR.3(自变量中的样本变动):在样本中,自变量x并不等于一个不变常数。SLR.4(零条件期望):假定E(u|x)=0,那么在随机样本中我们有E(ui|xi)=0AssumptionsSLR.3andSLR.4假定SLR.3和SLR.4E(u|x)=0{xi,i=1,....,n}定理:使用假定SLR.1到SLR.4,我们可以得到无论b0,和b1取什么值,它们的OLS估计量的期望值等于它们各自的真值,即:E()=b0;E()=b1(2.53)证明过程略,可参考本书第47页具体内容。Theorem2.1(UnbiasednessofOLS)定理2.1(OLS的无偏性)b0Ùb1Ù总结:1.b1和b0的OLS估计量是无偏的。2.无偏性的证明依赖于我们的四个假定——如果任何假定不成立,OLS未必是无偏的。3.记住无偏性是对估计量的描述——对于一个给定的样本我们可能靠近也可能远离真实的参数值。Theorem2.1(UnbiasednessofOLS)定理2.1(OLS的无偏性)Using409Michiganhighschooldatafor1992–1993,weestimatedthatPredictedmath10=32.14-0.319lnchprg,Math10:mathsscoreforthe10thgradeLnchprg:partipationofthelunchprogram该例研究了是否参加学校的免费午餐项目是否能够提高学生在数学考试中的成绩。我们用Math10来表示10年级学生的数学成绩,用Lnchprg表示可以参加学校的免费午餐项目的学生的比例。Example2.12学生的数学表现和学校的午餐项目Theequationpredictsthatifstudenteligibilityinthelunchprogramincreasesby10%,thenthemathscorefallsbyabout3.2%.Canwetrustsuchresults?估计所得方程说明参加免费午餐的学生的比例越多,他们的成绩越差。可信吗?Example2.12学生的数学表现和学校的午餐项目产生上述结果的一个可能是u和x是相关的。比如,u包括了贫困率,它影响学生的学习表现,又和是否有资格参加免费午餐项目高度相关。应该记住,估计值-0.319只针对这个特定的例子,但它的符号和大学让我们怀疑u和x可能相关,因此该简单回归是有偏误的。Example2.12学生的数学表现和学校的午餐项目度量我们预期的究竟距离有多远,即度量两者的分布的分散程度。使用指标:方差或者标准差在一个附加假定下计算这个方差会容易的多,因此有AssumeSLR.5(Homoskedasticity):假定SLR.5(同方差性):Var(u|x)=s2(Homoskedasticity)给定解释变量的任何值,误差都具有相同的方差。2.OLS估计量的方差b1Ùb1HomoskedasticCase同方差的情形(figure2.8)..E(y|x)=b0+b1x..x1x2yf(y|x)HeteroskedasticCase异方差的情形(figure2.9).xx1x2f(y|x)x3..E(y|x)=b0+b1x有了同方差假定,则在SLR.1~SLR.5下,有如下定理:2.OLS估计量的方差Varˆb1()=s2sx2=s2(xi-x)2i=1nå=s2/SSTx1.越大,越大,影响y的不可观测因素变异越大,要准确估计就越难。2.另一方面,自变量的样本越分布越分散,则越容易估计;当样本容量越大,xi的总体变异增加,使得方差较小,估计越准确。s2Varˆb1()b1b1我们不知道误差方差s2是多少,因为我们不能观察到误差ui,但是估计其值是值得关注的,因为它是影响y的不可观测因素的标准差估计值,他估计了把x的影响排除之后y的标准差,之后便能用来估计的标准误。我们观测到的是残差ûi我们可以用残差构成误差方差的估计3.误差方差的估计b1我首先,我们注意到s2=E(u2),所以s2的无偏估计量是ui是不可观测的,但我们找到一个ui的无偏估计量3.误差方差的估计niiun12)/1(2/ˆ21ˆisofestimatorunbiasedanThen,ˆˆˆˆˆˆˆ22221100101010nSSRunuxuxxyuiiiiiiiisssbbbbbbbbbb的一个无偏估计量是那么,3.误差方差的估计21211122/ˆˆseˆ,ˆoferrorstandardtheˆhavethenweforˆsubstituteweifˆsdthatrecallˆˆregressiontheoferrorStandardˆˆxxsixsbbbsssssbssss的标准误差,,那么我们可得到替换如果我们用回归的标准误2020/2/252014/10/22Wednesday2.6过原点回归•在少数情形中,我们希望施加约束:当x=0时,E(y)=0(收入为0时,收入税也为0)•规范地,我们选择一个斜率估计量=(过原点回归)•利用OLS,此时残差平方和为-2,且必须满足=0•由此解出的值为:•=说明:过原定回归即在截距为零的假定下得到斜率的估计值,它有时候是有用的,但是在应用研究中所用不多2020/2/25总结相互联系变化发展ABX4…….X4…X4…X4…X4…X1X2X3X1X2X3X1X2X3X1X2X3X1X2X3…….YDYCYBYAY总体回归分析实例任务问题总体回归函数样本回归分析总体与样本C问题现实层面:经验现象复杂多样样本回归函数计量方法OLSOLS估计量代数性质OLS估计量统计性质应用分析2020/2/25课后习题问题:401K.RAW中的数据时帕普克所分析数据的一个子集,帕普克是为了研究养老计划的参与率和该计划的慷慨程度之间的关系。变量prate是有资格参与该计划员工中所拥有的活动账户百分比,也是我们要解释的变量。慷慨程度指标是计划的匹配率mrate。这个变量给出了员工向这个账户存1美元,公司就匹配50美分。(1),求出该计划的样本中平均参与率和平均匹配率(2)现在估计下面这个简单回归方程͡prate=ˆβ+ˆβmrate报告你的结果以及样本容量和R^2(4)当mrate=3.5时,求出prate的预测值。这是一个合理的预测吗?解释这里出现的情况。当mrate=3.5时,prate的预测值为103.58924这不是一个合理的预测该数据表示的意思是,当员工向该账户投入1美元时,公司就匹配3.5美元。这时预测该计划的参与率将达到103.58个百分比(3)解释你的方程中的截距。解释mrate的系数方程中的截距ˆβ为83.07;该数据表示的意思是当该计划的慷慨程度为0时,该计划的员工中拥有活动账户的百分比为83.07mrate的系数即ˆβ为5.86,该数据表示的意思是当该计划的匹配率增加1个百分比时,该计划的员工中拥有活动账户的百分比将增加5.86个百分比(5)prate的变异中,有多少事由mrate解释的,你认为这是一个足够大的量吗?用判定系数R^2来解释prate的样本中被mrate解释的部分。由前面的结果可知AdjR-squared的值为0.0741;一般而言,AdjR-squared的值越接近1,则说明拟合程度好,越接近0则说明是一个糟糕的拟合。本题中该值为0.0741,因此这不是一个足够大的量。2020/2/25