计量经济学9-基于多元回归的评估研究

sxrwxz
1 ℃
2019-10-02

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

1Chapter9Chapter9基于多元回归的评估研究2•是否有对回归分析进行系统的评估的方法？我们已经了解线性回归分析的优点，然而其有何潜在的不足呢？•以上问题在班级规模对测试成绩的影响这个例子中又是如何体现呢？3评价统计分析或计量经济学研究的一般框架:内部有效性和外部有效性•如果有关因果效应的统计推断对研究总体是正确的，则称该统计分析是内部有效的（internallyvalid）。•如果从研究总体及其环境中得到的相关推断和结论可推广到其他总体及其环境中，则称该分析是外部有效的（externallyvalid）。4内部有效性的条件•内部有效性由两部分组成：•第一，因果效应估计量应该是无偏的、一致的。•第二，假设检验应该具有要求的显著水平，且置信区间也应该具有要求的显著水平。5外部有效性的威胁•研究总体和感兴趣总体间的差异。•研究总体和感兴趣总体所处环境不同。如制度环境、自然环境等。•例如：将基于加利佛尼亚小学学区数据估计得到的效应估计推广到大学是不合理的，推广到美国其他的小学学区的标准化测试成绩效应估计中相对合理。6多元分析的内部有效性威胁1.遗漏变量偏差2.回归函数形式的误设3.变量有测量误差4.样本选择偏差5.双向因果关系偏差来源是因为总体回归中的回归变量与误差项相关，从而违反了E(ui|X1i,…,Xki)≠0这一最小二乘假设。271.遗漏变量偏差存在遗漏变量偏差要同时满足以下两个条件：(i)对Y有影响；(ii)该遗漏变量与至少与其他一个回归变量相关。z遗漏变量可观测时遗漏变量偏差的解决办法z遗漏变量不可观测时遗漏变量偏差的解决办法8遗漏变量可观测时遗漏变量偏差的解决办法•一方面，遗漏变量可能导致遗漏变量偏差；另一方面，包含不属于回归的的变量会降低其他回归系数估计量的精确度。•1）在回归中识别出感兴趣的关键系数。•2）确定该回归中最有可能的重要遗漏变量偏差来源于何处？•3）利用第2步中确定的其他可疑变量改进基础设定形式并检验其系数为零的假设。如果附加变量的系数统计显著，或者加入这个变量后，感兴趣系数的估计值发生相当大的变化，则回归中应当保留这个变量，于是需要修改基础设定形式。反之，应该从回归中去掉这些变量。•4）用表格形式概括结果。9遗漏变量不可观测时遗漏变量偏差的解决办法•法一：利用同一观测个体在不同时间点上的观测数据。•法二：利用工具变量。•法三：利用研究设计，即利用随机对照研究感兴趣的效应。102.回归函数形式的误设•函数形式误设是在估计出的回归函数泛函数与回归函数泛函数形式不同时产生的。若函数形式设定有误，则某个变量变化的偏效应估计估计量通常是有偏的。•函数形式误设往往可通过观察数据和回归函数估计图发现，并采用另一种不同的函数形式机型修正。113.变量有测量误差•由于自变量测量不精确使OLS估计量中含有变量的测量误差偏差。该偏差取决于测量误差的性质，且当样本容量较大时依然存在。如果测量变量等于真实值加上一个零均值、独立同分布的误差项，则一元回归的OLS估计量偏向于零，其概率公式为21122ˆ9.2pXXwσββσσ⎯⎯→+12假设总体回归方程Yi=β0+β1Xi+ui满足三个OLS基本假设。令Xi=X的无法度量的真值iX=X的非准确度量值313总体回归方程右侧加上β1iX，同时减去β1iX，Yi=β0+β1Xi+ui=β0+β1iX+[β1(Xi–iX)+ui]或者写为：Yi=β0+β1iX+iv,其中iv=β1(Xi–iX)+ui由于iX与iv相关，因此1ˆβ是有偏的。cov(iX,iv)=cov(iX,β1(Xi–iX)+ui)=β1cov(iX,Xi–iX)+cov(iX,ui)=β1[cov(iX,Xi)–var(iX)]+0≠0一般情况而言，cov(iX,Xi)≠var(iX).14变量的测量误差偏差的解决办法1.建立测量误差的数学模型，用得到的公式调整估计值。2.工具变量回归。154.样本选择偏差•当抽样过程影响数据的可得性且与因变量有关时就产生了样本选择偏差。样本选择偏差导致一个或多个回归变量与误差项相关，因此使OLS估计量有偏且非一致。•如：对流水线上的产品抽样,每隔95个产品抽5个样本.这个过程看似合理,但如果一共有20个操作人员,每个操作人员每次提交5个产品,依次进行.那么该所抽到的产品就永远是那个操作人员提交的.这样也就产生了养本选择偏差.165.双向因果关系偏差•除了X到Y的因果关系外，如果还存在Y到X的因果关系，则在Y对X的回归中产生了双向因果关系偏差，也称联立方程偏差，这一反向的因果关系使总体回归中的X和误差相关。•解决办法•利用工具变量回归。•随机对照试验。17双向因果关系的数学表达(a)X对Y的因果关系:Yi=β0+β1Xi+ui(b)Y对X的反向因果关系:Xi=γ0+γ1Yi+vi•ui大意味着Yi大，而这又意味着Xi较大（当γ10）•即corr(Xi,ui)≠0•因此1ˆβ是有偏和不一致。•例如：假定学生/教师比到测试成绩的因果关系，且政府主动对测试成绩差的学区雇佣教师给予资助，则因果关系是双向的。即低学生/教师比会带来高测试成绩，同时由于政府资助计划使低测试成绩导致了的学生/教师比。18OLS标准误差非一致的原因•标准误差计算不准确同样是内部有效性的威胁。当误差异方差时采用同方差适用标准误差是不正确的。如果变量在不同观测间不独立，如在面板数据和时间序列数据中，则需要对标准误差公式作进一步修正才能得到正确的标准误差。419利用回归进行预测时的内部和外部有效性•进行预测与估计因果效应有很大区别。•对预测而言：•2R大小具有相当重要的作用。•遗漏变量偏差不是一个问题。•预测时关心的重点不是对系数进行解释，而是关心模型是否能得到可靠的预测值。•回归模型被用于预测时，模型的外部有效性是很重要的，即指模型是稳定的，且数量上适用于待预测的场合。20实例：测试成绩和班级规模评估就California测试成绩数据进行的实证研究的内部有效性和外部有效性。•外部有效性•比较California的分析结果和Massachusetts的分析结果•其他…•内部有效性•前述五个方面的影响…21外部有效性检查比较对California进行的研究和对Massachusetts数据进行的研究Massachusetts数据•220个公立学区•测试成绩:1998MCAStest–fourthgradetotal(Math+English+Science)•变量:STR,TestScore,PctEL,LunchPct,Income22数据比较2324525结果比较•对数形式与STR的三次多项式比较？•TestScore-STR是否为非线性关系？•HiEL和STR间交互作用显著么？26班级规模减少2人时成绩预测利用Mass成绩与STR为线性关系模型预测:nTestScore=744.0–0.64STR–0.437PctEL–0.582LunchPct(21.3)(0.27)(0.303)(0.097)–3.07Income+0.164Income2–0.0022Income3(2.35)(0.085)(0.0010)•估计的效应=-0.64×(-2)=1.28•标准误差=2×0.27=0.54注意:var(aY)=a2var(Y);SE(a1ˆβ)=|a|SE(1ˆβ)•95%CI=1.28±1.96×0.54=(0.22,2.34)27利用非线性模型预测Usethe“before”and“after”method:nTestScore=655.5+12.4STR–0.680STR2+0.0115STR3–0.434PctEL–0.587LunchPct–3.48Income+0.174Income2–0.0023Income3假设班级学生人数由20人减少到18人：ΔnTestScore=[12.4×20–0.680×202+0.0115×203]–[12.4×18–0.680×182+0.0115×183]=1.98•比较：线性模型时效应为1.28.28关于Massachusetts的结论•加入反应学生和学区特征的变量后，STR的系数从–1.72降到–0.69，说明初始的估计中包括遗漏变量偏差。•加入其它控制变量后，班级规模的系数在5%显著水平下是显著的。•在5%显著水平下，学生/教师比与测试成绩为线性的原假设，在检验中不能被拒绝。•没有显著统计证据表明学生/教师比与学区内英语学习者百分率高低的二元变量间有交互作用。29班级规模效应比较30关于California和Massachusetts结论比较RegressionAnalyses•加入反映学生和学区特征的变量后，班级规模对成绩的效应都下降。•班级规模对成绩的影响都是统计上显著的。•班级减少2人时，估计效应相似。Estimatedeffectofa2-studentreductioninSTRisquantitativelysimilarforCA,MA.•均没有标明STR–PctEL间交互作用显著。•SomeevidenceofSTRnonlinearitiesinCAdata,butnotinMAdata.•一些证据表明CA存在非线性关系，而MA不是。631测试成绩与班级规模分析其他内部有效性威胁遗漏变量偏差？该分析控制了以下因素：•区位特征（与收入有关）•一些学生特征漏掉了什么因素么？•其他学生特征（例如学生天生能力）•外部的学习机会•教师的能力（低学生/教师比的学校对教师更加具有吸引力）。32遗漏变量偏差（续）•前述分析中已经控制了很多可能存在遗漏变量偏差的因素。•ThenatureofthisomittedvariablebiaswouldneedtobesimilarinCaliforniaandMassachusettstobeconsistentwiththeseresults;•Inthisapplicationwewillbeabletocomparetheseestimatesbasedonobservationaldatawithestimatesbasedonexperimentaldata–acheckofthismultipleregressionmethodology.332.Wrongfunctionalform?•Wehavetriedquiteafewdifferentfunctionalforms,inboththeCaliforniaandMass.data•Nonlineareffectsaremodest•Plausibly,thisisnotamajorthreatatthispoint.3.Errors-in-variablesbias?•STRisadistrict-widemeasure•Presumablythereissomemeasurementerror–studentswhotakethetestmightnothaveexperiencedthemeasuredSTRforthedistrict•Ideallywewouldlikedataonindividualstudents,bygradelevel.344.Selection?•Sampleisallelementarypublicschooldistricts(inCalifornia;inMass.)•noreasonthatselectionshouldbeaproblem.5.SimultaneousCausality?•Schoolfundingequalizationbasedontestscorescouldcausesimultaneouscausality.•ThiswasnotinplaceinCaliforniaorMass.duringthesesamples,sosimultaneouscausalitybiasisarguablynotimportant