1©陈强,《高级计量经济学及Stata应用》课件,第二版,2014年,高等教育出版社。第28章处理效应28.1处理效应与选择难题经济学中常希望评估某项目或政策实施后的效应,比如政府推出的就业培训项目(jobtrainingprogram)。此类研究称为“项目效应评估”(programevaluation),而项目效应也称为“处理效应”(treatmenteffect)。2项目参与者的全体构成“实验组”或“处理组”(treatmentgroup,或thetreated),而未参与项目者则构成“控制组”(controlgroup)或“对照组”(comparisongroup)。考虑就业培训的处理效应评估。一个天真的做法是直接对比实验组与控制组的未来收入或就业状况。但参加就业培训者的未来收入比未参加者通常更低。难道就业培训反而有害?是否参加培训是参加者自我选择(selfselection)的结果,岗位好收入高的人群不需要参加培训,而参加者多为失业或低收入者。3由于实验组与对照组成员初始条件不相同,故存在“选择偏差”(selectionbias)。即使实验组的未来收入低于对照组,我们真正感兴趣的问题是,实验组的未来收入是否会比这些人如果未参加培训项目的(假想)未来收入更高。Rubin(1974)提出了以下“反事实框架”(acounterfactualframework),称为“鲁宾因果模型”(RubinCausalModel)。以虚拟变量0,1iD表示个体i是否参与此项目,即1为参与,而0为未参与。称iD为“处理变量”(treatmentvariable)。4记其未来收入或感兴趣的结果(outcomeofinterest)为iy。对于个体i,未来收入iy可能有两种状态,取决于是否参加项目:101=0若若iiiiiyDyyD0iy表示个体i未参加项目的未来收入,1iy表示个体i参加项目的未来收入。想知道10()iiyy,即个体i参加项目的因果效应。5如果个体i参加项目,可观测到1iy,但看不到0iy;反之,如果个体i未参加项目,可观测到0iy,但看不到1iy。个体只能处于一种状态,故只能观测到0iy或1iy,而无法同时观测到0iy与1iy,是一种“数据缺失”(missingdata)问题。可将iy写为01010(1)()处理效应iiiiiiiiiyDyDyyyyD其中,10()iiyy为个体i参加项目的处理效应。6不同个体的处理效应不同,故将01(,,)iiiyyD视为来自三维随机向量01(,,)yyD总体的一个随机抽样。假设样本为iid,即对于任何ij,01(,,)iiiyyD的概率分布与01(,,)jjjyyD相同,且相互独立。这意味着不存在溢出效应,此假定称为“个体处理效应稳定假设”(StableUnitTreatmentValueAssumption,简记SUTVA)。7由于处理效应10()iiyy为随机变量,称其期望值为“平均处理效应”(AverageTreatmentEffect,简记ATE):10ATEE()iiyyATE表示从总体中随机抽取某个体的期望处理效应,无论该个体是否参与项目。如果仅考虑项目参加者的平均处理效应,称为“参与者平均处理效应”(AverageTreatmentEffectontheTreated,简记ATT或ATET)或“参与者处理效应”(TreatmentEffectontheTreated,简记TOT):10ATTE(|1)iiiyyD8对于政策制定者,ATT可能更为重要。ATE与ATT一般不相等。不能同时观测0iy与1iy,应如何估计ATE或ATT?简单地比较项目参与者与未参与者的收入,将导致选择偏差:101000E(|1)E(|0)E(|1)E(|1)E(|1)E(|0)参与者与未参与者的平均差异选择偏差iiiiiiiiATTiiiiyDyDyDyDyDyD上式第一项为ATT,而第二项为参与者的平均0iy与未参与者的平均0iy之差,即选择偏差。9由于低收入者通常更倾向于选择参加培训项目,故选择偏差一般为负,导致实验组与控制组的收入之差(即10E(|1)E(|0)iiiiyDyD)低估参与者平均处理效应(ATT)。如果选择偏差的绝对值足够大,则可能导致10E(|1)E(|0)0iiiiyDyD,出现参加培训者的收入反而低于未参加者的情形。定义“非参与者平均处理效应”(AverageTreatmentEffectontheUntreated,简记ATU)为10ATUE(|0)iiiyyD10由于个体根据参加项目的预期收益10E()iiyy而自我选择是否参加项目,导致对处理效应的估计困难,称为“选择难题”(theselectionproblem)。28.2通过随机分组解决选择难题解决选择难题的方法之一是随机分组,使得个体i的iD(是否参加项目)通过抛硬币或电脑随机数而决定,则iD独立于01(,)iiyy。此时,ATE=ATT,因为1010E(|1)E()iiiiiyyDyy(由于10()iiyy独立于iD)。11对于ATE的估计,只要比较实验组与控制组的平均收入即可:1010E(|1)E(|0)E()E()ATEATTiiiiiiyDyDyy因为iD独立于01(,)iiyy。在随机分组的情况下,只需要计算样本中实验组与控制组的平均收入之差,即可一致地估计平均处理效应,即“差额估计量”(differencesestimator)。上述结果在更弱的均值独立(meanindependence)条件下也成立,即只要01,iiyy都均值独立于iD。12如果只关心ATT,则只需要0iy均值独立于iD即可,因为选择偏差00E(|1)E(|0)iiiiyDyD为0。如果只有观测数据,很可能不满足“0iy均值独立于iD”的假设。可使用以下两类方法。第一类方法假设个体依可测变量选择是否参加项目(第3-7节)。第二类方法假设个体依不可测变量选择(第8节)。1328.3依可测变量选择除(,)iiyD外,通常还可观测到个体i的一些特征,比如年龄、性别、培训前收入,记为向量ix,也称为“协变量”(covariates)。总体可由01(,,,)yyDx来表示。如果个体i对iD的选择完全取决于可观测的ix,称为“依可测变量选择”(selectiononobservables),则可以找到估计处理效应的合适方法(即使没有合适的工具变量)。如果个体对iD的选择完全取决于ix,则在给定ix的情况下,潜在结果01(,)iiyy将独立于iD。14RosenbaumandRubin(1983)提出“可忽略性”假设:假定28.1可忽略性(Ignorability)。给定ix,则01(,)iiyy独立于iD,记为01(,)|iiiiyyDx,其中“”表示相互独立。“可忽略性”的含义是,给定ix,则01(,)iiyy对于iD的影响可以忽略。可忽略性也称为“无混淆性”(unconfoundedness),“条件独立假定”(ConditionalIndependenceAssumption,简记CIA),或“依可测变量选择”(selectiononobservables)。15此假定意味着,给定ix,则01(,)iiyy在处理组与控制组的分布完全一样,即0101(,|,1)(,|,0)iiiiiiiiFyyDFyyDxx()F为分布函数。在很多情况下,只需更弱的均值独立假定。假定28.2均值可忽略性(IgnorabilityinMean)。00E(|,)E(|)iiiiiyDyxx,而且11E(|,)E(|)iiiiiyDyxx。这意味着,在给定ix的情况下,0iy与1iy都均值独立于iD。如果可忽略性假定成立,则原则上可将ix直接作为控制变量引入以下回归方程,以解决遗漏变量问题:16iiiiyDxβ但不清楚ix是否应以线性形式进入上述方程。如果遗漏非线性项,仍可能存在遗漏变量偏差。解决方法之一为基于鲁宾反事实框架的匹配估计量。从此方程可看出,可忽略性是很强的假定;它意味着回归方程已包括了所有相关变量,不存在任何与解释变量相关的遗漏变量。如果ix中已包含较丰富的协变量(arichsetofcovariates),可认为可忽略性假定基本得到满足,遗漏变量偏差较小。1728.4匹配估计量的思想假设个体i属于处理组,匹配估计量的基本思路是,找到属于控制组的某个体j,使得个体j与个体i的可测变量取值尽可能相似(匹配),即ijxx。基于可忽略性假设,则个体i与个体j进入处理组的概率相近,具有可比性;故可将jy作为0iy的估计量,即0ˆijyy。可将0ˆ()iiijyyyy作为对个体i处理效应的度量。对处理组中的每位个体都如此进行匹配;类似地,对控制组每位个体也进行匹配,然后对每位个体的处理效应进行平均,即可得到“匹配估计量”(matchingestimators)。18由于匹配的具体方法不同,故存在不同的匹配估计量。首先,是否放回;如果不放回(noreplacement),则每次都将匹配成功的个体(,)ij从样本中去掉;如果有放回,则将匹配成功个体留在样本中,参与其余匹配。其次,是否允许并列(ties),比如控制组个体j与k的可测变量都与处理组个体i一样接近。如果允许并列,则将jy与ky的平均值作为0iy的估计量,即0ˆ()/2ijkyyy。如果不允许并列,则电脑程序将根据数据排序选择个体j或k;匹配结果可能与数据排序有关,故建议先将样本随机排序。19以上为一对一(one-to-one)匹配,也可以进行一对多匹配,比如一对四匹配,即针对每位个体寻找四位不同组的最近个体匹配。匹配估计量一般存在偏差(bias),除非在“精确匹配”(exactmatching)的情况下,即对于所有匹配都有ijxx。更常见的为“非精确匹配”(inexactmatching),只能保证ijxx。在非精确匹配的情况下,如进行一对一匹配,则偏差较小,但方差较大;进行一对多匹配可降低方差(使用了更多信息),但偏差增大(使用了更远的信息)。Abadieetal(2004)建议进行一对四匹配,以最小化均方误差。20例假设样本容量为7,其中包括3位控制组个体与4位处理组个体。同时假设ix仅包含一个变量ix。进行有放回的一对一匹配,且允许并列。表28.1匹配估计量的简单例子iiDixiy匹配结果0ˆiy1ˆiy1027{5}782048{4,6}87.53056{4,6}67.54139{1,2}7.595128{1}786136{1,2}7.567115{1}752128.5倾向得分匹配ix可能包括多个变量。如直接用ix进行匹配,可能遇到数据稀疏的问题,很难找到与ix相近的jx。可使用某函数()ifx,将K维向量ix的信息压缩到一维,根据()ifx进行匹配。定义ix与jx之间的“马氏距离”(Mahalanobisdistance)为1ˆ(,)()()ijijdijXxxΣxx其中,二次型矩阵1ˆXΣ为x的样本协方差矩阵之逆矩阵。22使用马氏距离进行匹配,称为“马氏匹配”(Mahalanobismatching)。马氏匹配的缺点是,如果x包括的变量较多或样本容量不够大,则不易找到好的匹配。RosenbaumandRubin(1983)提出使用“倾向得分”(propensityscore,简记p-score)来度量距离。定义个体i的倾向得分为,在给定ix的情况下,个体i进入处理组的条件概率,即()P(1|)iiipDxxx,或简记()px。在估计()px时,可使用参数估计(probit或logit)或非参数估计,最流行的方法为logit。23使用倾向得分度量个体间距离,它不仅是一维变量,而且取值介于0,1之间。即使