DID的基本原理-倍差法

sharkyzy
4 ℃
2020-05-26

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

1Panel模型的DID(DifferenceinDifference)估计量在理想化的随机实验中，我们可以将某一处理随机分配（randomassignment）给某些单位而构成所谓的处理组（或称实验组），为了估计处理效应，可以直接比较被处理单位在处理前后的平均变化。但是，现实中的实验或者准实验，我们很难控制所有的条件保持不变；即使我们不对处理组进行任何处理，处理组在不同时期（指处理前后）也可能具有变化。因此，真正的处理效应估计应该是“处理组在处理前后的平均变化”减去“处理组在没有被处理时自身的平均变化”。如表1所示，处理效应等于110011iAiBiiAiBiEyyDEyyD(1)其中，1iD表示处理组；B表示“处理之前”，A表示“处理之后”，1表示实际上进行了处理，0表示没被处理。可以看到，处理效应是一种反事实效应（counterfactualeffect），因为需要考察处理组不被处理的情形：其一，对于处理前而言，01iBiByy；其二，对于处理后而言，我们只能观测到1iAy，而0iAy是不可观测的。表1：基于处理组（1iD）的处理效应处理组实际被处理处理组没被处理处理前11iBiEyD01iBiEyD处理后11iAiEyD01iAiEyD为了克服上述不可观测问题，我们可以引入对照组（或称控制组），此时基于处理组和对照组，可以方便地定义和计算处理效应，如表2所示110010iAiBiiAiBiEyyDEyyD(2)表2：基于处理组（1iD）和对照组（0iD）的处理效应处理组对照组处理前11iBiEyD00iBiEyD处理后11iAiEyD00iAiEyD2上述转换有一个关键假定，即没有处理时，处理组和对照组在“处理前”和“处理后”具有相同的平均变化：000010iAiBiiAiBiEyyDEyyD(3)那么，如何估计呢？上述“倍差法”思想给了我们直接的思路，用实验期间处理组中Y的样本平均变化，减去同一时期对照组中Y的样本平均变化，即：,,,,ˆDIDtreatmentaftertreatmentbeforecontrolaftercontrolbeforetreatmentcontrolYYYYYY(4)如果处理被随机地分配，那么ˆDID是处理效应的无偏且一致估计量（StockandWatson，2007）。上述倍差法估计量也可以通过一个面板回归模型进行估计，设模型为：12ititititititydTdT(5)上式中，ity为个体i在t时期的结果值，itd为组别虚拟变量，1itd表示个体i属于处理组，0itd表示个体i属于对照组；itT为时期虚拟变量，1itT表示实验期，0itT表示非实验期；ititdT表示交互作用。相应的结果值为：对照组（0itd）：201itititititTyT处理组（1itd）：11201itititititTyT3讨论1：通过图形直观理解倍差法思想从上图我们可以看到两个问题：第一，隐含着一个重要假定，在不存在处理的情形下，处理组和对照组都具有相同的趋势；处理导致了处理组的结果存在对共同趋势的偏离。第二，如果只是使用处理组的样本均值减去对照组的样本均值来估计处理效应，则不能去除初始水平的影响。讨论2：基于样本均值的估计和基于回归模型的估计有何异同？基于面板回归模型(5)，可以方便地得到DID估计量的估计值和标准误，因此可以进行统计显著性的判断。而且，回归模型可以进行多方面的扩展：第一，扩展至多期数据的分析。在一些实验中，个体被观测多个时期，而不止两期。例如，在一项工作培训计划中，个体的收入和就业状况可能按月度读被记录了一年或多年。此时，简单地以(4)式估计处理效应是不合适的。第二，可以引入控制变量。首先，如果处理是被随机地分配，则引入额外的回归元可以改善估计的有效性。其次，如果处理不是被随机分配的，尤其是以与控制变量有关的方式分配，而回归方程中遗漏这些控制变量，将导致DID估计量不再一致；引入这些控制变量，就能将处理中这些变量的影响作用去除掉。DID方法要求处理组与对照组除了待考察的处理因素外，其他方面应具有“相似性”，如果这一条件不满足，用DID方法估计的结果是有偏的，因此，对照组的选取是一个关键问题。结果时段,controlbeforeYAfterBefore,controlafterY,treatmentbeforeY,treatmentafterYˆDID4（1）马氏距离配对法（Mahalanobismatching）传统匹配是从对照组中选出与处理组特征相近的个体进行配对，常用的方法是马氏距离(Mahalanobisdistance)匹配，即用马氏距离来评价个体特征相近的程度。马氏距离配对法主要基于以下思想：对于1itid与0itjd，i和j之间距离为1tanijijijdisceUUCUU。其中，iU和jU分别是i和j的匹配变量值，C为对照组各匹配变量值的协方差矩阵。因此，对于处理组观测值i，只有那些具有最小tanijdisce值的一个或者几个对照组观测值被选为新的对照组。在进行马氏距离配对时，必须首先确定匹配变量的选取。（2）倾向得分匹配（propensityscorematching，PSM）PSM是在通过模型估计倾向得分后，从对照组中选出与处理组倾向得分相同或相近的个体进行配对。它首先建立一个回归模型，因变量是一个二值变量，取1为处理组，取0为非处理组，自变量是评判两组相似度的若干指标。对每一个体计算其参加处理组的概率，称pscore；再对每一个确定为处理组的个体i，从非处理组寻找与其pscore相同的匹配者j组成对照组。寻找方法包括临近配比（Nearestneighborsmatching）、半径配比（Radiusmatching）、核配比（Kernelmatching）等。1.临近配比：对于每一个处理组个体i，根据其倾向得分找到一个与其最为接近的对照组个体作为潜在结果的匹配，即满足()miniijjCppp的个体j可选为对照组，然后对每个处理组的处理效应进行加权平均。临近估计可能会重复使用一些对照组个体。在临近估计中，每一个处理个体都会找到一个对照个体，不会丢失处理个体数据信息，但是部分处理组个体的匹配效果可能会很差，因为找到的对照个体可能与处理个体有较大的差异。2.半径配比：对于预先设定的范围，如0.25p，满足ijpp的个体j可选为对照组，可按1-1选择，也可按1-n选择。半径配比是对每一个处理组个体，预先设定一个半径，将所有倾向得分落入该半径内的对照组个体的结果平均值作为该处理组个体的潜在结果的估计。半径越小，匹配的效果越好，但是有可能找不到对照个体进行匹配。3.核配比：核匹配使用所有对照组的个体结果的加权平均作为每一个处理组个体的匹配，对照组个体的倾向得分离处理个体的倾向得分越近，权重就越大。上述三种方法都可以用于Heckman的DID估计量：510110011ˆ(,)KIMiAiBjAjBiIjIyywijyyn(6)式中1n是参与处理组的个体数，1I和0I分别表示处理组（1itd）和对照组（0itd）。对于临近配比而言，由于是单点匹配，不存在加权的问题；对于半径匹配而言，权重均为1,Ciwijn，Cin表示由该方法所选出的与处理组个体i相匹配的对照组个体个数；对于核匹配而言，权重函数0,ijnkjkInppGwijppG，其中()G是核函数，如正态核；n是带宽参数(bandwidth)。值得注意的是，临近配比和半径配比也可用于确定Panel模型（5）的对照组。（3）Pstest为了检验匹配是否充分消除了处理组和对照组在实验之前的个体特征差异，可进行Pstest检验。包括：1.处理组和对照组的有关变量在匹配前后均值是否相等的检验；2.处理组和对照组的有关变量在匹配前后的标准偏误（standardizederror），由处理组和对照组的有关变量在匹配前后均值之差除以这两组样本方差平均值的平方根；3.处理组和对照组的有关变量在匹配前后的标准偏误减小的百分比。