第15部分案例研究:评估西南扶贫项目——具体问题乔晓春教授、博士生导师北京大学人口研究所目的•通过对西南项目评估的案例介绍,使人们了解评估的过程、方法、以及可能存在的问题。•这里只是思路的介绍,不讨论具体的方法和某些技术性细节。西南扶贫项目介绍•1993年7月开始准备;1994年通过评估;1995年7月开始实施•项目执行期为7年,2002年7月结束•项目总投资42.3亿元(4.864亿美元),其中世行贷款2.47亿美元•项目覆盖中国西南大石山地区的广西、云南、贵州三省(区)35个县、290个乡、1798个村的284万贫困人口,其中少数民族人口约占50%项目支出构成内容比例教育卫生农村基础设施土地与农户开发劳务输出乡镇企业机构建设项目管理与贫困监测8.605.3717.2443.059.7411.521.692.78总计100项目的预期投入和产出•项目投入——项目干预或建设内容包括教育、卫生、农村基础设施、土地与农户开发、劳务输出、乡镇企业、机构建设、项目管理与贫困监测以及广西城市就业开发共9个分项目•项目产出——项目总目标:–研究、探索和验证跨地区、跨行业、综合性扶贫项目的有效性–大幅度降低35个国定特困县的绝对贫困程度–促进贫困地区剩余劳动力健康、有序地向较为富裕的农村地区和快速发展的中等城市输出–强化扶贫机构,培养项目管理队伍,提高对扶贫项目的管理水平和对贫困程度的监测水平–通过土地的改良及水土保持工程,遏制贫困的石山地区环境的恶化状况–通过让农户在项目设计和执行过程中发挥决定性作用而鼓励当地公众的大力参与资料来源•西南扶贫项目现场考察背景材料(中文)•暗藏的作用?反贫困项目的事后评估(英文)(HiddenImpact?Ex-postEvaluationofAnti-PovertyProgram,byShaohuaChenandRavallion)对项目效益的评价(中文)食物安全人均粮食消费量(公斤)农民人均粮食消费量不足150公斤比例(%)1995年18918%2000年209.44.4%项目区提高比例(%)10.7%对照区提高比例(%)2.2%贫困指数变化(%)19952001贫困发生率31.512.9贫困强度指数1.231.04贫困深度指数5.83.019932000增长三省区贫困县377.481204.43826.95世行项目县351.191211.36860.17农民人均纯收入比较(元)总的结论•西南扶贫项目无论是在减缓项目区及其受益人群的贫困状况,还是在探索综合性扶贫模式方面都取得了极大的成功,基本实现了项目预期各项目标。•评估合理性:将项目区有关指标结果与非项目区进行比较•存在的问题:并没有区分项目区和非项目区的差异;没有区分干预和非干预的作用;没有得出仅仅由于干预引起的净效果一项评估研究的结果•利用普遍使用的方法进行评估发现:西南项目的作用是令人失望的。•项目开始时项目村有60%得人每天的消费支出不到1美元(贫困线);如果以此作为贫困线标准,项目执行了5年以后贫困比例下降了7个百分点。在这5年里非项目村的贫困比例下降了2个百分点;说明项目本身只导致了贫困比例下降了5个百分点。•人们认为这种情况完全是有可能的,因为世行项目只针对国定贫困县,而这些县在世行项目之前已经得到了国家和省的扶贫资助;国家和省很可能会减少对世行项目村的扶贫投入,而将这些投到非世行项目村去。这一结论是否合适?•需要考虑:–减贫的目标应该如何测量?–实现这个目标所产生的作用应该如何评价?•至少有以下几个问题需要考虑:–非项目村是否可以用来反映项目村在没有获得项目的情况。比如:一般来说项目村的基础设施条件比较差,它的收入增长率会慢于非项目村。–项目参与者在项目执行期间的某些行为会在一定程度上掩盖项目的真实作用。比如:在未来具有很大的不确定性时,穷人会把他们新增加的收入存起来,而不是消费掉。从而出现储蓄率上升的情况。这样用消费指标测量就会有问题。•下面用影响评估的方法来测量这些问题。为了比较项目村和具有可比性的非项目村消费和收入分布的变化,专门进行了调查。数据的收集•数据来源:国家统计局从1995年开始(基线)到2000年每年举行一次的农村家庭户调查。2000年调查涉及20个项目县、200个村的2000户家庭。这其中有113个项目村、87个非项目村。每个村随机抽取10个家庭户。•可比性上有一些问题:–由于统计局得到项目点的时间比较晚,1995年调查是在1995年12月进行的。要想得到1995年的收入变化情况,只能让被调查者进行回忆。从而可能会低估收入和消费。但这对利用村的特征进行配对是没有问题的。–95年以后的数据是根据农户家庭日常记录方法得到的,结果更准确。从而会导致对后来收入和消费的增长率出现高估(以95年作为基线)。–后来决定用1996年作为基线,但问题是这个基线已经受到项目的干扰,因为到1996年底项目花费已经达到23%。这样可能会低估项目的作用。•数据质量比较高:无论是抽样误差还是非抽样误差都比较小;每个家庭每天都有家庭收支的记录;每两周会有人到家里协助、检查和核对这些纪录。抽样框来自当地的户口登记记录。可比性问题•标准的difference-in-difference(DD)方法是需要比较干预组和对照组的变化。•这里存在两个问题:–对照组尽管不是世行的项目村,但这个村确是国家的项目县。这样干预组和对照组实际上都经过项目干预。–后来的变化与开始时的水平有关系,特别是两组样本可能在开始时就存在差异。评估方法•为了解决项目组和控制组之间可观察的异质性问题,必须使用能够控制初始差异的更为灵活的方法——propensity-scorematching(PSM)方法(RosenbaumandRubin1983).如果样本选取是无偏的话,这一方法会给出无偏的估计。•如果在基线调查时将干预组和对照组配对,然后再用DD方法会降低选择性差异。人们从非试验性评估中发现:将PSM和DD方法结合会降低(但不会杜绝)估计的偏差(Heckman,IchimuraandTodd1997;Heckmanetal.,1998)。结果1家庭年人均收入和消费年代指标项目村非项目村平均标准差平均标准差1996收入992.74713.471155.47603.45消费841.13468.63943.66444.381998收入1108.91603.271189.28680.96消费937.01541.27951.11497.812000收入1259.47913.701225.22669.92消费943.09579.151023.31696.10结果2•通过Probit回归发现:世行项目点更多集中在山区;更多是不通电地区;村里或附近很少有学校;但在村里和附近通常有诊所;人口较多;人均收入低;人均土地多;人口密度低。•总之,项目村要比项目县中的非项目村更穷。结果3配对的DD方法估计的结果项目村收益非项目村收益DD估计的年收益T-值收入266.7369.11197.624.77消费101.9678.4723.490.80储蓄164.77-9.36174.134.17•几乎所有的新增收入都进入储蓄,意味着存在消费滞后从上面分析中得出的结论•将项目村和配对的非项目村比较发现:项目村比非项目村的平均收入增长了10%——属于高回报的水平•累计新增收入的一半都被用于储蓄,从而导致项目对消费增加的作用不明显。这样就推翻了以往普遍认为的“穷人会很快把新的收益消费掉”的假说。•总之,选取评估指标不同、使用的评估方法不同,会得出完全不同的评估结论。启示1•如何将国外通用的方法与中国的具体国情相结合?•中国的国情是:–对照组同时又是另一个项目的干预组——另一个项目的收益可能比被评估项目的收益更大–很难找到纯粹的对照组——具有同样贫困程度的村或县都被纳入国定贫困或省定贫困县,多少都得到国家和当地的支持和优惠–多个项目可能同时在一个项目点执行——很难分解出各自项目的贡献或收益有多大•能否创造出适合中国国情的贫困项目评估方法?或能否从现有方法中明确,那些方法更加适合中国的国情,同时又易于应用和操作?启示2•评估指标的选取会影响评估结果。不能仅评估单一指标,应该多指标结合或对几个指标共同进行评估。•不能只依赖一种方法,要用不同的方法进行评估,因为任何方法都存在特定的假设。在使用某一方法时要考虑该方法的假定与它所应用的地区的具体情况是否有明显的违背。•谁来对评估结果进行“评估”?评估的最终结论不能仅由一个研究来作。•谁应该是评估者?第三方,但必须有当事双方的参与和配合。第三方必须经得起当事双方和另一个技术方的质询。启示3•评估是应该立足于当期效应还是应该包括未来效应?项目期内往往是积蓄能量的时期,能量的释放并不会很明显;我们甚至不应该期望有明显的释放;而能量的大幅度释放应该在项目期之后。•目前的评估都集中在对能量释放——项目收益的评估;对项目期内效益的评估是否可以针对能量的积蓄——能力建设进行评估?如何进行评估?项目执行期能量积蓄期能量释放期谢谢!