第三讲官方数据分析北京大学法学院白建军内容相关分析(P298-301)回归分析(P301-304)犯罪率研究(《中国社会科学》2010年第二期)司法公正研究(《公正底线》北京大学出版社2008年版)3-1相关因果一定相关,而相关不一定因果相关分为正相关和负相关相关系数:取值在-1到+1之间。相关系数为零只说明变量间不存在线性相关,而不能排除是否存在甚至是高度的曲线相关。两种相关皮尔逊(pearson)相关:测量两列定距变量之间线性相关方向和程度的方法。斯皮尔曼(spearman)等级相关:测量两列定序变量之间线性相关方向和程度的方法。例如:流动人口与犯罪3-2回归“回归”一词最早源于生物学。根据1078对父子身高的散布图发现,虽然身材高的父母比身材矮的父母倾向于有高的孩子,但平均而言,身材高大的,其子要矮一些,而身材矮小的,其子要高些。这种遗传上的身高趋于一般的现象称作回归。回归决定系数R2表示因变量的变化(Y)被自变量的变化(X)解释的部分。R2越接近于1,表示犯罪率(Y)被流动人口(X)解释的部分越多。R2越接近于0,表明流动人口对犯罪率的解释力越低。例如:入学成绩与毕业成绩的关系?如果前者100%地决定后者:与教育无关如果0%:与能力无关——一元线性回归问题随机抽取15名大学生,以课外学习时间为自变量X,考试成绩为因变量Y。回归分析的R2系数为0.569。意味着大约57%的学生成绩的变化可以由课外学习时间这个自变量的影响加以解释。课外学习时间越长,越可能取得好成绩。但课外学习时间尚不能完全解释考试成绩的变化,还另有其他因素对考试成绩起作用。相关与回归都不是确定性函数关系,但:上面三个图是回归系数即回归直线的陡度或者斜率相同而相关系数不同时的情形下面的的三个图则是相关系数相同而回归系数不同的情形相互不可替代,要交替使用多元线性回归分析multiplelinearregression用观察数据拟合所关注的变量和影响它变化的变量之间的关系,检验影响变量的显著程度和比较它们的作用大小,用多个变量的变化解释和预测另一个变量的变化。练习:因变量:血压自变量1:年龄自变量2:吸烟史自变量3:体型100×(体重/身高2)——变量层次、量纲都不同3-3犯罪率研究(《中国社会科学》2010第二期)从许霆案说起一般认为,犯罪率持续上升,应该导致刑罚资源投入的增加。20年来,中国犯罪率平均每年增长10%以上,超过了不少时期全国GDP的增长。与之相应,也应该引发或将引发刑罚力度的提升。但许霆案的最终处理表明,未必如此。于是引发假设:如果犯罪数量的增长“罪出有因”,刑罚资源的投入不仅不会机械地相应增长,反而会受到严格控制。——犯罪总数上升不等于严重程度上升——与宏观社会环境到底有无显著相关——“罪出有因”并不是必须从轻发落——大跨度时空大样本观察,也许能证实,也许什么也证实不了。研究的意义如果真的证实了罪因与罪行的高度正相关,以及罪行与刑罚的高度负相关,就要进一步回答,为什么会这样?这种不均衡背后,应该蕴含着更加深刻的均衡。结论可能丰富甚至改变关于犯罪与刑法本身的某些常规理解——为科学宏观决策提供事实依据。数据来源1.中华人民共和国国家统计局编、中国统计出版社出版的《中国统计年鉴》历年版本。2.全国31省市的“某某省统计年鉴”以及“某某省年鉴”,如《北京统计年鉴》或《北京年鉴》。3.中国法律年鉴社历年的《中国法律年鉴》。4.人民大学朱景文主编:《中国法律发展报告——数据库和指标体系》,中国人民大学出版社,2007年。5.最高法院示范性案例:(《中国案例指导》、《最高人民法院公报》、《人民法院案例选》、《中国审判案例要览》、《人民法院裁判文书选》、最高法院网站、《刑事审判参考》等。)一、犯罪率:1988—2007毛犯罪率:以轻罪与重罪的总和为犯罪数计算的犯罪率,反映犯罪现象的总规模重罪率:以重罪数为犯罪数计算的犯罪率,反映犯罪现象的质量被害率:以每十万潜在的被害人为基数计算的犯罪率加害率:以每十万达到刑事责任年龄的人口数为基数计算的犯罪率于是便有——毛被害率、毛加害率、重罪被害率、重罪加害率其中的犯罪数:以公安机关立案数计算的犯罪率以公安机关破案数计算的犯罪率以检察机关批捕数计算的犯罪率以检察机关提起公诉数计算的犯罪率以法院一审收案数计算的犯罪率以法院终审定罪数计算的犯罪率——为消减犯罪暗数的影响,前者最佳。生成四个犯罪率指标毛被害率:以总人口为基数以公安机关立案数为犯罪数计算的犯罪率。毛加害率:以15岁以上人口总数为基数以公安机关立案数为犯罪数计算的犯罪率。重罪被害率:以总人口为基数以法院判决5年以上有期徒刑、无期徒刑、死刑的人数为犯罪数计算的犯罪率。重罪加害率:以15岁以上人口数为基数以法院判决5年以上有期徒刑、无期徒刑、死刑的人数为犯罪数计算的犯罪率。犯罪率的中国数据(十万分比)年份毛被害率毛加害率重罪被害率重罪加害率198875.5105.810.414.51989177.3244.314.920.51990193.9271.218.826.3……………………………………………………2005355.5450.711.514.62006354.0434.011.714.32007363.9443.211.514.0犯罪率的中国数据(十万分比)050100150200250300350400450500年份19881989199019911992199319941995199619971998199920002001200220032004200520062007毛被害率毛加害率重罪被害率重罪加害率可见:全国犯罪率呈上升趋势,20年翻了4.8倍。不应一般地说犯罪问题趋于严重或者轻缓,仅根据毛犯罪率上升便加大刑罚力度,或者仅根据重罪率下降便放松犯罪控制,都可能误导刑罚适用的宽严导向。还要进一步回答:中国犯罪率为什么会上升?二、犯罪的社会归因同步论、代价论、反比论、无关论……人们到底因为穷而犯罪,还是因为富有而犯罪?如果盗贼生于贫困,则犯罪与经济发展之间就应当呈反比关系;反之,如果富可生贪,而贫却不能移志,则犯罪与经济发展之间就应当呈正比关系。检验策略时空数据相互验证:20年全国犯罪率与GDP等数据的相关与回归,同时,三个试点全国31省市犯罪率与GDP的相关与回归——只接受相互验证率较高的结论。多元分析:人均GDP,城镇人口率,人口密度,职工平均工资,城镇居民年人均收入,农村居民年人均收入,恩格尔系数,人口自然增长率,城乡消费水平比,人均卫生机构数,离婚率,刑法修订。与犯罪率相关的因素1988-2007年全国1998年各地区2003年各地区2007年各地区归纳人均GDP0.8250.8390.7080.764+城镇人口率0.4360.7210.4480.713+人口密度0.7940.6530.4760.626+职工平均工资0.8530.7630.5400.551+城镇居民年人均收入0.8310.7260.7670.842+农村居民年人均收入0.7900.8040.7580.834+农村家庭恩格尔系数-0.928-0.554-0.441-0.363+城乡收入比0.807-0.352-0.448-0.521?城乡消费水平比0.501-0.346-0.432-0.506?人口自然增长率-0.823-0.630…………-城镇家庭恩格尔系数-0.867………………-卫生机构数0.596………………-离婚数0.772………………-多元回归结果因变量R2R2adj最终有效变量1988-2007年全国毛被害率0.8620.853农村家庭恩格尔系数(Beta=-0.928)1988-2007年全国毛加害率0.8200.809农村家庭恩格尔系数(Beta=-0.906)1998年各地区毛被害率0.7050.694人均GDP(Beta=0.839)2003年各地区毛被害率0.5660.535人均GDP(Beta=1.093)、城市人口率(Beta=-0.462)2007年各地区毛被害率0.5840.570人均GDP(Beta=0.764)意味着:只有农村家庭恩格尔系数的影响显著,呈高度负相关——经济越发展,则恩格尔系数越低,则犯罪率随之越高;反之,则犯罪率越低。人均GDP越高的地区,犯罪率越高;人均GDP越低的地区,犯罪率相应地越低。横纵呼应:经济发展总量水平“横竖”都是犯罪率的最强解释。理论解释因噎废食?还是,替犯罪人分担一定道德责任?社会解组社会异常相对剥夺日本、瑞士等低犯罪率研究张小虎基尼系数研究:两极分化,社会责任。三、社会反应的非均衡性既然犯罪在一定意义上也应归因于社会,那么,社会是如何对此“负责”的呢?重刑率:以一审审结刑事案件数为基数,以法院判决5年以上有期徒刑、无期徒刑、死刑的人数为犯罪数计算的犯罪率。结果:20年来中国重刑率的年平均增长率为-2.1%,毛被害率与重刑率之间的相关系数为-0.836(p=0.000)。刑罚资源投入控制重刑率0102030405060年份19881989199019911992199319941995199619971998199920002001200220032004200520062007重刑率的拐点:1997一方面:97年前的十年,全国公安机关年平均刑事案件立案数为1714722件,而后十年年均立案数为3988818件,后者是前者的2.3倍;另一方面:97年前的十年,平均每年被判重刑的人数为194881人,而后十年中平均每年被判重刑的人数为157973人,两个均值的独立样本T检验结果为p<0.05一部法律能导致犯罪率升降?芝加哥大学教授Levitt的一项研究表明真正导致美国20世纪90年代青少年犯罪率降低的主要原因是,1973年罗伊威德法案出台后美国堕胎合法化对新生人口成长环境和平均人口素质的改善。作者用不同州、不同时期的数据,检验了新假说的多个意蕴,该文产生了很大的影响。97拐点:法官群体不约而同地控制刑罚资源的过量投入。641个示范性案例测量结果:抢劫罪刑量均值:20年有期徒刑与无期徒刑之间的刑罚,略低于该罪法定刑(10年有期徒刑到死刑)中线。盗窃:114个月有期徒刑,明显低于该罪加重构成法定刑(3年有期徒刑到死刑)中线。126个月有期徒刑,明显低于该罪加重构成法定刑(3年有期徒刑到死刑)中线。贪污受贿:5-10万档,相当于60个月有期徒刑,恰好位于5年有期徒刑到无期徒刑的法定刑底线;5千-5万元档,相当于24个月有期徒刑,大大低于1年到10年有期徒刑的法定刑中线。假设被证实刑罚资源的投入不完全取决于犯罪数量的消长,而与宏观犯罪原因有关。如果犯罪数量的增长是社会因素的结果,刑罚资源的投入不仅不会机械地相应增长,反而会受到严格控制。——犯罪率上升了——经济高速发展带来了相对剥夺——重刑率不升反降四、回到理论“罪为因,刑为果”才是常理为何却被证否,“非均衡”假设被证实?首先,犯罪是按照一定主观图式组织建构起来的事实,而不是纯客观自在的对象。法理、制度、证据规则、风俗习惯、网络民意、政策、传统、法学教育、律师市场,通过能动的筛选、分类、排序、赋予意义,组织建构了犯罪。第二,犯罪的主观图式变了,犯罪率的内在结构也随之改变。原来,人们相信犯罪是意志自由的结果。主观图式的变化趋势:神学预定论到自由意志论再到决定论(社会责任论)刑量之所以没有水涨船高,是因为人们注意到犯罪率上升背后的社会经济原因。越是不可避免地受某种外部因素的影响,犯罪就越可能得到理解甚至同情。第三,罪升刑降,理性吗?刑的收缩会不会使犯罪变本加厉?罪行、罪人、互动——法的中立性。宏观上积极能动地平衡犯罪与社会之间冲突,是刑法中立性的必然要求。仅仅根据犯罪率上升便加大刑罚力度,反而会加剧犯罪与社会之间的紧张关系。这里的不均衡彰显了