2013年12月深圳市社会工作委员会专职副主任陈东平2一、大数据的背景3什么是大数据大数据(BigData)是指那些大小已经超出了传统意义上的尺度,一般的软件工具难以捕捉、存储、管理和分析的数据。“大数据”的意义不仅在于其“容量之大”,更多意义在于人类可以“分析和使用”的数据在大量增加,通过数据的交换、整合和分析,可以发现新的知识,创造新的价值,带来“大知识”、“大科技”和“大发展”。数据爆炸全球数据从数量、速度、多样性三个维度,呈现爆炸性增长。4大数据时代的要求1拍=100万G,相当于100万部电影的大小人口中国美国互联网用户手机用户2010年新增数据量中国美国中国美国中国美国250拍3500拍13.7亿3亿4.8亿2.4亿9.5亿3亿中国人口是美国的4.56倍,互联网用户是美国的2倍,手机用户是美国的3倍,但新增数据量却只是美国的7%、欧洲的12%、日本的62%。收集数据、使用数据、开放数据5当今世界的大数据浪潮与互联网的发明一样,大数据浪潮绝不仅是信息技术领域的革命,更是在全球范围启动透明政府、加速企业创新、引领社会变革的利器。抢占“大数据”这个前沿,无异于抢占了下一个时代的“石油”和“金矿”。数据30是个数据信息一个单身公寓的面积是30平米赋予背景知识我国的人均居住面积是30平米提炼规律数据数据价值数据规模知识信息6美国纽约治安管理的应用案例地图墙:跟踪劫案发生的时间、地点,分析其原因和规律。电子化将每天发生的各种罪案录入CompStat系统,进行加总和分析,形成“可预测未来的图表”纽约是美国人口数量最多、密度最大、多元化程度最高的城市。70年代起,黑帮横行、毒品泛滥,治安不断恶化。1994年,纽约警察局梅普尔组织开发了一个以地图为基础的统计分析系统,治安开始逐年好转,应用第一年凶杀案就减少24%,到2009年凶杀案减少了70%,使纽约跻身全美最安全的大城市行列,CompStat系统名扬全球。7沃尔玛的啤酒和尿布的故事数据挖掘的经典案例:沃尔玛啤酒和尿布的故事沃尔玛通过对大量的销售数据进行数据挖掘,发现一些年轻的爸爸经常要去超市购买婴儿尿布,有30%到40%的新爸爸会顺便买点啤酒犒劳自己。沃尔玛随后对啤酒和尿布捆绑进行销售,不出意料,销售量双双增加。8数据应用的4个阶段数据库存储、查询数据,造成信息孤岛、信息壁垒。“巧妇难为无米之炊”数据仓库将各个不同系统的数据,按统一定义的格式提取出来,通过清洗、转换、集成,最后百流归海。数据挖掘对海量的数据进行分析和建模,发现数据之间隐藏的关系、模式和趋势,为决策者提供依据。有了数据仓库的依托,数据挖掘犹如“巧妇”走进了“米仓”。数据可视化把复杂的数据之间的关系和发展趋势,用更为直观的图形、地图、动画等方式,呈现给最普通的用户,让数据成为贴近大众生活、浅显易懂、人皆可用的工具和手段星期天星期一星期二星期三星期四星期五星期六总计0:00-3:001072316270328422525102439573:00-6:0063524522125927633761425876:00-9:0032445138840042842937827989:00-12:00392420409373395452493293412:00-15:00559572542493524622669398115:00-18:00700687677663659767791494418:00-21:00768627594628680807884498821:00-24:005234484845405928928804359时间不明31313040283653249总计5004379736153724400448675786307979让数据说话—数据挖掘案例01000200030004000500060000:00-3:003:00-6:006:00-9:009:00-12:0012:00-15:0015:00-18:0018:00-21:0021:00-24:00挖掘1:每天的18:00-21:00是交通事故的高发时段,18:00-21:00也是人们驾车出行最活跃的时段。每天各时间段致命交通事故数据分析0100020003000400050006000星期天星期一星期二星期三星期四星期五星期六星期天星期一星期二星期三星期四星期五星期六挖掘2:就单天来看,黑色星期六为单天死亡数之冠,其次是星期天。一周事故数比对020040060080010001200星期天星期一星期二星期三星期四星期五星期六一周时间段发生事故数据比对挖掘3:从一周的时间段来看,星期天的午夜零点至三点,是致命时段,其次是星期六的同一时段星期天星期一星期二星期三星期四星期五星期六总计0:00-3:001072316270328422525102439573:00-6:0063524522125927633761425876:00-9:0032445138840042842937827989:00-12:00392420409373395452493293412:00-15:00559572542493524622669398115:00-18:00700687677663659767791494418:00-21:00768627594628680807884498821:00-24:005234484845405928928804359时间不明31313040283653249总计5004379736153724400448675786307972009年致命交通事故按星期和时间对比挖掘结论:每天晚上18点到21点一般是晚餐结束时间,周末凌晨0点到3点是泡吧结束时间,许多人容易酒驾导致致命交通事故发生。交警部门有针对性地在这两个时间段开展查酒驾行动,可以有效预防事故的发生,达到事半功倍的效果。910基础信息资源库对海量的数据进行分析和建模,发现数据之间隐藏的关系、模式和趋势,为决策者提供依据。数据可视化以电子地图为基础,直观展示人口、法人、房屋(城市部件)等公共基础信息及事件情况,为各级各部门科学决策提供数据支撑和依据。专题应用分析服务统计服务查询服务让数据说话--数据可视化111850年代的克里米亚战争期间,现代护理业之母--南丁格尔根据战场死亡情况的统计进行数据可视化的探索,自行设计了历史上第一份“极区图”,清晰地反映了“战斗死亡”和“非战斗死亡”两种原因死亡人数的悬殊对比,强烈的视觉效果引起了英国社会的极大反响,直接促成了英国政府出台建立野战医院的决定。图形说明:12个扇形代表12个月份,内环蓝色代表战斗死亡的人数,外环红色代表非战斗死亡的人数,也就是可以预防、改善医疗卫生的原因一份图表催生了一座医院,改变了一个制度让数据说话--数据可视化案例UGC【用户产生信息】数据让数据说话--数据可视化案例通过媒体、网络等渠道,在地图上呈现发布信息用户的分布状态,以及查看上传文件。城市人群的即时定位窗口让数据说话--数据可视化案例我们通过网络搜索分析人们在公众媒体上传的信息,根据信息分类直观展示不同人群的地理分布位置。LiveStreams让数据说话--数据可视化案例关系可视化将人与人、人与房、人与法人之间的关系进行可视化呈现。15民间首个公共数据开放网站,主要是国会立法法案数据库2004国际上成立了“开放政府联盟”,先后有31个国家/地区建立了公共数据的开放网站(包括香港、新加坡、韩国)2011数据开放是世界的潮流和趋势政府主导,向全社会开放的公共数据,成为社会创新的一个平台。美国data.gov网站中25%的数据分析工具由社会力量自发开发,并得到广泛应用。例如航班延误分析系统、商品召回手机查询系统等。数据开放是世界的潮流和趋势,我们要做的第一步是政府间数据的共建共享!美国政府建立数据开放门户网站Data.Gov,全面开放政府所拥有的公共数据,一年后,开放数据总数达到27万项200916二、政务信息共享的思考17人社局社保征收窗口首次参保时,核验身份证、户口本市就业中心窗口出具失业证职称办出具职称资格证书劳动鉴定办出具完全丧失劳动能力鉴定结论证明办理申领养老金手续养老窗口申领养老金时,再次核验身份证、户口本失业人员高级职称病残人员归侨人员市侨务机构出具归侨证明同属人社系统同属社保局的业务两次核验问题1:政府内部复杂的工作流程18问题2:居民繁琐的办事流程王蛟龙1、学历证书及验证证明;2、专业技术资格证书、职业资格证书、职业(执业)资格证书;3、投资纳税引进人员材料;4、深圳市房地产权利证书;5、近五年内(2009-2013年)在深圳市献血的证明;6、本人户口簿及身份证;7、随迁子女证明材料;8、婚姻及计划生育证明材料;……以下是来深建设者王蛟龙在今年市人大会议上提出的亲身经历:办理积分入户需要的材料?19学校王蛟龙2012年8月开始办理各种证件各类证明深圳市人才交流服务中心学历认证深圳市房管局房地产权利证书鹏元征信有限公司个人信用报告北大医院体检报告7天5天1天14天王蛟龙计划生育证明未婚证明需要回老家河南办理只能“违规”托亲戚办理官方指定代理机构之一市职业介绍中心光明新区房产局14天落户落户花了近3个月2012年11月收到入户通知20多天户口迁移换新身份证王蛟龙一个多月这些机构都只在工作日办公,每办一个证明都得请假跑2趟以上提交资料和领取证明,前后请假20多次。王蛟龙经过100多天的“西天取经”,终于成为了“深圳人”……问题2:居民繁琐的办事流程问题3:部门间信息壁垒严重出租屋管理市级区级街道社区社区服务热线民政系统……………安全生产社区管理社区计生条条下发独立软件,基层工作负担重,数据不共享缺乏整体规划,资源难以共享。最初,信息化系统很简单然而,一段时间以后然后,我们会有更多的信息需求SOURCE:WilliamH.Inmon我们的系统在不断膨胀,直到像一个蜘蛛网21问题3:部门间信息壁垒严重卫生监督工作公安局出租屋管理办市场监管局环保局国土局人口信息行政区划信息环保信息餐饮企业、食品生产企业信息房屋租赁或房户信息问题3:部门间信息壁垒严重示例1需要收集的信息信息获取部门计生管理工作人口出生、死亡信息在园幼儿园、小学入学学生信息少儿医保、消费生育保险对象信息流动人口信息结婚、离婚、收养、殡葬信息问题3:部门间信息壁垒严重示例2需要收集的信息公安局民政局出租屋管理办社保局教育局信息获取部门0.00%10.00%20.00%30.00%40.00%50.00%60.00%70.00%80.00%90.00%100.00%190019501978201224中国英美法等国我国城镇化速度之快是世界前所未有的33.5%城镇化程度17%52%20%70%25流动人口数流动人口占总人口百分比流动人口增加情况3.95%0.5亿人11.28%1.5亿人17.43%2.36亿人0.00%2.00%4.00%6.00%8.00%10.00%12.00%14.00%16.00%18.00%20.00%199520052012问题5:严重倒挂的人口带来的城市压力深圳经过30多年的快速工业化、城市化,土地、资源、人口、环境等问题和矛盾日益突出,严重倒挂的人口和迅速膨胀的城市,给公共服务带来沉重压力。2631.2668.64124.92304.940.11599.13576.321328.8631.375167.77701.241633.80200400600800100012001400160018001979年1990年2000年2013年深圳市历年人口增长趋势图户籍人口流动人口实有人口单位:万人2727公共教育劳动就业社会保险社会服务医疗卫生人口计生住房保障文化体育残疾人服务基本公共服务配置服务对象在哪里?老百姓有什么需求?服务对象的需求在哪里?政府办事流程合理吗?28各部门都有数据采集的队伍,部分信息重复采集反复扰民,就像盲人摸象多头采集导致信息失真。问题6:多头采集导致信息失真二、“织网工程”探索2930聚民智惠民生借民力稳民心保民安