北京市政务大数据平台顶层设计框架及应用方案一、大数据在政务领域应用的概述说起大数据技术的应用,首先是在互联网行业起步并逐步拓展到电信、金融、工业等多个领域,产生了巨大的社会价值和产业空间,现正拓展到政务领域。(一)大数据技术在互联网行业的成功应用,那些地方是值得我们关注的第一,应该是思维观念和运作方式的变化,所谓的互联网思维,其核心理念包括:体外互动:邮件、电话、信件互动---服务导引服务外包:购买服务---简单服务让渡社会:众包---自助服务边界开放:数据开放---创造服务第二,是其技术演进,针对数据处理的技术首先是传统数据分析处理阶段,该阶段是面向结构化数据,非结构化处理效率低;硬件成本高;平台兼容性差。其次是基于云计算的大数据处理阶段,该阶段总体有了很大的改进和提升,主要体现在:具备结构化/非结构化混合分析的能力;基于消费级硬件,不依赖高性能、高可靠性硬件,从而保障系统性能和可靠性;平台兼容性好、扩展性高;进而业界又提出去IOE的思路。第三,是数据挖掘分析技术画像技术以及各类数据融合、分析、挖掘、预测等。这些都是政务领域需要学习与借鉴的。为此,我认为:大数据在政务领域应用即包括用新的思维、模式与技术来解决电子政务需求,也包括了政务大数据新的应用。对于第一个方面比较容易理解,对于第二个方面需要对政务大数据给出定义。有些人认为政府没有大数据,只有传统的小数据或中数据。这个问题我们将在下一节专门中进行讨论。政务领域是大数据应用崭新的领域,它将极大的改变政府的管理模式,有利于节约政府投资、提高政府决策能力、提升公共服务和社会管理能力,开展大数据在政务领域的应用是大势所趋,势在必行。同时,政务大数据本身也不同于其他领域或行业的数据,其复杂程度和需求的多样化比互联网行业大的多,也难的多。(二)政务大数据的定义及特点按照政府管理的数据来源和种类,可以分为下三类:第一类业务数据:业务办理过程中采集和产生的数据。第二类民意社情数据:对社会企业个人对象进行统计调查获得的数据。第三类环境数据:通过物理设备采集获得的气象、环境、影像等数据。在以前的电子政务建设阶段,政务信息资源开发利用更多的是集中在前两种类型和结构化数据上,而对第三类数据,特别是实时的、非结构化、半结构化数据的开发利用相对较少。随着政府业务在互联网、移动互联网、物联网等领域广泛和深入的应用,第三类数据的数据量和价值都在迅速增长,相关数据处理技术也逐步成熟。便于区别不妨把包含第三类数据的政务信息资源叫做是政务大数据。政务大数据与其他领域大数据相比具有鲜明的特点:体积大,增速高:涵盖经济社会管理的方方面面,数据积累量巨大。每年处理的数据呈指数级增长。种类多,价值大:以宏观经济基础数据为例:涵盖经济、社会、医疗、环境、工农业、教育、旅游等社会关键领域数据,具有极为重要的社会和经济价值。垄断性,难获得:政府部门及公共企事业单位采集数据有些是专营的业务,一般企业是采不到,也买不到。通过以上可以看出,政务大数据同传统数据相比,不仅包括结构化数据,更包括大量非结构化数据,且具有数据量大、应用价值大、速度快、种类繁多等特点。我们要高度重视大数据应用对政务工作正在带来和将要带来的各种影响,充分认识推进大数据应用的必要性和紧迫性,加强顶层设计,分专业分步骤实施。开展政务领域的大数据应用首先是观念、思路的转变,转变电子政务建设主体,由政府营造创新发展环境,引导企业为主体开展电子政务建设,同时,我们政府也需要在实际工作中给予支持和指导,一方面采用给予适当的政府补贴和协助优秀电子政务解决方案的推广应用等方式,帮助初创企业快速成长;另外,在社会服务领域,政府退到后台,提供数据和基础服务,让企业直接面向社会提供贴近需求的服务。大数据在政务领域的应用可以涉及到政务领域方方面面,今天因为时间有限,就领导决策、社会管理、公共服务等几个方面做简单说明。领导决策大数据的包容性将打开政府各部门间、政府与公众间的边界,信息孤岛现象大幅消减,数据共享开放成为可能,而数据开放使得公众更多的参与决策,这势必直接影响组织怎样作决策、谁来决策,甚至将改变决策过程和结果,同样会带来如下本质的改变:直觉的判断被迫让位于精准的数据分析,人类必须依靠数据作决策,甚至将决策权完全交给数据。公众多途径参与,必将深入影响政府决策。社会管理政府数据与互联网数据相结合,分析艾滋病。公共服务通过对政府面向市民的互动数据的分析,为市民提供更精细化和个性化的服务,如对政府呼叫中心海量非结构化的语音数据、服务过程和服务问题的分析处理,深度挖掘客服语音数据价值,可以更好的支撑服务和营销,进一步改进政务呼叫中心工作。另外通过大数据搜集和分析民众关心的问题,包括舆情、口碑等。为市民提供更好的服务。二、政务大数据应用基础和前提开展政务大数据应用,需要具备哪些基础工作和必备条件。在政务领域开展大数据应用并不是从零开始,我们各级政府开展电子政务工作已经多年,在很多领域都做了很多工作,为政务大数据应用奠定坚实的基础,归纳起来有以下几个方面:在信息资源管理的规章、制度、标准方面,国家和北京市政府相应制定并出台一系列规章制度,如《关于加强信息资源开发利用工作的若干意见》(中办发[2004]34号、《中华人民共和国政府信息公开条例》(国务院令第492号,2007)、《关于加强政务信息资源管理的若干意见》(京信发[2009]2号)、《北京市信息化促进条例》(2007),第三章为信息资源开发利用、《政务信息资源共享交换平台管理办法》(京信办发[2008]13号)等。强化政务信息资源管理的基础工作,如为加强电子政务基础工作,2006年市信息办发布《关于加强部门电子政务基础工作的通知》,要求全市各部门按照“四清两统一”要求,做好业务、服务和信息资源梳理与目录编制工作等基础工作。信息资源基础建设设施方面,包括建立了完善的市共享交换平台、物联网应用支撑平台、移动管理平台、政务云、四大基础库、各类重要信息系统及信息资源库350余等基础设施及核心业务信息方面工作。这些工作为开展政务领域大数据应用奠定坚实的基础。三、北京市市级大数据平台顶层设计框架大数据在政务领域应用,区别于以往重要一点是:更加强调的事政务大数据的开放和共享,一是委办局之间政务数据资源的共享,二是面向社会公众开放政务数据资源。政府部门及相关公共企事业不但要尽可能地开放数据资源,还要以购买服务或资源换投资等方式引入政务应用与服务,发挥社会与市场的力量改善政府服务能力。政府数据的开放共享是大数据在政务领域应用的条件或前提。一些单位,如北京、上海分别建立了专门的网站,汇集各政府部门可开放的、有经济和社会利用价值的数据资源,为社会企业或个人服务开发者提供各类实时与非实时数据的下载和服务,目前已经取得了一些的成效,并举办了推广活动。如北京市政务数据资源网,成功举办了“2014年北京市政务数据资源网应用创意大赛”,得到了社会公众广泛的关注,也涌现出了“晒公益平台”、“优质幼儿园、中小学招生地图”、“掌上交通综合信息服务”等一批优质服务产品。作为北京来说我们已经有了共享交换平台、物联网平台还有政府数据开放网站等重要的信息化基础设施,为什么还需要重新规划一个市级的大数据平台?它与现有的这些平台和系统是什么关系?与各委办局的大数据应用系统又是什么关系?这是由他的功能定位来确定的。这个平台不同于以往的共享交换平台,强调的是数据的融合、使用、落地。有些数据比如涉及政府内部数据如人口数据、医保数据等是买不到的。还有视频数据不是可以随便安摄像头采集的。还强调了对现有平台、系统及数据资源的调度管理。(一)平台定位及与其他系统关系与委办局大数据应用系统关系:首先,各委办局或区县可以按照自身业务需要建设大数据系统,也可以为市级大数据平台提供部分数据,并可以从市级政务大数据平台获取各类大数据资源。其次,各专项大数据应用是在各委办自己大数据应用系统中完成。与现有信息化基础设施与系统关系:市级政务大数据平台充分利用原系统和平台已经实现的功能,并融合现有数据和新数据,具有现有系统无法实现的海量数据快速处理能力。(二)市级政务大数据平台的功能目标提供各类数据的融合与共享服务;提供空间、法人、人口基础融合数据资;提供大数据目录的注册、发布、查询、获取、应用等服务。向各委办局大数据应用平台提供大数据服务支撑,通过首都之窗、Data网站等办公门户向政府部门和社会公共提供数据使用服务。为需求单位提供大数据处理通用接口及工具,并统一实现与外部数据的接入服务。通过物联网平台、互联网平台、共享交换平台等信息化基础设施和系统汇集、存储、分析相关数据资源。强调了对各类数据的处理能力,包括对结构化的、非结构化的、音频、视频、包括各种结构的数据处理能力,特别是有来自于物联网的实时数据,和互联网的日志数据等。下面我们来看一下,市级大数据平台的业务模型框架、数据模型框架、技术模型框架。(三)总体功能架构(四)核心功能(1)对基础库、物理网数据、互联网数据、外部数据的采集汇聚。(2)对以结构化数据为主的传统数据的融合处理。(3)对以非结构化、音频、视频等新型数据为主的融合处理。(4)数据质量管控:通过对数据,应用,系统综合管理,构建标准化、流程化、自动化、一体化的数据管理体系。(5)跨平台调度实现数据互联互通,统一管控:提供跨系统跨平台的任务调度功能,与各子系统紧密接合,涵盖接口子系统、维护子系统、云平台、接口分发平台。(五)技术架构政务大数据平台的技术架构采用混搭模式,一方面不改变已有的原始数据的存储和管理方式,另一方面,采用大数据新技术处理原有方式不能处理的新数据,重点是对非结构化、新数据的处理。首先,各委办局通过市级大数据平台可以实现数据的共享和融合,并在此基础上开展各自的大数据应用,如北京市有很多部门负责并参与中小企业数的统计工作,如地税、海关、工商、经信委等,这些部门均有各自数据采集的渠道和途径,但是北京市到底有多少中小企业,每个部门都很难说清楚,也无法统一,对于这个问题,通过市级政务大数据平台数据比对、分析、处理,再经过一定的算法得出大家一致认可的统一的中小企业数和清单,并在此基础上进行数据分析、数据查重等融合处理,使得原有单纯交换来的数据,产生了本质的变化。其次,市级政务大数据平台具备新数据、非结构化数据的处理能力。各单位不具备通用数据的处理以及非结构化数据的处理能力和基础设施,而市级政务大数据平台,充分利用市共享交换平台、四大基础库、一系列门户和网站实现数据的统一调度和管理,促进数据交换和共享。综上所述,市级政务大数据平台不仅可以自带基础数据,同时还可以汇集新数据如音频、视频等非结构化数据,并对数据进行分析、处理,可以为各委办局提供更有价值的多维度的融合数据资源。四、智能交通大数据应用示范(一)新一代智能交通系统对数据整合需求交通共享交换数据中心(交通委与交管局)建设应列入日程,并统筹全市域的政府交通路况信息发布;政府部门之间数据融合共享,各类数据包括交通领域、城市规划、人口分布、法人及空间地理等数据融合共享,以从整体、系统上、研究缓解交通拥堵、保护环境的治本措施;政府TO企业;企业TO企业数据共享机制,加大交通数据资源向社会开放共享力度。(二)交通领域数据与其他相关数据融合1.交通信息分散、碎片化情况市交通委掌握的浮动车实时路况信息、一卡通信息、道路基础设施等信息,主要覆盖范围五环内城市道路;交管局掌握的固定检测器实时路况信息、视频信息、交通事件、事故、施工等信息,覆盖范围为环路及城市快速路;经信委及其他局掌握的公众出行相关的地理空间、位置图层、应急物联网信息、人口、法人等信息;电信运营商的信令数据及互联网等信息,覆盖范围为全市域;来自交通台的广播信息,来自相关互联网微博、微信信息。2.各类交通信息融合采用最新的大数据融合处理技术,通过市级政务大数据平台,由大数据应用需求单位负责具体实现各方数据的汇聚、加工融合与共享交换,形成更为全面、准确、及时的完整、全市域道路实时路况及出行位置信息服务。以上工作研究团队成员有亚信、北航、中兴、数贝、太极等。现在正在搭建北京