安徽智圣网络与信息安全咨询服务中心2020年3月15日1基于云计算的电子政务公共平台数据管理技术江涛数据管理范畴与定义2数据管理技术目标31数据管理技术设计和内容提纲23数据产生于计算机出现之前:书本、地图、艺术等计算机出现以后,数据的内涵与表现形式都发生了巨大变化①在存储介质层面,数据表现为各种能保存0,1两种状态的载体②在逻辑层面,数据表现为组织与使用方式逻辑层面(数据管理)物理层面(存储介质:卡片,内存、磁盘、光盘、磁带)100001今天,我们讨论的主要是指逻辑层面,可称为数据管理“数据”简析——追根溯源4IDC研究表明:2013年中国产生的数据总量超过0.8ZB(相当于8亿TB),2倍于2012年,相当于2009年全球的数据总量。预计到2020年,中国产生的数据总量将是2013年的10倍,超过8.5ZB主要有两类情况:一类是原有数据种类量的增加(如业务应用等)另一类是过去我们没关心或没能力关心的数据(如Weblog,社交媒体,实时位置,智能设备、传感器计量等)数据管理最大的挑战是:海量管理能力,多类型,变化快,高可用性,低成本,高端可扩展性很多传统的技术已经难以应对!海量数据管理——时代的挑战5电子政务公共平台的挑战---数据管理6集中资源池的共享虚拟化、分时/区共享动态调配、弹性伸缩自动化、自服务低成本、标准化硬件云计算云数据管理技术标准化能力服务化提供快速化资源弹性化管理自动化管控集中化新工具--云数据管理7计算资源、存储数据应用/服务云接入数据仍然是云中心最重要的信息资产!新工具--云数据管理电子政务公共平台数据管理技术是结合云计算、大数据的管理技术特征,同时规范公共平台数据管理核心要素,并兼顾、引导传统数据管理技术逐步转化为云数据管理技术。公共平台管理技术设计应涵盖数据全生命周期管理,包括数据采集管理、数据存储管理、数据服务等过程的管理。定义8数据管理范畴与定义2数据管理技术目标31数据管理技术设计和内容提纲9目标电子政务公共平台数据管理的建设,最终要形成信息资源的统一采集管理、统一存储管理、统一利用管理和基于平台和共享信息资源的应用系统管理,形成平台相应的技术和管理规范,保障政务信息资源的有效服务利用。电子政务公共平台数据管理将是对平台现有的数据采集、数据存储、数据服务全过程进行统一的数据管理、质量管控,并且通过标准的云平台技术下的交换共享服务模式,实现政务数据在公共云平台上的统一存储、统一维护和灵活服务,提升政务现有数据的安全存储和高效使用等能力,更加深入地进行数据挖掘等工作,为政府创造更多的价值。目标10数据管理范畴与定义2数据管理技术目标31数据管理技术设计和内容提纲11数 据 管 理 技 术 设计数据管理服务技术数据管理存储技术数据管理采集技术服务发布管理服务监控管理服务访问管理采集对象管理采集监控管理存储调度存储监控存储备份采集过程管理存储管理采集统计管理服务变更管理资源目录服务数据处理服务技术(数据分析服务、数据展现服务)共享交换服务数据集成服务数据支撑服务技术数据管理总体设计框架12三个环节四部分内容一、数据管理采集技术设计13数据管理采集技术设计电子政务云平台数据管理采集技术设计,是在指依照云平台管理和服务范围内政务信息用户的需求,从电子政务云平台或者接入云平台的有关信息源或载体内对各种形态的政务信息(包括政务业务应用、物联网、互联网等)发现、定位、采集、提取并加以聚合和集中的管理设计。数据采集技术要解决的问题:1.确定数据源的范围(什么样的数据源为平台合格的数据源);2.如何将数据源变成真正的采集对象(服务化,自服务);3.采集对象的自描述(涵盖哪些属性);4.平台与采集对象的绑定(采集过程的实现);5.对采集过程的监控与追溯;6.对采集行为及任务完整统计分析;7.平台将上述功能的服务化,并为提供给平台的使用者。14数据管理采集技术主要内容15(1)采集对象管理数据源:平台能管理的数据来源,涵盖在平台内外部署的所有应用系统,应包括政务业务应用、物联网应用、互联网应用和移动应用等。16采集对象:能自描述和自服务的所有数据源称之为采集对象。自描述是指它能提供所属单位、数据内容、数据关联、数据类型、更新频率、访问方式等属性,并以服务形式提供给平台发现和定位;自服务是指它以服务化方式提供接入平台的方式,以便平台获取和收集数据。平台对采集对象管理功能:1.提供采集对象的属性描述功能,所有接入的数据源需要有唯一标识、所属单位、数据内容、数据类型、更新频率、访问方式、通信机制等;2.提供组织功能,可按用户的组织机构、业务应用等不同方式进行分类管理;3.提供对采集对象的查询/检索功能;4.提供生命周期控制功能,包括采集对象的注册、发布、使用授权、变更、注销;5.支持数据源管理模型的扩展能力,以便适应多种新型的信息存取方式。(2)采集过程管理平台对采集对象的绑定:通过绑定方式对数据提供者和使用者进行关联和管理,提供数据生产方与使用方一对一、一对多、多对多的绑定功能,提供绑定生成、绑定变更、绑定解除等。采集流程调度:在采集过程中,依照数据提供周期及使用周期的不同,提供不同频次的数据采集调度,包括:可以根据不同业务、不同场景,实时调度或者指定在某一天单一调度,也可以指定在某年、某月、某日、某小时、某分来循环调度。并行采集技术:为提高采集效率,通过多通道分时复用数据采集、多通道同步数据采集、分布式数据采集等采集技术。17状态监控:监控采集过程中的所有信息,包括提供采集对象监控,包括采集对象运行状态、负载情况监控等。18(3)采集监控管理任务监控:能实时了解供采集任务执行情况,能实时了解任务执行时间、采集数据量、采集数据大小、空间使用情况、内存使用情况等。异常监控:针对过程中的异常情况,能提供异常情况预警;包括采集任务执行失败、采集节点状态异常、网络情况异常等;对采集异常情况可以进行采集任务追溯。在数据采集过程中,采集统计管理负责对采集过程和采集结果的统计,主要包括:•采集任务运行情况统计;•采集任务资源使用情况统计;•采集任务异常事件统计等按照日报、周报、月报、年报、实时报方式统计;•将各统计信息以不同图表方式展示。19(4)采集统计管理二、数据管理存储技术设计20在云计算电子政务公共平台环境下,针对数据的非确定性、分布异构性、海量、动态变化等特点,设计采用分布式数据管理技术对数据存储进行有效管理,为向用户提供高效的服务奠定基础。数据管理存储技术设计存储技术要解决的问题:1.按不同用户的需求,确定数据存储策略;2.对不同用户的数据,要实现数据隔离或融合机制;3.对用户提供高效管理的工具(配置、导入、导出、安全等);4.云服务动态调度策略和机制;5.为用户提供对存储的有效监控;6.支持非结构化和半结构化数据的存储管理技术;7.支持大数据存储与分析。21数据管理存储技术主要内容(1)存储管理平台云存储的管理:通过集群、分布式文件系统和网格计算等技术,实现云存储中多个存储设备之间的协同工作,使多个的存储设备可以对外提供同一种存储服务,并提供更大更强更好的数据访问性能;存储管理是实现存储设备向存储服务的转变的核心。22云存储管理要求:云计算系统能为不同用户提供不同级别的数据存储策略。应提供可将计算机文件的存放划分为几个等级,如单机级、跨服务器级、跨机柜级以及跨数据中心级。为单个用户提供独立逻辑数据存储空间,必须保证各用户之间的数据不可见性,确保多用户之间的数据隔离机制。(2)存储调度23存储调度策略:在存储调度管理过程中,应提供根据不同任务需求和调度模型情况下的云服务动态调度机制:可通过相应的权限和优先机制进行服务的调度处理,以平衡各类应用压力,优化资源的应用;提供让用户可以按任意的时间间隔(年、月、日、时、分)自动调度。(3)存储监控存储活动的运行状态监控:存储监控指在存储过程中对存储的所有活动进行监控和管理,包括存储状态监控、对基础软硬件进行状态监控和性能监控等。分布式文件系统监控:监控信息包括节点信息、文件/数据块分析、文件历史操作、数据块操作历史、文件/数据块排名等监控。24安全设计应考虑支持多实例并行:任一实例宕机不会影响应用可用性,系统自动完成运行实例与数据的恢复。(4)存储备份支持集中控制云环境多节点数据并行备份:应支持系统提供错误监控机制,对于故障采取自动迁移,采用多份备份来确保数据的安全性,系统达到高可用性。(3)数据服务管理技术设计电子政务云平台应提供数据管理的服务技术,方便各部门用户管理、处理和共享所需的各种数据资源。设计针对服务生命周期不同阶段进行管理提供的服务。数据服务管理技术设计服务技术要解决的问题1.数据的使用要以服务方式体现;2.要支持数据服务的多样性,形成统一访问方法;3.要支持数据服务灵活变更需求;4.对数据服务要有有效监控手段;5.平台要支持多租户管理;6.要有支撑数据服务的支撑技术。2627数据服务管理技术主要内容数据服务发布管理数据服务访问管理数据服务变更管理数据服务监控管理(4)数据目录服务技术设计信息资源目录服务技术设计应按照《政务信息资源目录体系》系列标准进行目录的各项功能设计,并将功能按照公告平台规范要求将各功能进行服务化设计。数据目录服务技术设计目录编目目录注册目录发布目录查询目录维护(5)共享交换管理技术设计共享交换服务设计,应在按照《政务信息资源交换体系》系列标准要求的功能基础上实现共享交换功能的服务化,并实现政务云平台内部应用系统间及政务云平台内部、外部应用系统间的交换服务。共享交换管理技术设计29共享交换管理技术主要内容30交换桥接前置交换交换传输交换管理(6)数据集成服务技术设计数据集成服务设计,应提供面向多租户的ETL服务,即数据抽取(Extraction)、数据转换(Transformation)、数据加载(Loading)服务,同时提供用户自主使用的ETL开发配置和监控管理服务,帮助用户将批量异构的数据集成到统一的存储管理系统中,以便完成进一步的数据挖掘和分析。数据集成服务技术设计31数据集成服务技术主要内容32数据抽取服务数据转换服务数据加载服务ETL开发配置服务ETL监控管理服务对可支持常见关系型数据库、非关系型数据库、文件等不同类型的数据源的数据抽取,必须支持主流国产数据库。支持全量抽取、增量抽取、基于日志的抽取等抽取模式。具备扩展能力,可以非关系数据库的抽取。(7)数据处理服务技术设计主要指为满足电子政务应用需求而提供的对数据的多种技术处理手段。电子政务中常用的有:数据分析服务和数据展现服务等。数据处理服务技术设计33数据处理服务技术主要内容公共平台应根据所管理数据的规模和实际业务需求提供大数据特征的数据分析和预测分析服务:(1)数据分析服务34具有良好的扩展性、容错性和大规模并行处理特征,满足电子政务的智能性分析预测的需求;应支持海量数据挖掘,满足政府部门单位TB、PB级数据分析需要。应支持业界流行的大数据存储、分布式计算框架,灵活处理分布式挖掘分析应用;数据分析结果应满足多种形式的输出,分析结果可导出数据、分析结果可生成多种格式的报表、分析结果可通过门户发布到web页面、分析模型及分析结果可与现有应用系统无缝集成等。公共平台通过统一的数据门户提供数据展现服务有关功能,数据门户提供统一的数据展现服务管理,将各类数据以图形、图像、地图、动画等更为生动、易于理解的方式来展现数据。(2)数据展现服务35应提供统一的数据门户服务;支持报表展现:支持专业报表、即席报表、企业级复杂报表等多种报表形式;支持分析展现:支持假设分析、多维分析等高级应用;支持图展现:提供GIS地图组件、仪表盘、热度图、树图、组织结构图、饼状图、柱状图、曲线图、曲面图、雷达图、漏斗图、极坐标图、股票图等多种交互式图表等方式。36