利用信息集成技术构建劳动与社会保障数据交换平台IBM技术建议方案2一、概述以现有信息网络为依托,以现有业务信息为枢纽,为劳动与社保客户建立统一的数据交换平台。在建立集中统一的数据交换平台,实现提取生产区的实际业务数据,并进行数据的过滤、检测。统一数据标准。形成统一的交换资源数据库,为统计分析提供基础数据。完成全国联网数据上报工作。同时实现业务资源数据库的远程备份。1.现状现在的劳动与社保数据库有近十个,其中数据库容量平均是50G,而且数据源为异构数据源,包括Oracle、DB2、Sqlserver等数据库;2.系统主要建设目标:建立数据中心业务资源库的数据采集平台,用以实现对垂直的下级业务系统数据向上级中心业务资源库的及时更新以及数据转换。数据中心资源库数据采集平台包括数据采集和数据转换两个主要部分。数据采集平台起到隔离基层业务系统和相关资源库应用的作用,使得未来任何的业务系统的变化(系统更新、升级、数据格式改变甚至数据库系统变更等)都不会影响整个资源库系统的运行。数据转换平台起到数据质量管理的作用,对数据的属性、逻辑正确性、完整性、一致性等进行验证查核工作。保障信息资源库取得的数据是真实、一致和完整的。数据采集和数据转换相结合,将形成一个长期稳定的数据采集平台。支持数据分析和综合决策。在资源库基础上,进行数据信息的综合利用,实现信息分析、数据挖掘和决策支持。同时资源库的建设将为数据仓库及应用的建设打下基础。建立对外的统一数据交换区,实现业务资源数据与交换资源数据的数据交换、上报的功能,将数据及时地通过统一的数据交换平台,实现向部3里及横向与其它平级单位间的数据交换。实现业务资源数据库到交换资源库的数据交换,实现向部上报数据的功能。建立统一的交换数据区。基于交换平台,实现对业务数据的检测、过滤、筛选、抽取等功能。实现业务资源数据的数据检测、过滤、筛选、抽取。数据交换平台是建设劳动与社保数据分析区及数据交换区的核心系统,其主要的作用为:为地市级社保信息向上级提供安全、高效的信息传递、采集通道;保证社保分析数据信息交互的数据实时性和数据一致性;在社保内部形成统一的数据视图,方便管理;提供向部里进行数据交换的统一平台;屏蔽当前劳动与社保内的IT环境的复杂性,方便应用开发和管理;屏蔽当前劳动与社保管理机构内的IT环境的分布式特性(省级、地市级管理),方便应用开发和管理;在此,我们建议利用IBM最新的信息整合的技术和解决方案构建一个统一的公共数据交换平台方案。下面我们对这样的一个解决方案进行详细说明。二、劳动与社会保障行业数据交换平台方案1.本解决方案的设计出发点:快速实现对多种异构数据源的集成保证劳动与社保分析区数据采集、交换区数据的实时性、一致性;建立一套安全可靠的信息交换通道,实现数据在上、下级管理系统之间的数据交换、数据同步;建立统一数据视图,支持真正意义上的劳动与社保信息分析区及交换区的建立,提供复杂、分布式环境下的可读写操作环境,并支持今后建立跨业务系统条块的新的业务流程;4简化应用编程的难度,缩短开发和实施的周期,降低日常维护难度;能够很好地将当前业务系统与新的综合业务系统的用户管理、认证及授权机制结合,建立方便、清晰、易管理的用户安全认证管理机制;在分布式的环境下实现全局优化,保证分析应用及数据交换的整体性能表现;适应未来扩展性要求,方便应用范畴的扩展;2.建议通过IBM信息集成(II)技术方式实现公共数据交换平台信息整合方式也称为数据整合方式。信息整合就是将业务系统的数据进行有机的整合集成,从而实现对信息数据共享、交换的过程。IBM信息集成II的核心在于业务数据的采集,并不关心原有业务数据的流程。因此,II的核心是数据的集成。它采用数据包装器作为连接件,将现有客户的异种数据库(Oracle、DB2、Sqlserver)等连接在一起。II可以采用XML格式或者关系型格式对数据进行标准定义,平台工具内嵌数据采集监测功能。应用的开发支持SQL99、XML和WebService标准,保障了数据使用的通用性。并且可以保证系统的有效性、性能和易开发性。在有效性方面,II的数据采集机制,对源数据增量识别的问题采用了侦听同步或者数据复制的方式,可以有效地解决数据采集同步的问题。而II的数据包装器运行在资源库系统中心,无需异地开发。II能跨本地和异地网提取数据,也能在源业务系统屏蔽访问时,由源业务系统传递XML数据包,对XML数据文件进行信息分解和提取,能够满足不同的源业务系统的特点。在性能方面,实际的测试表明,II的数据复制能够达到1.26GB/小时的数据提取量,而II的快速数据导入功能更能达到30GB/小时,而该测试结果还是在一台资源紧张的服务器运行出来的。由于II的平台设计的目的就是为了解决数据整合的问题,因此能够得到这样比较理想的测试结果,而无需依赖于特殊的开发和编程手段。基于上述理由,我们推荐使用信息集成平台来完成资源库的数据采集功能,以建立长期稳定的综合资源数据库平台,满足中心业务数据库交换和数据复用的5需求。通过IBM数据整合平台,建立劳动与社会保障业务数据中心及数据分析区和交换区我们利用IBM数据整合平台建立一个信息集成访问接口,建立起社保信息数据交换平台,同时在分级上下系统间业务数据的数据采集平台,并在分析数据区、交换数据区间建立一个可读写的双向访问接口,实现不同数据分区间的数据交换。在所提供的统一访问接口的支持下,就可以在一个整体数据库的逻辑视图下(这一视图跨越地市级劳动与社保信息管理系统),经过相应的数据转换,来实现中心业务数据,和面向劳动与社保信息分析及交换的数据流程和业务流程,实现整个劳动与社保分析系统和数据交换系统快速开发和部署。在分级纵向信息整合建立起数据中心的过程中,建议分阶段实现,第一阶段旨在利用数据映射层,实现统一查询访问,使全省数据可共享。第二阶段,结合数据整合层的各项功能,进行分极系统的数据标准的规范化,提高共享的质量和数据复用,并为数据交换做准备。这两个阶段是信息整合所不可或缺的必要环节。第三阶段,将部分被频繁访问、且实时性要求有限的数据物理集中,提高数据查询的质量,便于决策分析等业务应用。第四阶段,在第二阶段数据标准规范化的基础上,实现统一的数据交换。这两个阶段可根据实际业务需求取舍,也可更换先后次序。数据交换平台的架构图如下:6数据整合平台负责从市级业务数据库及外部数据源中获取资源库所需的数据,实现中心不同数据分区间的交换。数据整合平台位于业务数据库和数据转换平台之间,屏蔽了后续数据处理与数据来源间的直接关系。整合平台主要实现两个方面的功能:业务数据中心的数据采集和转换不同数据分区(业务数据区、分析区、交换区)间的数据交换为保证对数据整合平台的统一控制和管理,我们采用集中式的数据整合平台设计思路,即在中心部署一个大的平台上完成对主要业务数据的采集,及不同数据分区间的数据交换。数据整合平台设计的基本原则是在业务系统部署软件,和编写专用接口,所有的软件部署也都在此平台上实施。2.1实现数据交换在本方案中,根据与已有系统连接的要求,需要支持实现与Oracle,SQLServer,DB2等异构、多个数据库系统之间的数据复制,这就面临着一个异构数据库之间双向复制的技术要求,这在数据库领域一直是一个很难解决的问题。而IBMWebSphereInformationIntegrator恰恰在解决一个企业级异构数据集成同时,很好地解决了这一棘手的问题。IBMWebSphereInformationIntegrator7能够支持用户在一个广泛的异构数据环境内,定义各个异构数据源之间的复制关系和复制机制,IBMWebSphereInformationIntegrator可以支持表级的、双向的、指定时间点的复制,能够提供接近实时的,事务一致的数据复制机制的定义和实现。使用IBMWebSphereInformationInetgrator后,IBMDB2,IBMInformix,Microsoft,Oracle,和Sybase都可以作为复制源或复制目标;用户可以配置一个多样性的拓扑环境复制服务器支持分布式(从一个数据库到多个数据库的数据迁移)和集中式(从多个数据库到一个数据库的数据迁移)数据迁移可以同时使用标准的SQL表达式或存储过程数据迁移可以定时的自动执行,或在一定的时间间隔执行,或连续执行,或者由事件触发执行数据复制定义关系如下图所示:8从上图可以看出,使用IBMWebSphereInformationIntegrator后,可以非常方便地实现跨业务平台、跨数据平台、跨地域的业务数据汇总、统计分析等工作的开展。而从前,我们要实现这样一个应用,就需要花费大量的精力,进行数据采集汇总的工作,从各个地域、各个业务系统、各个数据库平台上进行数据迁移,工作量大,而且准确率和实时性都很差。而在本方案中,这一切难题都会迎刃而解。2.2实现数据采集通过数据整合平台,实现中心对垂直业务数据的采集,我们可以提供三种数据采集的途径,分别说明如下:数数据据运运输输表表OracleSQLServerANYsource地市级管理系统统县级管理系统IBMInformationIntegrator数据复制引擎外部应用管理系统数据库系统Oracle9批量数据抽取对于比较规范的业务系统,如果通过理解其数据库表结构能够识别增量数据,则建议采用批量数据抽取的方式。批量数据抽取的方式一般为非实时模式,在业务系统空闲时进行运行。对于网络条件较好的数据源,该方式可直接通过信息采集平台向业务数据库发送数据抽取的SQL语句,增量信息通过Where条件传入,采集的数据直接保存在信息整合平台。对于网络状况不理想的业务系统,该方式可分两步进行。首先在业务系统数据源将增量信息卸载为文件,然后再将文件传送到信息采集平台。这种模式要求在数据源部署卸载及数据传输程序,管理维护成本较大,建议尽量采用第一种方式。数据复制数据采集平台提供对各类主流数据库的各主要版本数据复制的能力。在复制10的过程中,系统自动抽取数据的变化,通过中间的传输,最后加载到目的地。在大多数情况下,复制应该不干预现有的应用,对系统的影响应该降到最低,复制过程有必要进行管理和监控。复制可分为两个步骤.Capture用于获取数据源数据的增量。对Oracle数据源,通过Trigger机制实现。Apply负责将变更的数据送到数据目标。WII提供对纯增量的复制能力,在目标端自动附加操作类型、时间戳等信息,以用于后续数据转换的处理。WII所提供的数据复制方式提供多种调度手段,支持分钟级数据的同步。对大多数据业务系统而言,数据复制对系统有一定影响,但影响有限。建议应用在难以提供增量信息,而业务负荷又有一定扩展性的系统。数据侦听同步数据侦听同步的模式与数据复制有一定类似,但可大大降低对业务系统正常工作时间的影响。对于部分不能提供增量信息,而当前业务系统负荷又较重的系统,可采用数据侦听的模式。数据侦听与数据复制最大的不同是在变更数据捕获方面。数据侦听只捕获变更数据的主键信息,占整个记录的信息量很小。因而对业务系统的工作时间的影响很小。11数据侦听同步分两个步骤完成数据的采集。首先通过数据侦听获取变更数据的主键及操作类型信息,并同步到数据采集平台。然后在业务系统的空闲时间,通过侦听得到的变更信息,重新通过数据采集平台访问数据源,批量将其他数据内容信息抽取到数据采集平台。数据同步中可能的意外情况由系统自动管理。数据采集平台通过提供批量数据抽取、数据复制和数据侦听同步的方式,针对省厅的多种不同情况的源业务系统,均提出了有效的采集方案,对建立系统打下了坚实的基础。3.IBM数据整合平台的功能我们建议选用IBM数据整合平台WebSphereInformationIntegrator作为数据交换平台的核心技术。将市社保的各类数据源通过联邦的方式映射到一个数据采集平台的逻辑数据库中。对所有业务数据的访问都通过WebSphereII完成,数据存储的异构性和不同数据库操作的异构