2010-09-04目录一、数据集成的必要性二、数据集成主要的三种架构三、数据集成相关技术四、港口数据集成解决方案一、数据集成的必要性1、使企业数据资源形成互通互联的整体在企业发展的过程中,相继实施了多个应用系统,每一个应用系统都有自己的运行环境和数据存储方式,从而产生了各种不同的数据源,需要通过数据集成形成互通互联的整体。2、满足企业决策分析的需要企业管理层越来越需要通过信息系统来分析企业整体运营情况,这就需要对信息资源进行整合,形成统一的系统访问入口,避免造成新的门户孤岛现象。3、有助于规范数据和代码统一通过进行数据集成,有助于将不同系统内的代码进行规范,形成企业统一的代码标准。二、数据集成主要的三种架构单个系统的数据集成架构这是目前主要的数据集成架构,主要是以数据仓库系统为代表,集成企业主要基础信息系统的数据,经过ETL(清洗、转换、装载)后,转换为统一标准,按照星形或雪花型模型存储海量数据,面向企业的人、财、物等主题进行数据分析或挖掘。特点是多对一架构,转换条件复杂,支持TB级的数据量处理和加载,数据存储结构比较特殊,数据加载层级比较清晰。缺点是数据实时性不高、程序编程量较大,数据是单向传递的。企业统一数据集成架构这种架构适合于像大型银行、税务、电信等业务比较独立、组织结构比较复杂的单位,如银行的总行和分行间的数据交换。对于企业主要信息系统的数据可直接来自数据中心,摆脱了没有企业数据中心前的一对多交叉的问题,可有效避免业务系统对应多种管理系统时需要数据重复传送,比如某个业务系统新增了一个客户信息,可直接由数据集成平台发送至数据中心,然后由数据中心根据需要将该信息发送至相关业务系统即可。这种架构的特点是属于多对多、数据交换频繁、数据接口和数据类型比较繁多,可实现数据双向交换。企业统一数据集成架构机构之间数据集成架构这种架构一般应用于跨企业、跨机构的数据集成和交换,通过制定统一的数据标准,从而形成一个多机构间的数据集成平台,比较典型的是银联和各商业银行间的数据集成。这种架构相对比前两种架构,具有跨多企业、单位之间多对多,网络交换较为复杂,数据安全性和实时性较高。机构之间数据集成架构三、数据集成相关技术1、ETL技术一是采用手工编程或专项ETL工具,这种方法是目前使用较为广泛的方法,适合满足较为复杂的数据集成需要。具体方式有PB、JAVA、存储过程、C/C++等,优点是比较灵活,但存在多一种系统的数据集成就会多一倍的工作量,可拓展性和实时性较差;另外也有针对具体某个行业如银行的专项ETL工具,可减少部分工作量,但具有较大的局限性,不能够通用。手工编程模式二是采用商品化的数据集成软件,如InformaticaPowerCenter、IBMDataStage、OracleODI等,这些软件可在较大程度上减少人工编程量,提高效率。2、数据联邦技术通过数据联邦技术可使数据逻辑看上去存在一个位置,但实际的物理位置却可能在多个数据源中。数据联邦技术提供了一种为数据提供抽象的数据接口的能力。这些多个数据源组成的虚拟视图可以使用户不需要知道数据的物理位置、数据结构和保存方式。和传统数据集成方式相比,不需要建立中央数据库,不保存实际数据,可以最大限度的保证数据的实时性,前提是首先要有统一的代码标准,否则数据集成质量较差。数据联邦技术适合于对集成数据实时性要求比较高,数据经常变换的环境下,不适合于包含过于复杂数据转换,数据集特别巨大,否则会使数据转换的效率降低。比较典型的有BEAAquaLogicDataServicesPlatform、IBM—FederationServer等。3、基于SOA的数据集成数据联邦技术从本质上讲并非真正意义的数据集成,更接近一种数据库视图的方式,但一定程度上解决了集成实时性的问题,近年来,出现了基于SOA架构的数据集成,一般包括两个过程,一是对数据按照SOA架构的需要进行整合加工形成可用的信息,二是将信息以符合SOA规范的方式发布出去。3.1基于ODS(操作性)的数据集成这是其中的一种实时数据集成模式,是基于数据仓库演化而来。这种方式将分散在数据层的数据先整合到ODS或者数据仓库中进行整合加工,然后再将加工整理后的数据以标准接口发布到中间件层。建立一个全局的操作型数据库ODS(operationaldatastorage),该数据库与企业内的其它数据源通过变化数据捕捉(ChangeDataCapture)方式(包括日志对比、时间戳、全表对比等)保持实时同步,当数据源内的数据发生变化时,CDC会捕捉到变化的数据并通过ETL工具或者其它手段(如主数据管理工具)同步到ODS数据库中。ODS数库内存储的数据可以分为三层,如下图所示3.2基于中间件的数据集成这种模式,数据集成和发布都发生在中间件层,在中间件层上进行数据的加工整合,同时通过中间件层的标准接口将整合后的数据以标准接口发布。在中间层上存在一个虚拟的数据服务层,该层通过JDBC,FILE适配器、应用适配器等与数据层的各种数据源实现连接,将数据源中的各种数据实体映射成中间件的虚拟数据层的表,虚拟数据层中的表都只有元数据,而不存储实际的生产数据。四、港口数据集成解决方案青岛港经过这些年的信息化建设,信息化系统已经覆盖了港口的主要业务领域,并且积累了大量的数据资源,如何进一步有效利用这些数据资源,使集成后的数据更好用,建议下一步港口的数据集成向企业统一数据集成转变。4.1向企业统一数据集成架构转变4.2、技术采用和实施步骤•在今后数据集成技术的采用上,可综合采用ETL、数据联邦等技术,充分利用已有开发成果。•实施步骤可采用分步实施的方式,在采用ETL方式的基础上,对一些业务逻辑较为简单的数据集成,优先采用数据联邦技术。•同时因为数据集成不是孤立存在的,是和港口应用紧密结合在一起的,因此必须结合港口技术框架,实施港口整体SOA架构下的数据集成。谢谢!