大数据量报表展现系统开发方案----三期延续开发一、目标与需求该系统提出将信息中心建设成为数据集散中心、报表处理中心和决策辅助支持中心,成为信息资源管理体系的中心和枢纽。将分散在各个业务处理系统中的数据归集起来,为各级机构提供数据提取和查询服务;开发管理信息平台系统,实现综合查询与分析,实现综统报表、监管报表、业务报表等统计信息的共享,建立联动查询统计。依据总体规划,借鉴经验,广泛征求意见后,提出立项开发数据分析系统,拟实现下列目标:1、进一步的完善业务信息库,通过建立逻辑数据模型,按主题整合业务数据,并建立适合各类专题分析需要的数据集市,形成企业级中央数据仓库,以中央数据仓库为纽带完成业务数据向管理信息的过渡;2、“工预善其事,必先利其器”,引进ETL、前端信息展现工具、系统集成门户等先进的数据仓库和商业智能解决方案,进一步完善管理信息平台技术架构,实现对数据的深层次挖掘,为各级信息使用者提供先进适用的分析管理工具,为管理部门提供个性化纯WEB信息展示平台;3、优化全报表生成、报送、管理和使用体系,凡是数据仓库可以生成的报表由系统自动生成,实现资产负债分析、经营业绩分析、客户分析、风险分析和财务分析五个方面的专题统计分析,并为将来引进决策分析模型进行决策支持奠定基础。鉴于在项目整体开发阶段由于企业的自身业务调整和变化,特别是对前期调研所拟定的业务蓝图及相关开发计划进行了范围扩大的调整。导致前两期项目开发工作只完成其中一部分,在甲方的要求下此项目增加的开发范围作为三期工程(不排除报表业务继续扩大,项目需求继续扩大的可能),同时沿用此方案并需达到此方案中既定的目标来完成项目整体,且此项目需在本期结束后进入维护期。二、应用范围针对用户的不同级别,分别满足业务人员、管理人员、高级管理人员以及决策者对信息的不同要求。三、与其他系统的关系数据挖掘系统项目完成后管理信息平台的系统架构将如下图所示,管理信息平台系统架构从大的方面可以分为两个部分:数据仓库和商业智能。数据仓库以方便查询为目的,打破关系型数据库理论中标准泛式的约束,将业务数据库的数据重新组织和整理,为查询,报表,联机分析等提供数据支持。数据仓库建立起来后,定期的数据装载(ETL)成为数据仓库系统一个主要的日常工作。商业智能应用就是利用现代智能计算技术进行数据挖掘(DataMining)从大量数据中发现潜在规律、提取有用知识,实现企业报表的生成与管理,实现资产负债、风险管理、财务分析、客户关系分析和绩效考核等经营管理信息的统计分析。四、项目主要工作内容数据挖掘系统项目的主要工作内容包括:(一)建设企业级数据仓库随着信息技术运用的不断深入,积累了大量原始数据,而这些数据是按照关系型数据库结构存储,在更新,删除,有效存储(少冗余资产负债数据库风险管理数据库财务分析数据库绩效考核数据库客户分析数据库企业报表数据库中央数据仓库数据传输层DCC、ALSPORTAL图表查询多维分析数据挖掘报表信息展现业务应用数据组织数据获取数据仓库建构商业智能应用信贷管理人力资源外部数据数据抽取、装入、清洗、质量检查、转换、加载数据)方面表现出色,但在复杂查询方面效率却十分低下。为充分利用已有数据,提供复杂查询,提供更好的决策支持,就需要采用数据仓库(DataWarehouse)技术。数据仓库与数据库(这里的数据库指关系型数据库)的区别在于,数据仓库以方便查询(或称为按主题查询)为目的,打破关系型数据库理论中标准泛式的约束,将数据库的数据重新组织和整理,为查询,报表,联机分析等提供数据支持。数据挖掘系统将以业务信息库归集的核心业务系统、ERP、CRM和一些外部数据等系统的原始数据为基础,以先进的数据建模理论对业务信息库进行重新规划,建立包括客户、产品、账户、交易、渠道和机构六大主题的基础业务信息库做为信息管理的基础数据支持平台。1、数据仓库的逻辑结构数据挖掘项目完成后的管理信息平台的逻辑架构将如下图所示。中央数据仓库的数据组织是商业智能中最重要的课题,中央数据仓库不是各系统数据简单的堆积,而是业务数据的有组织的存储。因此它不可能通过分析源系统来生成,而必须提前引入已成型的数据模型。这一数据模型在数据仓库范畴称为逻辑数据模型(LDM),它必须具有灵活性和可扩展性,适应将来的业务需求的增加和变动。在数据层前是数据源和转换区,数据源是业务信息库中的原始数据,转换区用于存放从数据源抽取到的数据,并在转换区进行转换,是ETL的工作区域。数据层负责所有数据的持久存储,包含中央数据仓库(DW),数据集市(DM)和多维模型OLAP(MDB)。中央数据仓库(DM)存放从各个数据源抽取的数据,是经过转换后的细节数据。数据集市(DM)存放的是面向业务应用宏观的汇总数据,基于实用化和运行效率的考虑,数据集市ETL采用数据库存储过程来实现。多维模型(MDB)是将数据数据集市中的数据加载到OLAPSERVER中,为多维分析提供数据。管理信息平台逻辑体系架构示意图数据源数据源元数据AdminToolsETL数据建模工具数据集市RDB数据集市RDB数据层中央数据仓库仓RDBMDB报表服务器应用服务器OLAP服务器应用层WEBServerPortalServerWEB层用户2、逻辑数据模型逻辑数据模型LDM是信息平台/数据仓库体系结构的基础。根据管理信息平台的建设目标和建设原则,结合本项目的具体特点确定以下数据模型的设计原则:数据模型的设计既要满足本项目的业务需求,同时要充分考虑未来业务发展的需要,也就是说,数据模型应具有较强的扩展性;数据模型的设计应充分考虑最终用户的查询/分析效率和数据抽取、转换和加载的速度,保证系统具有较高的运行效率;数据模型的设计应充分考虑当今数据库技术和数据建模技术的发展动态,保证数据模型的设计方法、设计过程、设计结果的科学性和先进性;数据模型的设计应具有较强的可读性,数据模型应便于业务人员和技术人员理解,项目投入运行后,数据模型便于技术人员维护。中央数据仓库存储所有最详细的业务数据,数据的组织方式依关系型数据库的第三范式规则。数据仓库逻辑数据模型主要包括六个主题域:客户、产品、帐户、交易、渠道和机构。3、数据集市模型根据业务需求将中央数据仓库数据分类成几个不同的数据集市,每个数据集市完成不同的分析和查询需求,数据集市中的数据通常由中央数据仓库的数据聚合而来,根据数据聚合程度的不同包含轻度聚合、中度聚合和高度聚合三种不同的层次。汇总的方式将依据数据量的大小和使用频率综合考虑。4、数据仓库ETL的设计ETL指源系统数据经过数据抽取、转换和加载处理进入数据仓库的整个过程。ETL流程主要包括以下主要步骤:数据抽取:数据抽取就是将数据仓库需要的业务数据抽取到数据转换区的过程;数据检查和出错处理:在数据转换区中,对源系统数据质量进行检查,形成检查报告,并进行相应的出错处理,对于严重错误,需要系统维护人员现场做出相应的处理。数据转换:数据转换包括对源系统数据进行整理、剔除、合并、验证等一系列转换工作,最后形成数据仓库物理数据结构所需的数据,存放在转换区的数据表中。数据加载:数据加载将数据转换的结果数据加载到数据仓库,并形成数据加载情况的报告。ETL工具需包括下列模块:EXTRACT模块(数据抽取),TXTLOAD模块(文本装载),TRANSFER模块(数据转换),DWLOAD模块(数据仓库装载),QUALITY模块(质量检查),CODEMANAGER模块(标准代码管理)和WADMIN模块(总控)。从各个数据源到中央数据仓库的ETL可以由ETL工具实现。首先在各个源系统安装extract模块,将源数据抽取为文本数据,打包后通过ftp传送到数据仓库主机上。在数据仓库主机上通过txtload将文本数据装入交换区,然后通过在交换区内通过Transfer模块进行数据转换,最后将交换区的数据通过dwload装入中央数据仓库。ETL每个模块都是现了参数化配置,通过配置相应的ini配置文件实现。从中央数据仓库到数据集市的数据装载利用存储过程实现。在开发过程中针对每个数据集市设计相应的存储过程,实现数据从中央数据仓库到数据集市的装载。(二)引入先进的商业智能工具通过引入先进的商业智能工具,提高数据挖掘水平,是迅速改变信息工作无法满足业务发展需要的必由之路,这也是科技规划所倡导的,即通过引入国内外先进成熟的系统和经验,迅速提高科技应用水平。通过数据挖掘工具将达到以下目标:1)企业级报表提供五种常用形式的企业报表:给领导的KPI计分卡和仪表盘、给基层经营管理人员的运营报表、给客户经理和业务经理的典型业务报表、给业务部门领导的管理指标报表、给客户和合作伙伴的结算清单。提供块状布局和传统条带状组合方式布局。提供用户自定义WEB报表功能:参数化报表,让用户自己定义报表内容、报表布局和工作流;自动客户化报表内容,创建一个报表,系统自动基于不同用户生成用户所属内容的报表;基于用户档案的个性化用户界面,为高级用户和普通用户提供不同的使用界面。提供灵活的报表分发功能:可将报表分发到WEB浏览器、网络打印机、email、文件服务器和企业管理信息门户;可以根据请求、计划、事件等方式分发报表。无需编程设计出达到象素精度和印刷品质的报表。2)立方体分析立方体就是指预先组织好高度相关的一个数据子集,用户可以组合任何立方体中的实体(如客户、账户、产品、渠道、机构、交易等)和度量(如存款、贷款、利润等)来建立多于二维的视图或者切片,并在计算机屏幕上显示出来。立方体分析就是使用标准的多维分析功能,如分页、旋转、排序、筛选和向上下钻取来浏览报表。立方体分析适用于对指标变化的根本原因或潜在原因比较关注而对数据库技巧不是非常熟悉的业务经理。MSTR使用关系型OLAP(ROLAP)技术把关系型数据库建模成虚拟多维立方体来实现联机分析(OLAP),能做到快速的报表分析和操作、个性化和安全地共享立方体、自动创建和同步立方体、从汇总数据向详细交易数据任意钻取。MSTR还提供随机查询分析功能,用户可以在关系型数据库上创建任意查询报表,可以通过参数驱动方式生成查询分析报表、可以基于不同数据集合进行分析,也可以按照自己需求对数据进行分组。3)统计分析和数据挖掘MSTR通过多路SQL生成引擎和特殊分析引擎扩展了关系数据库的计算能力,为专业信息分析师提供了200多个数学、OLAP、财务和统计函数,用于进行相关分析、趋势分析和预测分析。MSTR允许自定义分析函数并可以纳入其函数库共享。2、企业门户系统各级员工需不断浏览OA系统、两个电子邮件系统、信息网站、管理信息平台、客户信息系统等系统,每个系统都需重新登录;管理过程主要通过人工+Email的方式进行,缺乏严格的工作流程控制;缺乏集中统一的内部信息检索系统,为此我们需要引进先进技术优化的管理信息平台,使其成为内部知识管理平台、部门横向沟通协作平台和企业文化建设工具。企业门户系统正是这两年来用于解决此问题的基础工具软件。通过企业门户系统,将为各部门员工、各级管理人员提供一个智能的个性化工作平台,该平台基于互联网的浏览器界面,作为统一入口访问各种业务系统和服务(OA、管理信息平台、电子邮件、信息网站、ERP系统、CRM系统、财务系统等),能够按照个人的工作习惯和喜好进行个性化定制,从而容易地找到并获得各种所需地信息和服务;该平台将成为集成了对各种交互请求或服务的中转站,与内部各个已有的后台系统直接连接,提升这些现有系统的价值,又将内部系统与不安全的用户访问相隔离,保证原有系统安全可靠的运行;通过平台提供业务流程自动控制、内容管理、协调工作和分类搜索等服务。本项目选择的企业门户系统将提供以下主要功能:1)提供统一的门户框架A、门户引擎和基础设施门户引擎支持标准的PortletAPI,提供Portlet的定义、执行、管理等一系列完整的功能。集成各种不同的资源,在页面上进行组合,并提供给各种渠道。将页面的展示和不同的业务逻辑相分离,同时通过Portlet进行控制,这样分离的好处是将每个Portlet作为一个独立的控制组件更加容易开发和维护