数据治理及平台建设经验交流讨论领先的信息系统解决方案提供商2011年深圳证券交易所创业板上市(股票代码300271)专注于金融、电子政务、食品安全等领域的软件与信息服务拥有9家子公司、2个研发中心、4个区域服务平台、1个研究院、遍布全国的服务机构,拥有近2500名员工2013年营业收入6.7亿元,归属上市公司股东净利润1.2亿元2014年营业收入9.03亿元,归属上市公司股东净利润1.47亿元客户覆盖广泛,包括金融、税务、财政、卫生、法院、检察院、司法、政法委、政府委办局、企业、金融、海关、电信、食品安全、工商等行业和领域主要金融客户目录数据治理概述某行数据现状及问题数据治理阶段目标成效和特点数据管理系统建设情况第一部分数据治理概述数据治理意义、作用和价值意义•是构建完善、共享、统一管理数据环境的基本保障和重要组成部分•是把数据作为资产来管理的有效手段作用•确定了一系列岗位角色和相应的责任及管理流程•保证了业务数据在采集、集中、转换、存储、应用整个过程中的完整性、准确性、一致性和时效性价值•企业进行数据治理的最大驱动力来自数据质量,通过提高数据质量实现更多的业务价值•将实现业务目标作为数据管理和服务的核心驱动力,优化数据架构,提升数据仓库/信息化管理系统建设,支持管理能力的提高、精细化和决策的科学性数据战略数据应用与服务数据管理保障机制促进支撑实现支撑数据战略与规划数据组织与职责数据制度与管理流程数据服务管理数据需求管理应用系统建设数据服务数据架构与模型管理数据标准管理数据质量管理元数据管理主数据管理数据保留与归档管理数据安全管理内容管理数据治理框架数据调度与处理大数据平台数据结构化转换大数据分析计算分布式数据库分布式文件系统数据生命周期管理数据平台数据传输数据服务数据集市数据质量检核元数据管理数据管理平台数据应用统计报表基础数据平台贴源层整合层汇总层数据切分数据源业务系统物联网互联网数据交换平台内部数据外部数据其他系统数据接口数据架构数据挖掘高管驾驶舱一、应用(需求)驱动主导数据平台的实现,加强业务的关注和参与二、初期能够快速见效并体现建设价值,不盲目投入三、借鉴同业的成功经验和成果,选择成熟技术架构和解决方案四、重视内部人员培养,建设配套运营制度和管理体系应用是展现数据总线建设效果的门户,因此需要建设业务人员最紧迫和最关注的需求和应用,让业务部门最快参与数据总线的建设当中。实施周期不易过长,规模不易过大,能够快速的见到数据总线带来的效果和价值。尽量参考同行业、同规模、同类型企业行的建设经验,适当创新。前期让公司内IT人员尽量更多、更深入的参与到数据总线的建设中,后期角色以管理为主,尽量与合作伙伴共同建设二期以上。配套的管理规范、技术规范、运营体系。数据平台建设原则第二部分某行数据现状及问题数据应用现状分析-总体情况行领导综合业务系统信贷管理国际业务系统债券管理系统……数据交换平台综合报表平台财务会计部信贷管理部国际业务部资金计划部…….客户信息…..贷款余额客户信息…..贷款余额…..客户信息客户信息…..客户信息…..业务职能不清晰或相互重叠,观察数据视角不尽相同,缺少数据标准与业务统一定义,语轨不一致IT架构中中都是以部门级应用为主(如计财、资金计划部等),缺乏从大的管理职能(财务、风险、运营等)综合方面的数据整合、数据标准和统一业务定义业务人员X\?567数据应用现状分析-数据架构方面由于全行的数据散落在各个业务系统中,没有进行有效整合,形成竖井式架构,造成多个信息孤岛,整体架构缺少一个稳定的、抗源变化的保存最细粒度历史数据的数据层。无法支撑未来共享性应用。集市层客户风险客户一部中间业务汇总数据层主题层报表应用共用主题数据客户风险报表客户一部报表中间业务报表支付报表支付业务ODS层DEP层BDS层其它报表业务表现信息孤岛数据冗余共享性差历史数据缺失问题数据分散,难以管理没有一个稳定的,抗源变化的数据层综合业务信贷管理国际结算债券核算源系统竖井式架构,造成信息孤岛缺少一个稳定的、抗源变化的数据层客户管理绩效考核……没有进行整合,无法共享,不能支持如客户管理等共享性应用数据应用现状分析-数据应用难题业务表现各集市系统指标存在重复各集市系统在保有存量的同时,不断产生新的指标(增量)集市指标派生无法实现指标逻辑视图(指标分类)不一致问题重复投入数据不一致指标设计、口径不一致指标难以共享客户风险集市客户一部集市资金计划部借据号期末余额。。。借据编号期末贷款余额总资产用户我想看本期贷款余额,看哪个呢?主营业务收入负债总额。。。我想看客户经营情况信息,有哪些呢?用户活期存款指标数据怎么不一致呢?缺少统一的应用分析标准数据应用现状分析-数据应用难题业务表现各系统存在冗余数据各系统存在业务含义一致,名称定义不一致的属性各系统存在含义不一致,名称定义一致的情况业务代码定义混乱问题重复投入数据不一致、不准确难以利用和管理各系统数据难以共享缺少统一的基础数据标准核心贷款分户账表贷款主档代码贷款余额。。。五级分类标志计息方式信贷管理借据表贷款账号贷款余额。。。5级分类标志借据计息周期业务含义一致,名称定义不一致数据冗余相同业务代码定义不一致核心五级分类代码信贷管理五级分类代码1正常01正常2关注02关注3次级(不良)03次级4可疑(不良)04可疑5损失(不良)05损失数据应用现状分析-数据质量方面没有归纳并总结数据质量问题,缺少反馈机制,导致长期存在各类数据质量问题。业务表现指标难以共享数据不一致、不准确问题部分关键业务数据缺失源系统校验关系缺失及业务人员操作随意15由于信贷管理系统业务人员没有填写或填写错误借据的五级分类信息,导致报表数据不准确,需要手工补录修改不同系统相同客户号对应的客户简称不一致客户号客户简称75682839综合厂97326762国鑫资产客户号客户简称75682839粮食局粮油综合97326762乳山市国鑫资产数据应用现状分析-总结随着业务的不断发展和信息化的不断深入,需建设的业务系统越来越多,随着业务系统的数据种类不断丰富完善,数据量的不断增大,如果不采取有效手段解决数据架构、数据标准、数据质量问题,随着信息化建设的深入,这些问题将像雪球一样越滚越大,越积越多。综合报表平台适应性升级改造阶段(问题增加为451个)综合报表平台建设阶段(问题339个)第三部分数据治理阶段目标数据平台逻辑架构数据调度与处理元数据管理数据传输数据生命周期管理非现场报表财会报表客户风险报表…..机构客户账户…...非现场监管集市财会报表集市风险报表集市高管驾驶舱集市…….数据仓库源数据数据应用贴源层整合层汇总层集市层数据管理系统综合业务系统CM2006国际结算系统债券管理系统ETLETL数据切分数据质量检查系统高管驾驶舱当事人协议事件当事人资产…….外汇资金系统报文清算系统报价引擎系统整合层作业调度作业调度作业调度ETLCBSCM2006EEBONDPEFESMCS数据平台部署架构新购置Web应用负载均衡器三层交换机状态线SANFCSwitchFC阵列SANFCSwitch已有应用服务器(2台)(188.1.6.107/188.1.6.108)i@reportv4.3BI@reportv3.2客户一部报表应用中间业务报表应用心跳心跳三层交换机新购置Web应用负载均衡器新购置调度服务器(1台)RedHatEnterpriseLinuxserverrelease5.5MOIA4.4server调度平台主节点心跳心跳······省行数据库服务器数据加载程序(完善后)数据传输平台配置库省行1:总行:省行应用服务器i@reportv4.3数据传输平台应用已有数据库服务器(2台)(188.1.6.105/188.1.6.106)集市物理模型数据传输平台配置库农发行内网网络心跳新购置明细报表应用服务器(6台)Weblogic11gi@reportv4.3BI@reportv3.2新建客户风险报表应用原有应用节点扩充数据切分应用(完善后)元数据管理应用省行2~30已有ETL服务器(2台)(188.1.6.109/188.1.6.110)MOIA4.4agentDataStage8.5EE(内置Websphere)调度平台代理节点平台ETL工程(优化后)DS8.5管理应用新购置数据传输服务器(2台)RedHatEnterpriseLinux5(Advanced)Weblogic11gIBMMQ7.0.1数据传输平台应用新购置明细报表数据库服务器(2台)Oracle11g客户风险应用数据库元数据配置库已有文件服务器(2台)(188.1.6.111/188.1.6.112)Oracle10gMOIA配置库DS8.5资料库省行文件服务器IBMMQ7.0.1三层交换机三层交换机心跳心跳心跳新购置数据平台ETL服务器(8台)RedHatEnterpriseLinux5(Advanced)MOIA4.4agentDataStage8.5EE(内置Websphere)调度平台代理节点数据平台ETL工程DS8.5管理应用新购置数据平台数据库服务器(2台)Oracle11g数据整合层、汇总层数据平台项目建设目标1、发现数据质量问题,推动数据治理工作的开展,建立数据质量检核系统•对源系统进行数据质量检核,发现数据质量问题并统计影响到的报表•对数据质量问题进行归类总结,分析成因和改进建议•建设数据质量检核系统2、分析、梳理业务系统,推动数据标准的建立,统一全行口径•建立基础标准和指标标准框架•确定标准化范围,对重要属性进行标准化3、建立数据仓库模型框架,优化我行数据架构,建设稳定、可扩展的数据仓库•引进业内具有先进水平的金融数据模型,进行客户化改造后,建成符合某行特点的数据仓库模型框架•覆盖某行主要业务系统数据,以便快速高效的为应用系统提供数据•存储历史数据,解决新报表上线才有数的问题。•汇总层建设(共性加工)目标建设方法-发现数据质量问题建设内容分析源系统表数据,从及时性、完整性、准确性、有效性、一致性方面对源系统数据进行数据校验,发现并记录数据质量问题,生成数据质量问题报告建设数据质量检核系统,对源系统基础业务数据的进行全面的数据质量检查,并实现重要业务数据质量的周期性动态检查,对发现的数据质量问题生成数据质量报告,反馈给业务部门目标建设方法-发现数据质量问题源系统分析阶段全面分析主要源业务系统数据质量问题检查阶段根据制定的检查规则编写程序,对源系统数据进行检查数据质量问题分析阶段分析有质量问题数据对现有应用的影响;提出解决措施123工作阶段源系统分析阶段1、工作内容•全面分析和消化主要源业务系统•重点分析核心业务系统和信贷两个系统2、工作依据•源系统文档:《源系统操作手册》、《源业务系统设计说明书》、《源系统数据字典》•源系统环境及调研数据3、工作重点•系统内:梳理业务流程、业务逻辑、业务关联、数据库表和字段的设计•系统间:梳理业务关联关系、数据关联关系技术角度分析调研产出物源系统表结构,包括主键、外键、唯一性约束源系统表间关系源系统字段长度和类型业务角度分析调研源系统表和字段的业务含义源系统业务规则和流程数据质量检查阶段1、工作内容•梳理和制定数据质量检查规则,定义标准模板•依据数据检查规则,编写程序,对核心业务系统、信贷管理系统的进行检查2、工作依据•系统调研和分析成果•数据质量检查规则的依据调研成果的以下内容进行梳理:业务流程、业务逻辑数据逻辑设计报表数据应用3、工作重点•重点报表用到的表进行分析数据质量分析阶段1、工作内容•分析有质量问题数据对现有报表应用的影响•对数据质量问题的成因进行分析和总结•对数据质量问题的解决措施进行分析和总结2、工作依据•数据质量检查结果•源数据与报表依赖关系3、工作重点•重点分析报表平台的1104等报表存在的部分数据质量问题数据质量