某银行数据仓库建设方案设计2013-6-25内容提要建设背景和当前现状系统建设目标数据分析平台的定位系统架构和功能设计数据模型设计建设背景自2010年3月数据下载系统全国推广上线以来,全行各省(区、市)以数据下载系统为依托开展本省数据分析工作。2012年全国各省(区、市)数据分析团队应用数据下载系统中提供的数据共开展了466项主题分析,并完成大量日常数据提取和统计工作。在使用数据过程中,由于各源业务系统同一指标统计口径不一致,数据下载系统中各业务系统库表数量庞杂等问题,各省(区、市)数据分析人员在使用数据时,面临着数据提取来源不明确、统计方法不一致等问题。基于以上问题,亟需建立一套统一的数据指标库提供给各省(区、市)数据分析团队使用。当前现状现有客管系统数据不能完全支持数据分析的需要:包括数据的历史时长不够、数据质量问题、数据缺失问题(基于风险、客户行为、财务管理等数据缺失比较严重)等没有统一的分析平台:各支持厂商和总行自主分析团队的分析环境比较零乱,没有统一的系统分析平台与环境,不能对开发效率、质量、流程等形成统一的管理不能有效的对分析需求、分析过程进行集中管控、分析结果展现等各期的专题分析成果没能发挥其持续业务效益,没有形成有效的知识库管理对各省分行数据分析团队支持效率和效果不够对分析结果的应用落地环节还不够顺畅,没有对包括营销系统、客户服务中心、风险管控中心等形成闭环式应用没有一个统一的分析数据管控中心,数据安全存在一定风险内容提要建设背景和当前现状系统建设目标数据分析平台的定位系统架构和功能设计数据模型设计系统建设目标构建面向全行的企业级数据仓库平台,统一完善各类经营发展指标的数据来源及统计口径,形成一套适用全行经营发展的指标体系,全面实现总行、各省分行数据分析团队在统一平台上进行数据分析与挖掘服务实现各种第三方分析工具的灵活接入与管控,给各业务部门提供自助取数与灵活查询的功能实现对分析全过程的管控,提高分析效率和质量建立分析平台Portal门户,实现对分析成果、分析流程、知识库的管理与应用实现对分析成果与灵活查询结果向各类业务应用的有效数据推送系统建设目标内容提要建设背景和当前现状系统建设目标数据分析平台的定位系统架构和功能设计数据模型设计数据分析执行过程的工作支撑平台数据分析所需分析能力的提供平台数据分析生成成果的应用与管理平台实现包括灵活查询、专题分析、深度挖掘建模等多种分析模式的管控;提供各种第三方分析工具接入与支持数据分析所需业务数据的管理平台数据管理平台分析能力提供平台过程支撑平台成果应用平台数据管控平台数据分析平台定位•数据分析平台将实现对分析相关的数据、能力、过程与成果进行一站式管理与支撑分析数据管理平台内涵分析数据管理平台内涵提供分析数据数据分析平台要存储数据分析所需的各类数据,并按照不同的分析要求为分析人员提供相关业务数据减少重复处理数据分析平台须对多个分析主题均需要的通用性数据要求进行集中支撑与统一实现,避免分析人员进行重复性的数据处理降低分析门槛在逻辑数据模型的基础上,通过按业务方向与分析领域的语义层建设,避免业务人员直接通过基础数据层进行数据分析,降低数据分析时的数据提取难度,提高数据使用率保障数据安全数据分析平台在为不同业务部门与机构提供数据分析服务的同时,必须确保数据的安全,如隐私数据加密、数据权限管理等•数据分析平台将提供强大的数据处理与分析能力分析能力提供平台内涵基础分析数据挖掘敏捷分析内涵要求实现技术•支持不同用户同时访问分析平台,并使用SQL脚本处理数据与灵活查询•并发查询能力•快速计算能力•Ad-hoc灵活查询•Ad-hoc灵活查询•提供数据挖掘与建模的能力,帮助业务部门进行复杂的模型构建与分析•内置或支持第三方主流的数据分析与挖掘软件•TWM/R/SPSS/SAS..•支持灵活快速的自定义分析,以实现对多样化分析主题与内容的支持•基础数据完备•引入外部数据•分析角度灵活•DataMart•DataLab•OLAP•DataLab是一项敏捷分析技术,可以让用户导入外部数据,进行灵活的组合分析DataLab与敏捷分析EnterpriseDataWarehouseExternalDataDataLabsReadonlyforDataLabusersRead,writeSASdatacsvdataProductionMasterDataReferenceDataCUSTOMERCUSTOMERNUMBERCUSTOMERNAMECUSTOMERCITYCUSTOMERPOSTCUSTOMERSTCUSTOMERADDRCUSTOMERPHONECUSTOMERFAXORDERORDERNUMBERORDERDATESTATUSORDERITEMBACKORDEREDQUANTITYITEMITEMNUMBERQUANTITYDESCRIPTIONORDERITEMSHIPPEDQUANTITYSHIPDATETransactionDataDataLab内涵DataLab价值•为不同用户设定一定的DataLab空间与计算能力•支持不同类型与来源的外部数据导入,实现外部数据与分析平台数据的组合分析•通过Datalab,可以极大的提升分析人员的自主性与灵活性,实现各省分行分析团队都能在同一平台上进行灵活分析应用•数据分析平台将为数据分析的执行过程提供支撑,通过对数据分析的项目式管理支撑,可以提高工作效率,促进能力复用分析过程支撑平台内涵内涵功能要求•对数据分析的需求进行管理,为需求提供方与支撑方提供需求的整理、评估等过程支持•需求提出•需求分析•思路设计•方案评审•对数据分析的执行过程进行监控,包括完成情况,人员投入、时间周期等各类中间过程与结果的保存、共享等•对数据分析的产出物进行管理,包括分析报告、报告评审、营销应用方案以及反馈等内容•数据分析报告•成果评审反馈•中间结果管理•项目计划管理•完成情况监控•分析人员投入•数据分析平台将实现对数据分析工作的成果进行管理分析成果管理平台内涵成果固化业务应用知识管理内涵表现形式•将得到验证并需要重复进行的分析成果,以前端应用的形式固化在分析平台中•前端可视化应用模型报表..•将分析成果以各种方式在企业实际业务过程中进行应用,提高数据分析工作给企业带来的价值•以数据接口形式将客户信息与营销建议推送至生产系统或营销系统中•将挖掘出来的客户属性与偏好进行管理与展示•将数据分析中产生的知识与技能在企业内部进行广泛分享,提高知识的复用性•知识获取•知识编辑•知识分享•数据分析平台将实现对有价值的分析成果,以前端应用的形式固化下来分析成果固化固化范围固化方式•按照不同的业务目的与应用场景,选择合适的固化方式与展现形式•只有需重复进行,且经过验证过的有价值的分析成果,才需要进行IT固化常规的重复性的分析需求经过验证有业务价值的成果业务部门有强烈使用需求数据报表模型接口•以数据属性的形式固化客户偏好与知识•以分析报表的形式固化常用分析内容•以挖掘模型的形式固化复杂分析并定期执行•以数据接口的形式固化信息推送过程,或者通过第三方分析工具实现灵活查询分析•数据分析成果在实际业务应用中主要包括三种类型:即面向营销、面向客户服务、面向风险管控业务应用支持营销信息推送关键信息提醒内涵表现形式•将数据分析成果中的营销机会推送至生产一线系统或营销管理系统中,让一线执行营销活动•与一线生产系统或营销管理系统的数据接口•推送内容包括客户名单推荐产品管理建议营销方案•将数据分析成果中的关键信息以邮件、短信等方式推送到企业关键人手中,提醒其制定决策,执行有针对性的管理策略•在数据分析平台设定提醒规则,并通过短信或邮件方式进行提醒•推送形式包括短信邮件•在数据分析平台将建立一个获取、整合、分享相关知识的系统流程与环境,提升数据分析相关人员的分析能力知识管理•数据分析知识范围业务知识分析技能业务应用成功案例•对具体业务的背景知识与分析思路总结•对数据的处理技能•基础统计分析能力•数据挖掘与建模能力•分析成果的应用建立•营销方案的设计经验•营销效果评估结果•案例库的建设•相关文档的管理•知识管理功能要求•具备各类数据分析知识的上传与保存功能,并建立配套机制对上传行为进行鼓励•按照业务主题与知识类型对相关知识进行整合,建立目录管理•建立数据分析分享论坛,鼓励数据分析人员之间的知识共享与传播知识获取知识整合知识分享内容提要建设背景和当前现状系统建设目标数据分析平台的定位系统架构和功能设计数据模型设计系统逻辑架构功能框架技术架构数据架构数据架构-ODS•ODS在业务系统和数据仓库之间形成一个隔离层,转移一部分业务系统细节查询的功能,完成数据仓库中不能完成的一些细粒度查询•ODS源数据层数据内容和数据结构与源系统一致存储短期历史数据,支持历史数据查询支持增加数据和全量数据提供服务集中存储所有源系统数据,隔离对源系统依赖满足目标系统对高时效性和真实性的数据需求•ODS标准化数据层数据结构与源系统一致对源系统数据进行统一的标准化处理,包括数据定义和统计口径的一致性,避免各应用数据加工结构不一致存储短期历史数据支持增量数据提供服务数据架构-数据仓库数据架构-数据仓库•数据仓库基础层前端应用服务应尽量避免直接访问基础层数据保存时点全量和中长期历史数据数据具有全面性、整合性和高可用性主要以现有客管系统数据为基础,并按照NCR的FS-LDM模型进行数据整合•数据仓库语义层建立多层次的数据访问服务体系,以满足不同类型应用的需要。可分为中间层与应用层,中间层包含预处理层、汇总层与指标层汇总层一般实现各时间段或时间点各层级机构所辖范围内的卡片、账户、客户、渠道、产品、客户经理、凭证等各类汇总级别的整合预处理层按账户、卡、合同等业务实体计算出月度、季度或年度的轻度汇总数据指标层建立对账户、交易、资产余额等信息的多维分析数据集,从而建立起能满足全行业务发展、经营管理、战略决策、信息披露、外部监管与审计等各类行内外需求的全行统一指标库,并且全行各类报表都应以本指标库为基础生成,以确保报表数据的唯一性、权威性,并保证不同报表之间勾稽关系的一致性。应用层针对不同业务领域或组织机构,建立逻辑或物理的数据集市,在保证数据安全的同时,促进数据的使用数据架构-数据集市•数据集市固定集市提供各类查询服务提供OLAP多维分析服务提供数据挖掘服务提供数据实验室服务提供各类报表查询服务动态集市报表集市动态集市数据架构-历史库按照不同的归档周期和频率等参数设置,将ODS和数据仓库中的数据自动、及时归档为在线历史数据按照在线历史数据的归档周期和频率等参数设置,自动、及时将部分在线历史数据归档到离线库,存储在低端存储设备上。并且在需要时可做数据恢复,将磁带库数据临时恢复为在线历史数据中进行查询。•在线历史库•离线库数据分析平台访问结构基础整合数据数据库语义层指定数据集数据集市指定数据集定期报告BI工具数据结构AdHoc视图/虚拟Cube指定数据集分析报告AdHoc数据挖掘BI分析工具基础视图访问控制共享区访问控制应用区分析数据集应用视图/Cube安全视图应用视图/Cube内容提要建设背景和当前现状系统建设目标数据分析平台的定位系统架构和功能设计数据模型设计数据模型设计•设计思路以Teradata成熟模型产品NCRFS-LDM为蓝本,充分考虑到源业务系统各类信息和资料的实际情况和当前现状,驱动模型客户化•驱动模型客户化的主要因素在模型中记录一些模型产品中不包含的信息,需要对原模型产品进行扩展模型产品中的某些信息无法从源系统获取或对某些信息对本系统没有用处某些业务规则与模型产品假设的规则可能存在差异•客户化的主要工作内容在模型产品的既有结构上新增实体和属性删除模型的某些结构对现有结构进行修改数据模型设计•FS-LDM模型产品客户化的优点FS-LDM模型总结了全球二百多家金融机构的实