光环大数据--大数据培训知名品牌基于大数据技术的数据仓库应用建设_光环大数据培训随着利率市场化进程加快、互联网金融业态的发展,传统银行与实体经济的业务横向联系与深度融合进展迅速,业务数据的内容不断丰富,数据规模也不断增长。伴随着商业银行业务的快速发展,传统数据仓库技术架构面临越来越大的挑战,其表现如下:(1)大部分传统数据仓库对分布式并行计算模式的支持不够,难以实现处理能力的水平弹性扩展,依赖于服务器硬件的升级实现处理能力扩容,不仅成本非常高昂,而且受到服务器硬件升级周期较长的限制。(2)商业银行因业务复杂性和多样性的原因,现存的数据应用系统种类较多。在单个数据库系统处理能力有限的情况下,普遍存在应用各自独立建设,缺乏统筹规划,系统间数据处理职责划分不合理、口径不一致,存在大量的重复加工和数据冗余的问题。(3)传统数据仓库软件主要面向数据分析型应用,无法兼顾实时营销与实时风险管理等高并发、低延迟应用场景需要,较难处理非结构化数据,难以快速实现业务团队的数据探索、数据挖掘与业务建模需求。以Hadoop/Spark为代表的大数据技术发展迅猛,为解决传统架构的瓶颈带来了新思维。以大数据技术为基础的数据管理平台与传统数据库软件相比,具备如下优势:(1)更低的成本投入能够基于X86服务器弹性水平扩展,通过节点冗余增加容错能力,多核计算光环大数据--大数据培训知名品牌资源能充分利用,相比小型机方案成本低廉;利用本地磁盘做存储,节省昂贵的集中存储设备投入;软件产品和服务的价格更低。(2)更强的整体处理能力消除集中存储的带宽瓶颈,可采用SSD介质加速随机读写速度,获得极高的IO处理能力;针对并行计算需求设计,采用异步无锁的高并发服务框架,提供可线性增长的数据并行处理能力,可提供高并发低延迟数据处理服务。(3)更优的资源管理和调度机制可提供弹性的租户资源管理体系,防止不同应用之间的资源过度竞争,在不同时间段为各应用按需调配资源,利于在一个统一的数据平台上构建多个应用系统。处于业务发展的新阶段恒丰银行,更需要一个低成本可线性扩展的数据处理平台,解决企业多个数据应用形成数据孤岛,数据资源难以共享、数据标准不一、存在大量冗余数据的问题。恒丰银行在进行充分的可行性分析后,基于大数据平台重构优化了数据仓库及关联应用。同时基于统一的企业公共数据模型上构建发展各应用集市和分析集市,减少数据的重复加工和各数据应用的开发成本。最后,构建了包容实时数据应用和数据分析型应用的统一软硬件技术架构,同时满足联机数据查询和海量数据分析需求,提高数据应用的开发效率和增强了服务器资源有效利用率,减少了应用总体开发和部署成本。周期/节奏2015年7月,恒丰银行正式启动大数据平台建设项目。2015年底完成需求光环大数据--大数据培训知名品牌梳理、架构与应用规划。2016年1月,在开源软件、国产大数据平台的基础上,恒丰银行自主设计开发建设企业级大数据应用平台,利用全新的大数据平台技术全面重构了企业数据仓库应用。2016年5月在企业数据仓库公共数据集市成果基础上,结合大数据技术服务能力,升级改造原有的渠道、授信管理、审计、客户管理等系统,在客户服务、风险管理、内部管控、营销管理等多个业务领域开发基于大数据平台的创新。2017年延续大数据思维,将打造更加智能化的技术平台,整合深度学习、知识图谱、情感计算等前沿人工智能技术,自主研发智能决策引擎产品,与渠道和产品系统充分整合,为恒丰银行业务发展植入更加智慧的数据大脑。客户名称/所属分类恒丰银行/大数据技术服务任务/目标商业银行业务快速发展对数据应用的时效性和处理能力提出了更高要求,传统数据仓库技术普遍存在升级成本高、不能弹性扩容、并发处理能力较低的问题。探索采用大数据技术构建统一的企业级数据管理平台,重构数据仓库应用,减少数据重复加工与冗余存储,促进信息管理应用的数据融合共享,提高数据处理总体效率,提升数据分析和深度应用能力,正逐渐成为商业银行IT建设的热点方向。利用大数据技术可有效构建以数据仓库应用为核心、弹性扩容、资源相对隔光环大数据--大数据培训知名品牌离、多应用共存的分布式集群数据管理平台,有效解决长期积累的问题:(1)解决平台处理能力不足,应用分散问题分布式并行数据处理解决超大数据集的可计算难题,加速统计分析应用的响应速度;提供可统一调度的超大硬件资源池,多个上层应用和数据仓库可共存于一套集群环境,极低成本快速实现企业应用之间数据的共享与融合,减少数据跨系统复制导致的数据批处理时延,减少多个应用数据库独立部署带来冗余的数据存储成本。(2)强化数据仓库核心应用地位,实现企业数据治理目标数据仓库应用承担更多的基础与共性数据加工职能,有利于聚合应用共性需求,有效管控和实施数据标准,统一关键指标计算口径,易于实现数据治理目标。同时,建立统一的数据处理任务调度平台,多个数据应用可以和数据仓库应用整合,统一配置数据批处理任务和调度依赖关系,复用数据仓库建立的企业数据模型资源,更清晰划分数据处理职责边界,减少数据重复加工和开发成本,缩短各应用数据批处理时间,实现各系统每日尽早开放服务。挑战大数据技术是一种新型的技术,从接触概念、了解技术到大数据平台落地,会遇到了多方面的挑战,主要体现在大数据产品的选择、平台架构与应用的规划,人员培养三个方面。大数据产品选型光环大数据--大数据培训知名品牌以Hadoop/Spark为代表的大规模数据处理技术为超越传统数据库的处理局限性提供了先进的并行计算和资源调度框架。但也应该看到大数据相关技术还在发展的初级阶段,开源版本产品在满足企业级应用场景的需求时,还存在明显的局限性。高并发低延迟、应用开发成本低、平台功能完善是恒丰银行大数据产品选型的基本需求,软件产品在系统架构设计上应尽量突破开源版本的技术局限性,吸取传统数据库技术的成功设计经验,才能更好地满足企业应用场景的需求。选择的大数据产品应满足以下特点:(1)兼顾大数据批量处理和小样本数据精确查询统计的性能需求系统应该在全量数据并行处理和小样本数据快速过滤两种场景都有高性能表现,同时能并发处理尽量多的小样本数据计算需求。(2)优化的数据存储与访问管理模型支持表索引、数据分片(sharding)/分区(partition)、行列混合存储、数据块分布统计、复制表等概念,减少数据插入、更新和访问的总体IO时间成本。(3)有效合理利用资源减少JVMInbox/OutBox与多层数据复制引发的内存膨胀,尽量避免出现JVMGC引发的性能抖动,减少跨网络节点的大量数据广播,避免不必要的重复计算。(4)易于开发和原有应用尽量平滑迁移支持SQL2003标准,在TPC-H、TPC-DS基准测试上有良好表现,对主流传统光环大数据--大数据培训知名品牌数据库的专用特性(如Oracle存储过程)提供了必要的兼容性支持,在API设计和开发工具软件支持等方面减少系统迁移和新项目开发成本。(5)高度容错能力同时支持ErasureCode1.5副本和3副本以上的数据容错和快速修复;消除全系统软硬件单点故障,任何单点失效都有容错部件接管服务职能。(6)友好的运维监控界面,提供外部集成接口集成化的运维监控管理页面,同时可为行内集中监控系统提供软件部件实时状态信息与故障告警服务接口;可以跟踪当前作业任务进度和资源使用情况。可详细持续记录SQL执行计划和实际成本消耗,统计分析资源消耗较多的热点SQL。(7)支持在线扩容系统能够动态不停机扩容,可自动实现数据自动重分布,扩容时现有系统可以不间断正常运行。平台架构与应用规划大数据产品源自广泛的开源技术,是多种分布式存储、计算引擎与资源调度的有机组合。架构与规划的难点在于需要架构设计人员清楚地了解各类存储引擎的适用场景,对应用并发、时效性、资源消耗等需求有明确的认识,合理地组合各类存储,设计数据流转,才能发挥大数据技术的优势。同时,需要对上层应用进行分类,针对不同的分类要分配不同的计算、存储资源,细化资源隔离与管控的粒度,充分合理地利用硬件资源。光环大数据--大数据培训知名品牌人才培养大数据平台技术平台比传统数据库技术复杂得多,对开发实施团队的技术理解能力要求很高,参与人员的技术培训和辅导是个长期的过程。按人员专长成立了技术架构设计、基础环境支持、应用项目开发、性能测试与系统优化、数据模型设计、数据分析与建模、数据标准治理等多个专业小组,各施其职、通力协作。由于项目使用的大数据技术较新,基础软件产品也处于迭代开发中。恒丰银行致力于打造一个学习型组织,加强包括行内员工和合作开发公司员工的技术培训,对大数据应用开发的难点编写培训教程和制定开发规范,建立微信学习群,不定期的分享开发经验和剖析不良的实现案例,做好了分层知识传导,帮助大家在实施开发过程少走弯路。实施过程/解决方案技术平台能力要求企业应用数据能力按数据处理时效性可分为:(1)离线批处理。T+1日时效性的数据应用,在企业内部目前占大多数,包括传统的数据仓库应用和CRM等系统应用等。(2)准实时应用。能够在生产数据产生后1分钟处理完的应用,一般形成生产系统是松耦合的旁路数据流关系。主要基于大数据的流处理技术实现,一般设置一定的数据采样时间间隔,通过系统在线日志数据采集或网络报文旁路方式提取业务发生数据,为交易监控、风险预警、客户服务提供接近实时的处理能力。光环大数据--大数据培训知名品牌(3)实时应用。能够在生产数据产生后的1秒内甚至几毫秒内完成的应用,主要与生产系统形成协同服务支持关系,通过企业内部服务同步调用或异步消息事件处理方式实现与客户交互或交易过程中基于大数据的深度加工处理能力。典型实现方式是构建实时流处理与实时事件总线相结合的实时处理架构,构建渠道端的异步事件处理能力。典型的应用场景有实时交易反欺诈、个性化场景营销服务等。从技术支撑能力按从易到难顺序可以分为如下阶段:(1)支撑海量数据存储和低延迟联机查询。将企业主要数据汇聚到一个平台上,支持大并发的低延迟联机查询,这也是一般企业应用大数据能力的初步目标。(2)支持统计分析应用。包括即席业务统计报表、多维业务数据分析、客户群体细分等应用,一般可替代传统数据仓库的主体功能。(3)数据探索与业务预测。支持业务分析团队的数据探索和业务建模实验,实现诸如业务趋势预测、客户行为预测等高阶应用。(4)决策支持能力。通过应用决策树、规则推理引擎、运筹优化技术,实现客户定价、风险预警等领域特定业务问题的机器自动化流程管理和简单人机交互方式的辅助业务决策支持应用。(5)自主学习能力。通过引入深度学习网络、知识图谱、遗传演化等智能技术构建相对复杂的机器智能学习体系,能从海量数据中提炼高价值信息,构建自主训练与反馈、可不断从最新数据中调整演化的智能业务模型体系。企业数据管理平台功能层次光环大数据--大数据培训知名品牌数据管理平台按企业数据能力需求的功能实现,可分为如下层次:(1)数据存储层。对应不同应用需求场景和业务数据特点(更新频度、生命期、数据价值密度),可整合不同的底层存储技术和不同的数据库引擎,实现多样化的数据存