华为大数据解决方案汇报--FusionInsight金融大数据解决方案1Content大数据发展趋势13华为大数据平台行业实践2华为大数据平台关键技术4华为大数据平台案列详述2未来银行:客户更加移动化、个性化、社交化,实时化固定时间地点获取服务被动接受数据寻求更多资源信任市场信息被动接受传播传统客户随时随地获取服务分析、创造数据寻找有意义的体验互动参与内容、产品和体验的创建审视细节新客户传统银行关注过程和步骤固定渠道单一交互通过客户经理联系客户标准化和产业化提供服务被动接受信息且信息来源单一关注场景营销客户运营客户服务客户个性化的灵活服务效率全渠道新银行3第二数据平台成为驱动业务创新的新平台或有金融资产统一历史明细在线征信精准营销实时营销第一数据平面:交易核心单次、事务性第二数据平面:大数据平台并发、查询/分析POSATM柜面电话银行网上银行金融脉络关系实时批量互联网大数据业务:实时在线性业务持续性跨多元数据对大数据平台的要求:企业级质量标准:金融等保、可靠、易用;支持现有系统的对接。开放性:多分析引擎统一管理,满足多样化的数据分析场景挖掘能力:支持机器学习、深度学习等新的数据挖掘能力,实现更精准的洞见4数据:存量.增量.行内.行外交易明细帐户明细帐户影像日志社交信用行外数据行内数据企业数据平面历史数据越来越多非结构化数据越来越多社交、网购数据“在大数据领域,不能充分形成大数据使用能力的竞争者将被淘汰”-McKinseyGlobalInstitute业务系统数据分析5混合型数据平台-体系架构新核心系统老核心系统客户系统外围系统渠道系统外部系统操作型数据区数据交换区数据采集和交换平台集成型数据区实时事件处理平台历史数据区历史数据平台分析型数据区监管报送平台统一报表平台管理会计系统流动风险系统市场风险系统数据挖掘平台国家审计平台应用服务区应用服务器报表工具WEB服务器即席查询数据挖掘工具历史数据访问应用技术缓冲层贴源模型层共性加工层大数据平台ETL调度数据标准元数据数据质量数据管控数据交换基础模型层传统平台应用集市层基础数据平台6对应系统:客户管理系统、各类产品系统、帐务处理系统、各类渠道系统、管理流程系统。功能定位:主要承担面向客户的交易、帐务处理,面向内部的流程、事务管理等功能。数据特征:存储业务处理和流程管理过程中产生的客户、协议、账户、交易等原始数据,数据基本为当前状态,保存一定周期的交易流水数据。混合型数据平台-数据区域对应系统:主要是历史数据平台。功能定位:根据数据生命周期管理,承担对操作型系统、分析型系统的历史数据,以及数据集成平台部分历史数据的在线归档保存,为客户交易明细历史查询、公检法查询等应用提供支持。数据特征:状态类数据采用全表历叱拉链存储,交易类数据保留长期历史。操作型数据区对应系统:基础数据平台、大数据平台和实时事件处理平台。功能定位:实现全行关系型结构化数据、非结构化数据的处理,包括离线分析和实时事件数据的集中管理和加工,为业务运营和决策分析提供数据支持。数据特征:1.利用大数据技术,实现ODS、EDW、汇总层数据统计等一系列的离线数据分析功能,而传统数据库则实现复杂的交于和事务处理逻辑。2.大数据平台同时可以实现非结构化数据的集中管理,结构化及非结构化数据的初加工为主;3.实时事件处理平台以实时事件数据的集中管理和加工为主。集成型数据区对应系统:统一报表平台、监管报送平台、管理会计、风险管理等系统。功能定位:主要获取数据集成平台提供的汇总数据,按照应用主题进行数据的高粒度汇总加工、图形化分析和展现。数据特征:存储汇总、聚合类数据,主要以星型结构、宽表等形式存储,存储周期较长。分析型数据区历史数据区7数据处理技术分布式演进趋势:Hadoop成为开放的事实标准SMPHadoop特点:ShareEverything结构化、关系型FlashCache+分布式块存储+IBSMP+MPP混合MPP特点:ShareNothing开放,、全球生态结构化、半结构化、非结构化高性能、实时特点:ShareNothing结构化、关系型通用的硬件特点:单机、Scaleup性能存在瓶颈扩展性差8内存计算兴起,Hadoop生态系统持续壮大实时化:内存计算兴起Hadoop生态系统持续扩大AMPlab开发的Spark,提供迭代式内存计算模型,非常适合用于数据挖掘算法的并行化预计Spark将成为编写和分享数据挖掘算法的标准平台Spark目前已经成为Apache顶级项目Hadoop2.0发布支持多种计算模型调度的Yarn,实现多种计算模型在同一个集群中并存,将帮助Hadoop进一步巩固大数据生态圈。HDFS和Yarn成为Hadoop核心平台性组建,不断吸收更多组建集成到Hadoop。HadoopHDFSStormMapReducePigHiveYARN/ZookeeperSparkHBaseFlumeSqoopIntegrationBatchProcessingInteractiveAnalyticsSearchMachineLearningComplexEventProcess3rdPartyorcustomizedwordloadImpalaSolrMLLIB融入混合负载的统一计算平台,满足数据多样化9Content大数据发展趋势23华为大数据平台行业实践1华为大数据平台关键技术4华为大数据平台案列详述10全球布局、全面覆盖大数据领域关键技术西安研究所:大数据算法(IT)Hadoop产品化(IT)ELK/MPPDB(高斯实验室)深圳研发基地/香港:大数据洞察平台(IT)大数据解决方案(IT)数据挖掘算法(诺亚实验室)印度研究所:Hadoop(中央软件院)数据可视化(中央软件院)MOLAP(中央软件院)美研所:Spark(中央软件院)ELK/MPPDB(高斯实验室)大数据系统加速(香农实验室)欧研所:分布式内存DB(中央软件院)分布式计算算法(中央软件院)杭州研究所:Hadoop(中央软件院)Spark(中央软件院)流计算(中央软件院)加研所:Yarn/大规模调度硬件加速(中央硬件院)金融大数据分析(IT)俄研所:大数据算法(香农实验室)11华为在社区的贡献12会使用Hadoop会定位周边问题会定位内核级问题(拔尖的个人)定位内核级问题的团队(依赖团队而不是精英个人)能够独立完成支撑关键业务特性的内核级开发能够带领社区,引领社区完成面向未来的内核级特性开发能够创建新的社区顶级项目,并且得到生态系统认可强大的Hadoop内核团队支持的开发与产品交付能力,企业级运营支撑能力Apache开源社区生态系统组件多,代码量大组件更新块特性无有效整合华为积极参与spark社区贡献,主导SparkSQL升级支持hive0.13,其中合入社区patch150+,公司贡献在社区排名第三。强大内核开发团队提供企业级的开源支撑能力企业版的关键在于工程团队的能力及与周边生态环境的对接能力某大银行CIO:“我们把大数据应用视作是生命线,肯定是采用企业版,因为搞开源软件不是我们的主业。在选合作伙伴的时候,我们一定考虑门当户对,因为强有力的合作伙伴才能保证5~8年的供应、合作安全”13华为大数据:提供大数据存储、处理、分析和服务平台Manager统一管理通用X86服务器分布式存储数据处理平台大数据基础设施数据集成平台收集清洗转换特征/模型/挖掘/可视/服务数据洞察/数据服务电信详单查询、经分分析、精准营销银行全生命周期分析、历史明细、精准营销、在线征信与风控等行业应用政府交通、公安情报分析、人口管理海量数据存储,批处理,流处理、交互式分析14HIVE/Impala/ElkHDFS/HBaseM/RSparkPorterMinerDataFarmHadoopStormSolr系统管理Farmer元数据管理ManagerHadoopAPIPluginAPIOpenAPI/SDK应用服务层REST/SNMP/SyslogDataInformationKnowledgewisdomYarn/Zookeeper安全管理MPPDBFusionInsight的Hadoop层提供大数据处理环境,基于社区开源软件增强,按照场景选择业界最佳实践FusionInsight的DataFarm层提供支撑端到端数据洞察,构建数据到信息到知识到智慧的数据供应链,其中包括相对独立的数据集成服务Porter、数据挖掘服务Miner和数据服务框架FarmerFusionInsightManager是一个分布式系统管理框架,管理员可以从单一接入点操控分布式集群,包括系统管理(OM/NTP/灾备)、数据安全管理和数据治理大数据软件平台FusionInsight15Porter用来简化大数据的数据集成除了开源的Sqoop2支持的DB和HDFS外,porter还支持从SFTP,FTP和NAS进行数据导入和导出除了Sqoop2支持的HDFS外,porter还支持数据注入到HBASE并提供功能丰富的rowkey生产机制Sql请求和响应可以通过SFTP和FTP提交,实现和现有系统的无缝集成轻量汇总的Sql和结果可以通过SFTP和FTP提交,并且能够自动调度按天/按月调度。FusionInsightPorter:大数据全能搬运工RMDBHadoop•HDFS•HBaseSFTPServerFTPServerOtherDataSourcePorterDB文件服务器MR/spark/Hive任务提交目标系统HDFS/HiveHBaseRDMS数据数据FTP/SFTP/NFSJDBCPorter16FusionInsightMiner:基于分布式内存计算的数据分析平台主要特点:端到端分析平台:一站式平台支撑数据分析全流程特征工程/社交化:特征复用;支持1,000万维度建模算法:自研HiGraph算法,,比MLlib快3~5倍开放性:对Operator的扩展性;与R无缝对接;与SAS、SPSS等对接;业务驱动:基于业务问题驱动的闭环解决方案,比如推荐引擎使能套件act典型数据挖掘业务理解数据理解数据预处理特征提取模型模型构建模型模型模型评估模型模型应用应用效果评估结束开始模型评估好应用效果好典型数据分析流程①②③FusionInsightMiner数据探索并行化机器学习算法库(Mahout/MLlib/HiGraph)建模分析可视化行业应用使能器(Enabler)金融行业模型使能套件电信行业模型使能套件通用使能套件(标签管理、推荐引擎)特征工程数据处理平台①②③0500100015002000Top1000Top10000Top60000Conversion专家系统学习系统40x14000Dimensions17FusionInsightFarmer:大数据应用使能器ServerorVMPaaSBLU1FarmerSDKDeployonDeployonAccessLoadBalance&MQRegisterREST:REQ/RESPManager客户开发的应用RESTMQRedisHadoopHadoopAPIFarmerSDKBLU2BLU3Container大数据实时应用使能器,支撑企业快速开发基于大数据平台的应用。1、分布式大数据服务框架和标准服务(如推荐)二次开发SDK,透明化访问Hadoop,聚焦业务逻辑高可靠的分布式处理框架,去中心化的负载均衡能力,和服务实例的弹性伸缩能力基于Activiti的服务编排支持应用的灰度发布隔离的轻量级应用容器2、多协议接入和缓冲简化应用集成高性能的多协议接入部件,通过ALB隐藏内部拓扑细节高性能、高可靠消息队列部件热点数据redis加速18为行业业务负载优化的统一大数据处理平台FusionInsight用100%开源的核心支持混合负载,从批量、交互查询、数据挖掘,到实时流和查询等各种场景开放式存储格式(Rcfile/ORCfile/Parquet),以避免锁定私有文件格式所有的组件都通过M