湖北移动大数据技术交流娄恒Exadata资深解决方案顾问Copyright©2013,Oracleand/oritsaffiliates.Allrightsreserved.InsertInformationProtectionPolicyClassificationfromSlide122议程大数据范畴和参考架构大数据平台典型案例大数据的各种技术特点和发展趋势Oracle端到端大数据平台方案什么是大数据?具有4V特性的数据称为大数据•巨大的数据量(Volume)•海量的话单信息(语音话单、短信话单、GPRS话单)•海量信令信息(用户位置信息、开关机信息、异常断线信息)•互联网网关信息(URL信息、查询关键词)•社交媒体、M2M数据•多结构化数据(Variety)•短信文本信息•CallCenter投诉信息•DPI/WAP日志/WEB日志/电渠点击流/社交媒体•增长速度快(Velocity)•信令数据、话单信息、互联网数据增长速度很快•业务上需要能够对客户行为进行快速的分析(FastData)•低价值(Value)•单条的数据没有太大的价值,需要基于对大量数据的挖掘与分析才能发现隐藏在数据背后的“客户特征”巨大的数据量VOLUMEVELOCITYVARIETYSOCIALBLOGSMARTMETERVALUE101100101001001001101010101011100101010100100101Copyright©2013,Oracleand/oritsaffiliates.Allrightsreserved.InsertInformationProtectionPolicyClassificationfromSlide124对大数据建设的观点以前实时交易数据被看作为应用的血液,非结构化的碎片化数据看作为应用的排泄物;大数据给我们带来的价值是把许多信息碎片拼起来,更好地洞察客户、发现规律,为我们的决策来服务。以前数据依附于具体业务而存在,在大数据时代,数据可以作为一种独立的存在,数据的―资产‖性价值越来越引起人们的重视。从业务引领数据发展为数据驱动业务;大数据时代最大的挑战是如何从大数据中获取―价值‖。从大数据中获取最大价值,需要探索式的研究方法。大数据环境中,数据科学家职责会产生,这种科学家既要熟悉商业环境,也要有操作层面的知识。大数据价值链的三个C即(Collect—收集、Consolidation—整合、Consumptions—消费)。对大数据技术进行规范是问题的关键。从强调监管大数据的收集,转向重点监管大数据的实际使用。Copyright©2013,Oracleand/oritsaffiliates.Allrightsreserved.InsertInformationProtectionPolicyClassificationfromSlide125建设大数据平台必需要回答的问题选择和构建怎样的数据架构?–不同的技术路线:RAC、MPP、Sharding、Hadoop、NoSQL、流技术……–不同的数据类型:交易数据、信令、网络日志、VAS、外媒信息–不同的应用需求:交易、查询、分析、数据服务怎样挖掘丰富的数据价值?–例如:信令数据--位置、住址、工作地、行为特点、兴趣喜好、轨迹、交往圈、…–项目式建设vs开放平台、百花齐放5Copyright©2013,Oracleand/oritsaffiliates.Allrightsreserved.InsertInformationProtectionPolicyClassificationfromSlide126系统参考架构跨SQL和NoSQL平台的数据集成高并发、实时化的数据访问数据加工平台(数据工厂)实时流数据处理批量数据处理数据服务平台(数据超市)Copyright©2013,Oracleand/oritsaffiliates.Allrightsreserved.InsertInformationProtectionPolicyClassificationfromSlide127数据工厂-Hadoop定位:离线数据批量处理Copyright©2013,Oracleand/oritsaffiliates.Allrightsreserved.InsertInformationProtectionPolicyClassificationfromSlide128数据超市-SQL数据库:数据查询服务MyFOX是一个针对OLAP能力设计的高性能分布式MySQL集群中间层,目前单集群存储容量达100TB,日均请求量超过1亿。由亍底层的分库分表设计,造成前端数据读写业务受到限制,从而要求前端业务牺牲一定的灵活性和自由度。Copyright©2013,Oracleand/oritsaffiliates.Allrightsreserved.InsertInformationProtectionPolicyClassificationfromSlide129SQL虽牛,但是…如果继续用SQL来存储数据,怎么建索引?Copyright©2013,Oracleand/oritsaffiliates.Allrightsreserved.InsertInformationProtectionPolicyClassificationfromSlide1210数据超市-NoSQL定位:历史数据实时计算和查询□为了获得数据快速访问•明细数据大量冗余•通过API接口去操作HBase□牺牲磁盘容量,以得到•避免明细数据网络传输•变大量随机读为顺序读□NoSQL是SQL的有益补充□历叱数据的实时计算□空间换时间Copyright©2013,Oracleand/oritsaffiliates.Allrightsreserved.InsertInformationProtectionPolicyClassificationfromSlide1211数据超市-数据应用:多租户的产品数据集市自由的计算能力支持标准SQL语法支持orderby/groupby/limit支持大表Join支持常规的统计分析函数(count/sum/avg/max/min)支持distinct支持常规的数学、字符串、日期函数Copyright©2013,Oracleand/oritsaffiliates.Allrightsreserved.InsertInformationProtectionPolicyClassificationfromSlide121212淘宝数据的发展方向:实时化、高并发、差异化Copyright©2013,Oracleand/oritsaffiliates.Allrightsreserved.InsertInformationProtectionPolicyClassificationfromSlide1213对数据操作的“分而治之”13数据结构的去模式化、简化了数据关联访问需要牺牲部分业务作为代价增加应用逻辑的处理过程Copyright©2013,Oracleand/oritsaffiliates.Allrightsreserved.InsertInformationProtectionPolicyClassificationfromSlide1214数据一致性存在问题数据分割后,数据一致性维护越来越困难,非重要业务需要牺牲Copyright©2013,Oracleand/oritsaffiliates.Allrightsreserved.InsertInformationProtectionPolicyClassificationfromSlide1215关键技术架构总结:强大的开发集成能力□关系型数据库仍然是王道(支持前台分析和查询)难点:Sharding分库:开发、扩展、拉关系□NoSQL是SQL的有益补充(实现Cube功能)难点:通过大量数据冗余避免网络传输和随机读□用中间层隔离前后端难点:异构数据源的整合□缓存是系统化的工程难点:数据一致性、穿透不雪崩Copyright©2013,Oracleand/oritsaffiliates.Allrightsreserved.InsertInformationProtectionPolicyClassificationfromSlide1216议程大数据范畴和参考架构大数据平台典型案例–福建移动:大数据中心–广东移动:DataStore–江苏移动:数据中心大数据的各种技术特点和发展趋势Oracle端到端大数据平台方案Copyright©2013,Oracleand/oritsaffiliates.Allrightsreserved.InsertInformationProtectionPolicyClassificationfromSlide1217福建移动放弃原有技术路线,转向新一代技术平台业务能力优化•原MPP平台无法满足业务对混合负载、高并发要求•通过数据库云实现快速业务部署技术能力提升•性能提升15倍、加载提高10倍、压缩比提高5倍•与生产Oracle无缝对接,实现实时数据加载和分析购买成本•Teradata31节点,共购买了5次,累计投资额超过1.6亿,每次投资超过3000-4000万,年均投资2000W•Exadata2台,年均投资低于1000万维保和运维•2013年约下降40%,2014预计将进一步下降•与其他Oracle平台统一化维护、管理、备份,降低间接运维成本0100200300400500600700800201220132014每年维保费用(万元)OracleTeradata59.29%40.10%0.62%性能提升百分比15倍以上5-15倍5倍以下Copyright©2013,Oracleand/oritsaffiliates.Allrightsreserved.InsertInformationProtectionPolicyClassificationfromSlide1218Exadata演进为企业级大数据中心平台根据NG-BASS系统逐步向企业级大数据中心平台演进策略不目标,总体系统演进将分阶段推进实施,第一阶段搭建企业级大数据中心平台系统框架不管理平台,同时满足2014年底大数据分析要求的系统能力。根据我省经分系统现状以及近期正在实施流量经营基础数据支撑平台情况,对标企业级大数据中心平台目标系统架构,明确系统建设内容。备注:红色部分新建黄色部分提升绿色部分已建Copyright©2013,Oracleand/oritsaffiliates.Allrightsreserved.InsertInformationProtectionPolicyClassificationfromSlide1219福建移动账务系统:原数据库负载特点生产系统特点,最高的等待事件为索引读,为传统OLTP应用,平均IO响应时间为2毫秒。DBCPU,26.04%UserI/O,68.27%SystemI/O,5.12%Commit,0.32%Network,0.24%数据库时间分布DBCPUUserI/OSystemI/OCommitNetwork传统小型机加存储,硬件配置如下:服务器:2台IBMPower7780,构成HA,,每台配置处理器:32核(Power7主频3.92GHz)内存:256GB存储:配置1台EMCVMAX10K,使用SRDF-A异步存储复制到容灾端内存:128GB(镜像后)磁盘:RAID10磁盘个数:81个300GB15KRPM(其中9个hostspare)Copyright©2013,Oracleand/oritsaffiliates.Allrightsreserved.InsertInformationProtectionPolicyClassificationfromSlide1220对比项IBM+EMCExadata提高倍数说明CP