大数据的实时分析与应用案例分享

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

大数据的实时分析与应用案例分享上海云人信息科技有限公司个人简介吴朱华,专注于云计算和大数据这两个方向,之前曾在IBM中国研究院参与过多款云计算操作系统的开发工作,包括PureSystem的原型机,同济本科,并曾在北京大学读过硕士,在2010年底组建上海云人科技团队,在2011年中发表业界最好的两本云计算书之一《云计算核心技术剖析》,在2013年的3月被福布斯评为中国30岁以下30位创业者。《云计算核心技术剖析》大数据的时代来自麦肯锡的报告,未来的10年里,数据和内容将增长44倍,并且这些数据有无法估量的价值;对于很多以数据为资产的行业,BI决定公司的核心竞争力。比如互联网广告,金融机构,大数据实时分析工具对他们而言,就等同于竞争武器,快或慢一秒钟,往往就意味着财富的得与失。对传统行业来说,大数据的冲击来自三个方面:数据终端数量的增长,例如智能电网和物联网;数据维度的变化,例如消费行为与社交网络的关联;商业模式和管理模式的变化:例如从产品消费到信用营销,从经验和直觉决策到数据智能决策。三个因素组织在一起,使大数据发生了几何级数的增长。大数据需求新兴行业业务传统新兴传统快例如电信账单分拣:从两周到一天大例如智能电网:一个业务系统每天20亿条记录快阿里巴巴:从商品销售到保险信贷转型大快社交网络电商实时数据挖掘,广告跟踪部署简单商业模式转变终端数量激增竞争格局改变BI决定核心竞争力大数据的阶段第一个阶段:自身业务需求产生大量数据,利用这些数据,通过深入证析,优化相关业务;第二个阶段:搜集与目标业务直接或间接关联的大量异质数据,建立复杂的分析和预测模型,产生针对目标业务的输出;第三个阶段:随着整体数据相关的法律不断补充,以及技术不断成熟,形成一个完善的数据生态,包括数据市场,数据运营商和数据商店等。从技术角度而言,趋势是更实时,越快越好,更全面数据分析需求,包括SQL、挖掘算法,以及以DeepLearning为代表机器学习技术。大数据实时分析的目的实时决策能力;提高业务效率;快速智能发现新观点和商业机会;提供业务产出;提升IT效率;大数据实时分析所需的技术支撑大数据秒级,甚至毫秒级的处理;上千人的并发访问;支持SQL标准,特别是OLAP相关的语句;数据的安全和集群的稳定型;大数据实时分析的技术选型Hadoop系列:Hive,Impala;NoSQL类别:MongoDB,HBase;传统关系型数据库:Oracle,DB2,MySQL;传统列式数据库:Infobright,MonetDB;新一代基于内存计算的数据库?技术选型的对比图秒级处理并发SQL支持安全和稳定HadoopNoDependsDependsYesNoSQLYesYesDependsDepends传统关系型数据库DependsYesYesYes传统列式数据库YesDependsYesDepends基于内存技术的新一代数据库????YunTable是在从分布式数据库的基础上发展而来,同时加入一些NoSQL的基因的新一代大数据实时分析数据库,并且支持内存计算,比较接近SAPHANA。系统架构核心特性大数据,秒级内存计算;采用廉价的x86硬件;自动线性动态扩展至数百台集群;每秒GB级别吞吐量,PB级别存储量;SQL92特性覆盖,并提供多平台的SQL驱动,还支持R;核心技术并行处理行列混合存储压缩内存计算并行处理:数据复制分布存储在不同的节点上并行处理内存本地化:把大数据量和计算量分散到不同处理器高可用性:任何节点宕机将不影响数据完整和业务连续性核心技术(一):并行处理数据源C1C2C3C4C1‘压缩C2‘压缩C3‘压缩C4‘压缩C1‘复制C2‘复制C3‘复制C4‘复制节点1节点2节点3行分区保留数据关联列式数据组织高效的数据压缩快速的数据聚合优化的数据上载到中央处理器专利的索引结构核心技术(二):行列混合存储核心技术(三):高效压缩多种无损压缩算法;列式数据组织,整体压缩率高达10~20倍以上核心技术(四):内存计算硬件性能提升结合YunTable软件技术创新,使原来通过大量磁盘读写处理的海量数据,可以在服务器的主内存中实时处理,提供实时统计分析结果!硬件性能的提升X86多核技术64位地址空间—单台服务器内存容量可达2TB软件技术创新行列混合存储高效压缩数据分片高效索引增量插入具体实时分析场景目标市场金融证券高频交易量化交易互联网与电商用户行为分析商品模型分析信用分析电信业务支撑系统统一营帐能源电厂电网监控用电信息采集分析其他行业智慧城市物联网大数据资产实时分析案例:互联网主要业务应用:电商交易分析,社交网络,位置信息服务,广告交易、跟踪分析等典型用户:某互联网广告公司广告投放效果实时监测数据规模:100亿条记录关系型数据库的问题:不能满足10亿条以上记录的存储和查询要求Hadoop的问题:不能满足结构化数据的存储和实时查询要求解决方案:1、技术团队自行开发(例如淘宝,腾讯,新浪微博),优点:可以根据业务流程进行模型优化,获得良好性能;缺点:对技术团队开发水平和人员数量要求高,总体维护成本很高;2、选用Yuntable和Exadata、Hana、Greenplum,优点:使用和管理简单;缺点:后三家购置成本高,性价比不高导入操作的性能比较查询操作的性能比较项目YunTable指标(秒)频次分析9.492重合度分析16.625多维度分析11.408具体的性能测试结果测试环境:YunTable3台4核64G内存Dell服务器数据场景:2.3亿条互联网用户访问记录数据实时分析案例:物联网主要业务应用:海量数据终端信息采集与用户行为分析典型应用场景:智能电网用电信息采集(子系统)InternetInternet数据采集服务器集群传感网络YunTable实时分析数据库实时数据RTDBETL工具SQL(ODBC/JDBC)SG168ERP计费系统采集业务无线采集器数据集中器商业建设的案例-某物联网企业2012年底,我们团队参与了某核心企业大数据实验室的建设,并且建设过程中,我们在性能方面与Oracle数据库进行了正面的PK。在本次PK中,我们无论在导入和分析等性能方面,都远胜Oracle。导入操作的性能比较分析操作的性能比较实时分析案例:金融主要业务应用:量化交易,高频交易典型场景:证券公司量化交易平台及各子系统第三方行情数据库第三方分析数据库Level2实时行情源Level2实时行情源量化交易执行系统CEP引擎(Apama,SybaseAleri)行情计算服务日内K线计算分钟RSI计算计算平台计算接口量化交易策略行情数据中心分析数据历史行情数据YunTable数据接收接口数据转换工具策略执行结果评估回测仿真快速交易系统成交回报推送系统模拟盘实盘交易所历史高频行情数据回放高频实时数据具体性能表现查询时间单日业务数据统计0.36秒单周业务数据统计0.58秒单月业务数据统计1.25秒单日股票代码汇总分析2.27秒单日多列汇总分析2.71秒单日账户汇总分析4.43秒单月股票代码汇总分析3.86秒单月多列汇总分析5.09秒单月账户汇总分析8.12秒实时分析案例:电信运营商主要业务应用:BOSS/NGBOSS系统及各子系统典型应用场景:NGBOSS业务运营支撑系统及各子系统交换中心CSC业务管理YunTable运营数据存储与提供商业智能运营管理订单枢纽帐务枢纽客服枢纽鉴权枢纽决策支持YunTable分析数据服务、数据集市、数据仓库管理分析运营支持经营分析运营监控管理YunTable运营管理数据存储与服务收入保障人员管理知识管理纵向管理流程调度业务流程调度管理统一产品目录管理统一业务资源管理全网结算数据集成支撑网网管交换节点PSN订单枢纽帐务枢纽客服枢纽鉴权枢纽网管数据枢纽中心数据信令传输网管业务枢纽网管枢纽节点数据NGBOSS统一接入门户Q&A

1 / 31
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功