大数据时代,泽佳助力企业发展@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第2页数据无处不在任何时间,任何地点,任何事情,任何人?Anytime,anywhere,anything,anyone?休息中,随意刷微博爬山时,记录每一瞬间旅途中,处理公司事件工作时,实时掌握市场动态@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第3页大数据时代已经来到每分钟都有大量数据产生1min486笔订单(2012年11月)7.3万笔交易数(2012年双11)1.1GB文件下载9.5万条微博发送14万张照片上传70TB处理数据@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第4页企业大数据势不可挡Web3.0时代,社交媒体网站数据出现井喷式激增,截至2013年3月底,新浪微博注册用户数增长到5.36亿,日均活跃用户数达到4980万,每日新增微博约2亿。企业在大数据时代,面临文化、战略、组织、流程、信息化、公共公关系、人才培养方方面面的挑战,同时也迎来重大的转型机遇和飞跃契机。@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第5页大数据的特性价值Veracity体量Volume多样性Variety速度Velocity68%31%大数据包括结构化数据和非结构化数据,邮件,Word,图片,音频信息,视频信息。最新研究报告,到2020年,全球数据使用量预计暴增44倍,达到35.2ZB。沙里淘金,海量业务中寻找价值。1秒定律,实时获取所需要的数据,为决策提供依据。@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第6页企业大数据的挑战业务数据的映射提取大数据价值大数据隐私大数据分析@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第7页大数据和云计算的关系商业模式驱动应用需求驱动云计算改变了IT,而大数据则改变了业务云计算是大数据的IT基础,大数据须有云计算作为基础架构,才能高效运行通过大数据的业务需求,为云计算的落地找到了实际应用@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第8页大数据市场分析12011年-2016年中国大数据市场规模2各行业大数据市场规模政府、互联网、电信、金融的大数据市场规模较大,四个行业将占据一半市场份额。由于各个行业都存在大数据应用需求,潜在市场空间非常可观。2011年是中国大数据市场元年,一些大数据产品已经推出,部分行业也有大数据应用案例的产生。2012年-2016年,将迎来大数据市场的飞速发展。2012年中国大数据市场规模达到4.7亿元,2013年大数据市场将迎来增速为138.3%的飞跃,到2016年,整个市场规模逼近百亿。2012/122012/12泽佳建议的企业级大数据战略@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第10页大数据基础架构要求可预测的低延迟高事务参数灵活的数据结构获取组织分析决策高吞吐量就地准备所有数据源和结构深度分析敏捷开发高度可伸缩性实时流数据运营影响@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第11页大数据的解决方案体系@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第12页Oracle解决方案体系@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第13页IBM大数据解决方案体系@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第14页SAP大数据解决方案体系@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第15页泽佳大数据解决方案,以数据融合、综合处理为方向大交易数据大交互数据大交易融合大数据处理企业供应链消费者SNS互联网物联网移动终端OLTP实时交易处理OLAP实时分析处理SOCIALMEDIADATAOTHERINTERACTIONDATAMachine/DeviceSensors/meters/RFIDtagsCDR/mobileSD,MM,PP,SD,FICO。。。@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第16页泽佳大数据解决方案基础架构门户泽佳大数据平台快速、可靠大屏幕电脑桌面电子邮件SCMCRMERP数据分析人员办公软件移动终端安全,部署,管理灵活体系MESPDM@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第17页泽佳大数据解决方案整体架构企业内外部协同(供应商+企业内部+客户+银行+税务+政府+社区+…)外部信息(社交+电商+移动+视音频+…)开放式API和协议通用的设计和模型环境通用数据管理环境交易数据管理社交数据管理移动数据管理主数据管理内存数据管理企业数据仓库管理数据存储数据获取数据组织数据分析数据展现无线数据管理信息管理和实时数据迁移联合访问实时大数据平台门户数据分析电子邮件办公软件大屏幕电脑桌面移动终端企业级报告工具Adhoc即时查询例外分析非结构化数据探索预测与挖掘@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第18页泽佳大数据解决方案体系数据多样性模式动态模式HDFS分布式文件系统Hbase分布式列存储系统SybaseESP事件流处理器HdoopMapReduceBigDataConnectorsYounghongBI获取组织分析决策复杂场景处理实时决策ETLEDW@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第19页泽佳大数据应用主要技术—Hadoop据IDC的预测,全球大数据市场2015年将达170亿美元规模,市场发展前景很大。而Hadoop作为新一代的架构和技术,因为有利于并行分布处理“大数据”而备受重视。ApacheHadoop是一个用java语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式计算,它可以让应用程序支持上千个节点和PB级别的数据。Hadoop是项目的总称,主要是由分布式存储(HDFS)、分布式计算(MapReduce)等组成。@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第20页Hadoop体系架构MapReduceHDFSHBasePigChuKwaHiveZooKeeperPig是一个基于Hadoop的大规模数据分析平台,Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口。Chukwa是基于Hadoop的集群监控系统,由yahoo贡献。Hive是基于Hadoop的一个工具,提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。ZooKeeper:高效的,可扩展的协调系统,存储和协调关键共享状态。HBase是一个开源的,基于列存储模型的分布式数据库。HDFS是一个分布式文件系统。有着高容错性的特点,并且设计用来部署在低廉的硬件上,适合那些有着超大数据集的应用程序。MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第21页大数据解决方案特点泽佳大数据解决方案提供高速、低速两种互联解决方案,在节点间能够建立起40Gb的互联通路,彻底消除系统节点间通信的瓶颈。高性能高可扩展性高可靠相比较传统的数据库集群,泽佳大数据解决方案具有良好的可扩展性,随着数据节点的增加,系统整体性能接近线性增加。同时数据节点可以在系统运行中动态添加,对系统不会造成任何影响。因此企业可以根据自身业务需要,动态添加数据节点,当业务量较小时,配置较少的数据节点,随着业务量的逐渐增多,添加相应的数据节点,从而满足自身业务量增长的需求。泽佳大数据解决方案能自动地维护数据的多份复制,并且在任务失败后能自动地重新部署(redeploy)计算任务。同时消除系统单点故障,系统中任意一个部分出现故障,系统将自动进行切换,保证用户应用的无缝连接,具有较高的稳定性和可靠性。大数据行业应用分析@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第23页大数据行业应用分析应用可能性电信政府(公共事业)交通金融医疗教育能源(电力/石油)纵轴契合度:表示该用户的IT应用特点与大数据特性的契合程度;横轴应用可能性:表示该用户出于主客观因素在短期内投资大数据的可能性;注:该位置为分析师访谈的综合印象,为定性分析,图中位置不代表具体数值HighMidLowLowMidHigh优先关注行业用户应用特点与大数据技术有较高的契合度,在主客观条件上也有较高的应用可能性。值得关注行业用户应有特点与大数据的契合度及应用可能性综合较高适当关注行业用户两个维度暂时都不具备优势,可适当给予关注互联网(电子商务)契合度流通零售制造@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第24页互联网行业大数据需求分析网络终端设备•网络技术的升级和终端设备的爆发,使今天的用户能够使用多种设备、从不同位置、通过多种手段来接入互联网,并在这一过程中不断创造新内容在线应用和服务•越来越丰富的在线应用和服务,不断激励用户创造和分享信息,尤其是社会化媒体业务,带动图片、视频等非结构化数据飞速增长与各垂直行业的融合•互联网作为一个高渗透力的行业,正在与各垂直行业发生深度的融合,原本隐藏于先下的孤岛信息,源源不断的输入到线上。互联网行业拥抱大数据的关键因素互联网大数据技术的应用,会首先带动社会化媒体、电子商务的快速发展,其他的互联网分支也会紧追其后,整个行业在大数据的推动下将会蓬勃发展。互联网行业对数据实时分析要求较高,例如广告监测、B2C业务,往往要求在数秒内返回上亿行数据的分析,从而达到不影响用户体验和快速准确营销的目的。目前互联网企业面对大数据,会普遍感觉到实时分析能力差、海量数据处理效率低、缺少分析方法、分析软件能力差等问题。互联网行业大数据分析面临的主要问题@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第25页互联网行业Hadoop应用公司具体应用HADOOP在阿里巴巴用于处理商业数据的排序,并将其应用于阿里巴巴的ISEARCH搜索引擎,垂直商业搜索引擎。节点数:15台机器的构成的服务器集群服务器配置:8核CPU,16G内存,1.4T硬盘容量HADOOP在百度HADOOP主要应用日志分析,同时使用它做一些网页数据库的数据挖掘工作。节点数:10-500个节点。周数据量:3000TBHADOOP在Facebook主要用于存储内部日志的拷贝,作为一个源用于处理数据挖掘和日志统计。主要使用了2个集群:一个由1100台节点组成的集群,包括8800核CPU(即每台机器8核),和12000TB的原始存储(即每台机器12T硬盘),一个有300台节点组成的集群,包括2400核CPU(即每台机器8核