大数据时代,泽佳助力企业发展@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第2页什么是大数据@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第3页数据无处不在任何时间,任何地点,任何事情,任何人?Anytime,anywhere,anything,anyone?休息中,随意刷微博爬山时,记录每一瞬间旅途中,处理公司事件工作时,实时掌握市场动态@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第4页大数据时代已经来到每分钟都有大量数据产生1min486笔订单(2012年11月)7.3万笔交易数(2012年双11)1.1GB文件下载9.5万条微博发送14万张照片上传70TB处理数据@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第5页互联网中的大数据Web3.0时代,社交媒体网站数据出现井喷式激增,截至2013年3月底,新浪微博注册用户数增长到5.36亿,日均活跃用户数达到4980万,每日新增微博约2亿。企业在大数据时代,面临文化、战略、组织、流程、信息化、公共公关系、人才培养方方面面的挑战,同时也迎来重大的转型机遇和飞跃契机。@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第6页互联网中的大数据大数据在消费IT领域的作用更加明显。只要你用PC上网或手机浏览信息,你便在网络上处处留照了,性别、年龄、爱好、踪迹、信用等等便被大数据刻画的一览无余,恭喜你已经成为数字透明人了!可能你都不知道自己下一步要干什么,产品经销商借助搜索引擎、电子商务平台、旅游网站的数据根据你的浏览行为已经在为你张罗生日、餐饮、旅游、结婚、生子、购房、购车了,特价机票、婚纱、尿不湿、奶粉、海景房等广告已经为你编排好了。大数据在消费IT领域的作用更加明显。只要你用PC上网或手机浏览信息,你便在网络上处处留照了,性别、年龄、爱好、踪迹、信用等等便被大数据刻画的一览无余,恭喜你已经成为数字透明人了!可能你都不知道自己下一步要干什么,产品经销商借助搜索引擎、电子商务平台、旅游网站的数据根据你的浏览行为已经在为你张罗生日、餐饮、旅游、结婚、生子、购房、购车了,特价机票、婚纱、尿不湿、奶粉、海景房等广告已经为你编排好了。@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第7页企业IT进入2.0时代随着公司业务的增长,大量和流程、规则相关的非结构化数据也爆发式增长。比如:1、业务系统现在平均每天存储20万张图片,磁盘空间每天消耗100G;2、平均每天产生签约视频文件6000个,每个平均250M,磁盘空间每天消耗1T;@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第8页大数据的特性价值Veracity体量Volume多样性Variety速度Velocity68%31%来源多;格式多:大数据包括结构化数据和非结构化数据,邮件,Word,图片,音频信息,视频信息。最新研究报告,到2020年,全球数据使用量预计暴增44倍,达到35.2ZB。价值密度低,犹如沙里淘金,海量业务中寻找价值。1秒定律,实时获取所需要的数据,为决策提供依据。@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第9页企业大数据的挑战业务数据的映射提取大数据价值大数据隐私大数据分析@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第10页泽佳建议企业大数据解决方案@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第11页大数据基础架构要求可预测的低延迟高事务参数灵活的数据结构获取组织分析决策高吞吐量就地准备所有数据源和结构深度分析敏捷开发高度可伸缩性实时流数据运营影响@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第12页泽佳大数据解决方案,以数据融合、综合处理为方向大交易数据大交互数据大交易融合大数据处理企业供应链消费者SNS互联网物联网移动终端OLTP实时交易处理OLAP实时分析处理SOCIALMEDIADATAOTHERINTERACTIONDATAMachine/DeviceSensors/meters/RFIDtagsCDR/mobileSD,MM,PP,SD,FICO。。。@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第13页泽佳大数据解决方案整体架构企业内外部协同(供应商+企业内部+客户+银行+税务+政府+社区+…)外部信息(社交+电商+移动+视音频+…)开放式API和协议通用的设计和模型环境通用数据管理环境交易数据管理社交数据管理移动数据管理主数据管理内存数据管理企业数据仓库管理数据存储数据获取数据组织数据分析数据展现无线数据管理信息管理和实时数据迁移联合访问实时大数据平台门户数据分析电子邮件办公软件大屏幕电脑桌面移动终端企业级报告工具Adhoc即时查询例外分析非结构化数据探索预测与挖掘@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第14页泽佳大数据解决方案体系数据多样性模式动态模式HDFS分布式文件系统Hbase分布式列存储系统SybaseESP事件流处理器HdoopMapReduceBigDataConnectorsYounghongBI获取组织分析决策复杂场景处理实时决策ETLEDW@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第15页一般企业数据处理平台的基础架构@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第16页泽佳大数据解决方案基础架构门户泽佳大数据平台快速、可靠大屏幕电脑桌面电子邮件SCMCRMERP数据分析人员办公软件移动终端安全,部署,管理灵活体系MESPDM@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第17页泽佳建议企业大数据解决方案基础架构图@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第18页应用层数据分析@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第19页视频存储@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第20页离线日志分析@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第21页在线数据分析@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第22页大数据解决方案特点泽佳大数据解决方案提供高速、低速两种互联解决方案,在节点间能够建立起40Gb的互联通路,彻底消除系统节点间通信的瓶颈。高性能高可扩展性高可靠相比较传统的数据库集群,泽佳大数据解决方案具有良好的可扩展性,随着数据节点的增加,系统整体性能接近线性增加。同时数据节点可以在系统运行中动态添加,对系统不会造成任何影响。因此企业可以根据自身业务需要,动态添加数据节点,当业务量较小时,配置较少的数据节点,随着业务量的逐渐增多,添加相应的数据节点,从而满足自身业务量增长的需求。泽佳大数据解决方案能自动地维护数据的多份复制,并且在任务失败后能自动地重新部署(redeploy)计算任务。同时消除系统单点故障,系统中任意一个部分出现故障,系统将自动进行切换,保证用户应用的无缝连接,具有较高的稳定性和可靠性。@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第23页大数据应用技术@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第24页大数据的技术领域占位图@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第25页泽佳大数据应用主要技术—Hadoop据IDC的预测,全球大数据市场2015年将达170亿美元规模,市场发展前景很大。而Hadoop作为新一代的架构和技术,因为有利于并行分布处理“大数据”而备受重视。ApacheHadoop是一个用java语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式计算,它可以让应用程序支持上千个节点和PB级别的数据。Hadoop是项目的总称,主要是由分布式存储(HDFS)、分布式计算(MapReduce)等组成。@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第26页Hadoop体系架构MapReduceHDFSHBasePigChuKwaHiveZooKeeperPig是一个基于Hadoop的大规模数据分析平台,Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口。Chukwa是基于Hadoop的集群监控系统,由yahoo贡献。Hive是基于Hadoop的一个工具,提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。ZooKeeper:高效的,可扩展的协调系统,存储和协调关键共享状态。HBase是一个开源的,基于列存储模型的分布式数据库。HDFS是一个分布式文件系统。有着高容错性的特点,并且设计用来部署在低廉的硬件上,适合那些有着超大数据集的应用程序。MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第27页Hadoop核心设计@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第28页HDFS—文件读流程HDFS是一个分布式文件系统。有着高容错性的特点,并且设计用来部署在低廉的硬件上,适合那些有着超大数据集的应用程序。Client向NameNode发起文件读取的请求。NameNode返回文件存储的DataNode的信息。Client读取文件信息。@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第29页HDFS—文件写流程Client向NameNode发起文件写入的请求。NameNode根据文件大小和文件块配置情况,返回给Client它所管理部分DataNode的信息。Client将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第30页MapReduce——映射、化简编程模型输入数据-Map分解任务-执行并返回结果-Reduce汇总结果-输出结果@2013北京泽佳公司版权所有Copyright©2013ZejiaConsultingCorporation第31页Hbase——分布式数据存储系统Client:使用HBaseRPC机制