惠普大数据驱动IT新形态软件集团中国惠普有限公司©Copyright2012Hewlett-PackardDevelopmentCompany,L.P.Theinformationcontainedhereinissubjecttochangewithoutnotice.2在信息化时代,大数据就是石油,这已成为业界的共识!大数据:基于海量、多样化的交易数据、交互数据与传感数据,通过快速获取、处理、分析等一系列手段以从中提取价值的技术、产品及服务。海量化Volume多样化Variety快速化Velocity价值化Value大数据时代到来©Copyright2012Hewlett-PackardDevelopmentCompany,L.P.Theinformationcontainedhereinissubjecttochangewithoutnotice.3大数据分析需要一个统一的解决方案一个能够分析结构化、非结构化和半结构化的完整数据分析平台•捕获•存储•管理•分析•优化半结构化数据IT日志,安全日志,社交媒体等结构化数据CRM,交易,销售,市场等非结构化数据音频、视频、email、情感,威胁等100%的数据分析能够实现基于©2013惠普研发有限合伙公司版权所有。本文中的信息可能变更,恕不另行通知。4创新的分析用例正在削减结构化、非结构化和半结构化数据量各行各业都存在着大数据机会政府电信制造医疗保健•情感分析•社会化客户关系管理/网络分析•减缓客户流失•品牌监控•忠诚度和促销分析•Web应用优化•营销活动优化•品牌管理•社交媒体数据分析•价格优化•内部风险评估•客户行为分析•物流优化•点击流量分析•影响者分析•IT基础设施分析•法律发现•设备监控•企业搜索•药物开发•科学研究•疗效分析•供应链优化•缺陷跟踪•RFID关联•保修管理•广播监控•防止客户流失•广告优化•辅助执法•舆情分析•流量优化横向用例资料来源:IDC:2012年“全球大数据技术和服务市场预测:2011年至2015年”;Gartner:2012年”大数据驱动基础设施快速变化,到2016年IT支出将达到2320亿美元”金融•欺诈检测•防洗钱•风险管理能源•气象预测•天然资源勘探©2013惠普研发有限合伙公司版权所有。本文中的信息可能变更,恕不另行通知。5惠普大数据分析平台-HAVEn社交媒体IT图像音频视频交易移动搜索引擎邮件文本大规模分布式数据存储和处理Hadoop/HDFS流程化、索引化所有信息AutonomyIDOL实时分析超大数据集Vertica采集和利用所有机器数据EnterpriseSecurityHPSoftware+n个用户应用nApps文档©Copyright2012Hewlett-PackardDevelopmentCompany,L.P.Theinformationcontainedhereinissubjecttochangewithoutnotice.6Frameworktostoreandanalyzeunstructureddata什么是Hadoop?HadoopDistributedFileSystem(HDFS)Self-HealingHighBandwidthClusteredStorageMapReduceDistributedComputingFramework•Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS•ApacheSoftwareFoundation公司于2005年秋天引入项目,Hadoop原本来自于谷歌一款名为MapReduce的编程模型包•Cloudera是一家企业软件公司,该公司在2008年开始提供基于Hadoop的软件和服务•Hadoop是一个开源的,用于分析非结构化数据分析软件平台•Hadoop是可靠、高效和可伸缩的©Copyright2012Hewlett-PackardDevelopmentCompany,L.P.Theinformationcontainedhereinissubjecttochangewithoutnotice.7强有力的数据管理与分析,集成的解决方案HP大数据核心产品处理非结构化和“人类”信息数据,无比强大的理解能力AutonomyIDOL极速高扩展性的实时分析Vertica收集、存户和分析机器数据管理超大规模的分布式数据Hadoop/HDFSArcSightLogger©Copyright2012Hewlett-PackardDevelopmentCompany,L.P.Theinformationcontainedhereinissubjecttochangewithoutnotice.8技术支持和咨询服务HPHadoopsolutions用户界面SQL兼容分析数据处理HPAppSystemforApacheHadoopHPHadoopReferenceArchitectures语义分析数据分析日志机器生成数据结构化Connectors数据源ERP,CRM……社交媒体电子邮件通话记录视频音频……HadoopApplicationsVerticaAutonomy业务用户Source:HP.com非结构化完备的大数据分析平台©Copyright2012Hewlett-PackardDevelopmentCompany,L.P.Theinformationcontainedhereinissubjecttochangewithoutnotice.9结构化数据过去2个月每周超过5次电话掉线的客户在数据库中通过CRM和CDR的查询得到匹配的客户在非结构化数据源中查询到所有来自电话、聊天、email等工具的客户抱怨非结构化数据过去3个月中表达过抱怨的客户VerticaVerticaVertica大数据支撑的智能客服典型案例©Copyright2012Hewlett-PackardDevelopmentCompany,L.P.Theinformationcontainedhereinissubjecttochangewithoutnotice.10常见数据库的定位数据量高低传统OLTP系统作业类型单行数据实时性高低批量混合型场景传统数据仓库大数据分析DPF©Copyright2012Hewlett-PackardDevelopmentCompany,L.P.Theinformationcontainedhereinissubjecttochangewithoutnotice.11业界最优秀的MPP列式数据仓库:HPVertica-出自数据之父的Stonebraker-数据库先驱:MichaelMichaelStonebrakerVerticaCo-Founder•伯克利加州分校–1971–2000–Ingres,1973年,第一个关系数据库,最早运行于DECUnix,80年代,以BSD许可免费发行,应用发展迅速,2005年成立独立公司,其中项目成员RobertEpstein基于Ingres的代码开发了Sybase,随后,Sybase代码作为MicrosoftSQLServer基础.–Postgres,80年代Ingres之后,BSD-like许可,支持面向objectrelationalprogrammingmodel,支持optimizer,querylanguage,runtime,andindexingframeworks,从PostgreSQL发展过来的数据库产品有EnterpriseDB,andGreenplum.也包括Illustra,后被Informix收购。•MIT–2000~–VERTICA,分布式MPP列式数据库–SCIDB,2008,用于科学研究计算©Copyright2012Hewlett-PackardDevelopmentCompany,L.P.Theinformationcontainedhereinissubjecttochangewithoutnotice.12高速、可扩展、开放与低成本Vertica–专为大数据架构的实时分析平台新一代自动优化和管理工具真正的列式数据库原生支持高可用并能更好地优化性能无共享MPP架构列式存储和计算主动压缩并行装载和查询弹性集群高可用实时分析融合存储SQL标准高级分析用户自定义分析扩展半结构化数据快速探索HADOOP无缝集成X86工业化标准服务器快速50x–1000x性能提升高可扩展(Scalability)TBs~10PBs间在线扩展简单(Simplicity)高压缩率压缩率一般为10:1,节约90%的存储空间©Copyright2012Hewlett-PackardDevelopmentCompany,L.P.Theinformationcontainedhereinissubjecttochangewithoutnotice.13Vertica硬件参考配置服务器DL380pGen8•基本配置−最少3个节点,提供12TB的可用容量−可按4TB/node扩展至任意数量•高级配置−最少3节点,提供30TB的可用容量−可按10TB/node扩展至任意数量万兆/千兆网以太网络~50TB~30TB~20TB~10TB根据裸数据量规划高级配置高可用最小配置基本配置高可用最小配置•2xIntel®Xeon®E5-2670/2680/2690•128GBMemory•2x300Gb10KSASforOS/VerticaApp•14x600GB10KSASfordata•2xIntel®Xeon®E5-2670/2680/2690•128GBMemory•2x300Gb10KSASforOS/VerticaApp•22x900GB10KSASfordata©Copyright2012Hewlett-PackardDevelopmentCompany,L.P.Theinformationcontainedhereinissubjecttochangewithoutnotice.14HPConvergedSystem300forVertica主要配置•42urack-BW904AShockIntelligentRack(1)•Networkswitches-HP5900AF-48XGT(2)•Managementnodes-HPProLiantDL360pGen8servers(2)w/Vertica7MC&HPCMU•VerticaServernodes-HPProLiantDL380pGen8servers(4,8,12or16)w/RedHatLinux6&HPVertica7每台数据库节点配置•2xIntel®Xeon®E5-2690v2(3.0GHz/10cores)•8x16GB2Rx4PC3•1x2GBraidcontroller•2x300Gb10KSASforOS/VerticaApp•23x600GB10KSASfordata•1xEthernet10Gb2P561FLR-TFIOAdptr按需动态扩展软硬件服务一体机©Copyright2012Hewlett-PackardDevelopmentCompany,L.P.Theinformationcontainedhereinissubjecttochangewithoutnotice.15全球最大社交网络平台?25亿内容分享3亿照片新增数据•提供超过600节点以上的分析集群•支持10-100PB详细数据的分析能力•实现精确的营收分析,用户行为分析和广告效率分析月度活跃用户人数11.5亿“赞”27亿500TB©Copyright2012Hewlett-PackardDevelopmentCompany,L.P.Theinformationcontainedhereinissubjecttochangewithoutnotice.16HadoopFacebook系统架构PumaHBASE流