©2012IBMCorporationIBMConfidentialSystemxBigData解决方案©2013IBMCorporation1BigData,Integration&Governance大数据解决方案销售张挺Mobile:18616837280Email:zhtzht@cn.ibm.comBasedinShanghai大数据解决方案架构师武凯Mobile:13910515761Email:wukai@cn.ibm.comBasedinBeijing大数据解决方案架构师周志强Mobile:13908063946Email:zhouzq@cn.ibm.comBasedinChengduIBMSystemxSolutionTeam©2013IBMCorporation2BigData,Integration&Governance大数据综述1©2013IBMCorporation3BigData,Integration&Governance大数据综述大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。(维基百科定义)不是简单地以数据规模来界定大数据,要考虑数据检索与分析的复杂程度–针对简单查询(如关键字搜索),数据量为TB至PB级时可称为大数据–针对复杂查询(如数据挖掘),数据量为GB至TB级时即可称为大数据大数据特点(3V)VolumeVolumeVarietyVolume数据形态多样VelocityVolume生成速度快数据量巨大文本视频图片音频到2020年,数据总量达40ZB,人均5.2TB分享的内容条目超过25亿个/天,增加数据超过500TB/天©2013IBMCorporation4BigData,Integration&Governance谁需要大数据平台工业§风力发电模型模拟§实时监控与报警§智能电网§大规模设备实施监控§…零售§个性化服务§点击流分析§实时促销§…公安§大情报分析§网监及舆情监控§海量图像及指纹比对§…交通管理§交通流量分析§智能布警平台§应急疏导平台§违法与事故模式挖掘§…金融服务§海量历史数据存储查询与分析§风险管控与反欺诈§非结构化数据存储与管理分析§内部运维日志管理与分析§…电商§交易记录分析§网络促销§虚拟安全§…健康&生命科学§ICU监控§医疗影像存储与分析§疾病预防与控制§电子病历和健康档案§…©2013IBMCorporation5BigData,Integration&Governance大数据解决方案2©2013IBMCorporation6BigData,Integration&Governance大数据场景需要考虑的相关技术及参考方案需求技术描述参考方案海量非结构化、结构化数据存储及处理HadoopMapReduce分布式文件系统及MR框架软件IBMPlatformSymphonyMapReduce(大数据运行系统)IBMGPFSFPO(大数据并行文件系统);IBMsystemxforCloudera硬件:IBMPureflexIBMBladecenterIBMSystemx非结构数据分析TextAnalyticsEngineVisualDataModeling文本内容分词与分析实时数据处理StreamingData流计算引擎IBMPlatformSymphony(SOA)/Cloudera标准(文本)流计算节点:Pureflexü高内存(图像、视频)流计算节点Pureflex结构化数据处理DataWarehouse并行处理引擎Power+DB2DW:ü大型仓库(100+TB以上),ü磁盘阵列(DS8K)+DB2DW;ü中型仓库50-100TB,各类信息整合ETL,DataQuality整合,数据质量,安全性,生命周期管理,MDMDataStage、Cognos、SPSS©2013IBMCorporation7BigData,Integration&GovernanceIBM大数据解决方案可选软件IBMPlatformSymphony+GPFSResourceOrchestratorJobController&SchedulerMapTaskLocalStorageInputFolderInputFolderOutputfolderOutputfolderSplitdataandallocateresourcesforapplicationsMapTaskMapTask(s)ReduceTask(s)HadoopMapReduceAPIPluggableDistributedFileSystem/StorageInputFolderInputFolderOutputfolderOutputfolderIBMInforSphereBigInsight+GPFSIBMInforSphereSteamsIBMDataWarehouse开源Hadoop框架©2013IBMCorporation8BigData,Integration&Governance大数据解决方案可选软件之一:IBMBigInsightBI/报告探索性/可视性功能性APP行业APP预测分析内容分析分析型应用IBM大数据平台系统管理应用开发可视化&发现加速器信息整合&治理Hadoop系统Stream流计算数据仓库2–分析原始数据InfoSphereBigInsights5–分析流数据InfoSphereStreams1–解锁大数据IBMVivisimo3–简化您的数据仓库IBMWarehouseSolutions4–用Hadoop降低成本InfoSphereBigInsights2-IBMSystemXServer6–x86集群服务器IBMSystemXServer©2013IBMCorporation9BigData,Integration&GovernanceHDFSMapReduceHbase…LinuxGPFS-FPOSymphonyHbase…LinuxSystemx开放架构,拥有Redhat/Suse最广泛的Linux支持更加成熟、更加可靠与更佳性能的企业级分布式文件系统领先Hadoop一代的分布式计算框架,更高性能、更高效率,更多功能,支持更多企业应用场景100%兼容上层开源方案开源方案IBM企业级方案大数据解决方案可选软件之二:IBMPlatformSymphony©2013IBMCorporation10BigData,Integration&Governance•是一套面向大数据处理推出的快速的服务导向型中间件解决方案,使企业能够在可伸缩的共享异构网格上运行低延迟的,计算和数据密集型分布式应用程序服务。它可以加快各种并行应用程序的运行速度,同时优化利用可用的基础架构,提供接近实时的计算能力。PlatformSymphony管理控制终端PlatformSymphony报表系统Systemx硬件资源配置低延迟响应的应用服务中间件(SOAAPI)增强的MapReduce处理架构(HadoopAPI)数据密集型计算密集型PlatformSymphony内核低延迟/高吞吐量亚毫秒每秒17,000个任务大规模,可扩展性强每个应用10,000个核每个网格40,000个核高效的共享服务异构&开放的编程架构Linux,Windows,AIXC/C++,C#,Java,Excel,Python,R优势1:商业用户验证的中间件平台PlatformSymphony©2013IBMCorporation11BigData,Integration&GovernanceHadoopHDFSIBMGPFS的优势HDFSNameNode形成单点故障只支持大数据块,缺乏对小文件的支持非标准的POSIX文件系统,特有的操作指令难于进行数据管理,需要专用工具单一用途,仅支持HadoopMapReduce不建议用于关键数据无单点故障,全分布式元数据管理数据块大小可变–支持不同类型的数据和不同数据访问模式标准的POSIX文件系统–易于使用和管理基于策略的数据管理灵活,多用途企业级的存储平台SharedNothingPoolSharedDiskPoolGPFSCluster优势2:商用大数据分布式文件系统GPFS©2013IBMCorporation12BigData,Integration&Governance案例分享–国内某大学InternalIBMUseOnly客户挑战:•大压力的持续数据处理能力,不少于六路接收,每路接收数据率≥10Gb/s;实时数据分发数据率不小于4Gbps;•高可靠性和高容错性:•系统无单点故障,实时内存数据不丢失•资源管理和任务监控解决方案:基于IBMPlatformSymphony、IBMFlexSystem和DCS3700存储构建了高可靠、高时效大数据处理平台。客户受益:•任务调度延迟1毫秒,支持高达17000任务/秒和40000核的动态线性扩展能力;•无单点故障的高可靠应用环境,添加或删除新节点不影响作业运行,任务失败自动重运行;•支持多种应用,提供简单易用的API满足应用开发需求;•功能丰富的管理、监控界面,良好的本地技术支持;©2013IBMCorporation13BigData,Integration&GovernancepCloudera公司是一家位于美国硅谷的软件公司,提供商业版的Hadoop软件与服务pCloudera易捷版•免费版本,包含MapReduce,HDFS,Pig,Hive,HBase,Zookeeper,Whirr,Hue,Flume,Oozie,SqooppCloudera企业版($$)•企业版的包含管理,身份认证,监控,部署等工具•BasicEdition,FlexEdition,DataHubEdition•按年订阅服务pHadoop相关的服务与培训•提供安装、配置、部署、优化、POC、认证培训等服务InternalUseOnlyIBMInternalUseOnly大数据解决方案可选软件之三:Cloudera©2013IBMCorporation14BigData,Integration&Governance为什么选择Clouderap据不完全统计,75%新建Hadoop平台是基于ClouderapNokia三星高通AMD摩根士丹利JP摩根MasterCardDELL等500强公司已经使用Cloudera的方案pIntel放弃自己研发Hadoop,转而投资7.4亿美元于Cloudera,获得18%股份pCloudera与MangoDB(NoSQL著名数据库厂商)组建战略联盟,挑战Oracle、IBM与EMCPivotal©2013IBMCorporation15BigData,Integration&GovernanceIBMSystemx大数据平台方案:Clouderap方案产品组成:•Systemx服务器–IBMSystemxM4•BNT交换机–IBMRackswitchG8052/G8264•操作系统–RHEL,SUSE,Ubuntu和其他•Cloudera软件包–ClouderaExpress,ClouderaEnterprise•BigData咨询与实施–xSolutionteam,CertifiedBPp增值服务:•大数据分析评估:帮助客户理解其现有数据,包括其正在收集和需要收集的数据,以识别实施大数据分析的机会。该评估给您带来的数据理解会对您的业务产生积极影响。•大数据应用概念证明(POC):提供Hadoop应用开发过程的纵览以及应用架构与开发方面的协助。•培训:帮助客户的组织理解产品与解决方案实施,以最大限度发挥解决方案的作用。©2013IBMCorporation16BigData,Integration&Governance案例分享–某生物基因分析企业InternalIBMUseOnly客户挑战:•快速处理大量的实验数据的基因测序分析•高性价比•资源管理和任务监控解决方案:基于I