©CopyrightIBMCorporation2012AnalyticsandBigDataonPower方案及案例分享AnalyticsandBigDataonPower方案及案例分享课程Page2Page2目录大数据与分析概述高性能运算Symphony解决方案DB2BLU助力高性能数据集市大数据案例分析AnalyticsandBigDataonPower方案及案例分享课程Page3Page3大数据与分析概述AnalyticsandBigDataonPower方案及案例分享课程Page4Page4“上个月在瑞士达沃斯举行的世界经济论坛上,大数据是一个热点话题。在论坛的一份报告《大数据,大影响》中声明:数据已成为一类新的经济资产,就像货币或黄金一样.“公司被数据淹没了—从客户的习惯到供应链的效率。但是许多经理却不能理解这些数据的意义.”“越来越多的企业使用大众媒体去分析公众对产品的反馈,例如Facebook或Twitter,也有使用网站资源试着“了解客户,是什么让他们选择他们想要的东西”负责IBM预测分析项目的迪阿德瓦说。“大数据已抵达Seton医疗保健家庭,幸运的是,通过使用这个分析工具,每年超过200万复杂病例的患者得到了帮助…”“数据是新型石油”未开采的石油,没有什么价值。加工及提炼后,将助力世界。“…现在,沃森正投入到工作中,消化了数百万页的研究,结合最佳的临床实践和监测结果,以协助医生治疗癌症患者.”奥斯卡情感测量—一种工具,是由洛杉矶时报、IBM和南加州大学安创新实验室共同开发的—分析意见,“主要针对Twitter上共享的百万条奥斯卡奖项比赛的公共信息做出的分析意见.”“数据是新型石油.”CliveHumbyAnalyticsandBigDataonPower方案及案例分享课程Page5Page5大数据来自哪里?截至2011年末网络上有超过20亿人现在有300亿个RFID记(2005年时有13亿)全球有46亿台照相手机每年售出数亿台支持GPS的设备在2009年有7600万台智能仪表……至2014年将达到2亿台每天有超过3亿活跃用户每天有超过25TB日志数据每天有超过1亿条消息AnalyticsandBigDataonPower方案及案例分享课程Page6Page6大数据的特点综合分析覆盖面越来越宽的种类应对日益增长的速度有效地处理日益增长的数量建立大数据来源的真实性三分之一商界领袖感到无法信任那些帮助他们做决策的信息50x35ZB20202010300亿RFID传感器和计数器世界上80%的数据是非结构化的AnalyticsandBigDataonPower方案及案例分享课程Page7Page7大数据会影响到您业务的方方面面了解关于您客户的一切从渠道交互到社交媒体,通过分析所有数据来源帮助您了解您的每位客户零延迟操作分析所有可用的操作数据并且实时做出反应,从而优化流程。通过成本效益技术降低IT成本。在速度和规模上实现新产品创新捕获所有来源的反馈,分析庞大的市场环境,研究大量的数据,从而推动创新。即时的欺诈和风险意识通过分析所有可用数据来打造更好的欺诈/风险模型,用流数据交易分析来实时监测欺诈利用仪表化资产监控资产通过实时数据反馈来预测和预防维修问题,并且开发新产品和新服务。AnalyticsandBigDataonPower方案及案例分享课程Page8Page8大数据主要与大型数据集相关在大数据的新世界中,我们必须更换所有陈旧系统大数据就是Hadoop较为陈旧的事务数据已经不再重要数据仓库已是昨日黄花大数据适合熟知互联网的企业。传统业务与大数据毫无关系我们不具备相应的需求、预算或者技能,因此我们不必为此担心人们对于大数据的观点是怎样的AnalyticsandBigDataonPower方案及案例分享课程Page9Page9研究显示了实施大数据的4个阶段大数据采用当基于当前的大数据活动级别而划分为4个小组时,受调查者在组织行为上表现出显著的一致性受调查者总数n=1061由于舍入原因,各个比例总和不等于100%6%部署两个或更多大数据计划,继续应用高级分析占总受调查者的百分比执行22%试点大数据计划,以验证价值和需求占总受调查者的百分比试点47%基于业务需求和挑战开发战略和路线图占总受调查者的百分比探索24%专注于知识收集和市场观察占总受调查者的百分比学习AnalyticsandBigDataonPower方案及案例分享课程Page10Page10智慧分析数据仓库大数据平台加速器流计算数据仓库Hadoop系统信息整合与治理应用开发发现系统管理内容管理数据仓库流计算Hadoop系统信息整合与治理大数据平台系统、存储和云业务分析内容分析决策管理风险分析绩效管理商业智能与预测分析大数据分析内容分析预测分析决策管理社交媒体分析分析整合与治理IBM提供了全面的、整合化的大数据和分析方法AnalyticsandBigDataonPower方案及案例分享课程Page11Page11•Hadoop系统•管理多样化海量数据•企业级应用增强了开源Hadoop能力•流计算•用于分析流动的数据•能够处理分析多种数据–通过高级分析运算符来支持结构化,非结构化,视频,音频等•数据仓库•工作负载均衡的MPP架构,支持高性能的OLAP及混合型的操作和分析负载•数据可视化•企业级搜索引擎•图形展现海量分析结果IBM大数据平台AnalyticsandBigDataonPower方案及案例分享课程Page12Page12BAO方案整体技术架构AnalyzeIntegrateTransactional&CollaborativeApplicationsManageBusinessAnalyticsApplicationsExternalInformationSourcesCubesStreamsBigDataMasterDataContentDataStreamingInformationGovernQualitySecurity&PrivacyLifecycleDataWarehousesStandardsContentTimeseriesTransform&CleanseAnalyzeIntegrateTransactional&CollaborativeApplicationsManageBusinessAnalyticsApplicationsExternalInformationSourcesCubesStreamsBigDataMasterDataContentDataStreamingInformationGovernQualitySecurity&PrivacyLifecycleDataWarehousesStandardsContentTimeseriesTransform&Cleanse从哪里来?是谁?到哪里去?AnalyticsandBigDataonPower方案及案例分享课程Page13Page13大数据解决方案出现之前传统的计算模式数据源数据抽取数据仓库场景模型策略/计划平衡计分卡预测/预报绩效分析价值分析数据集市数据分析前端展示风险分析企业数据仓库数据仓库事实表ETL工具数据管理基于门户的Web页面固定报表多维分析即席查询数据集市MOLAPRelational立方体管理行业情报ERPHRSCMCRMStatistics外部数据财务预算数据员工状态设备状态客户信息分析报告ETL:抽取、转换和加载AnalyticsandBigDataonPower方案及案例分享课程Page14Page14数据源数据抽取数据仓库场景模型策略/计划平衡计分卡预测/预报绩效分析价值分析数据集市数据分析前端展示风险分析企业数据仓库数据仓库事实表ETL工具数据管理基于门户的Web页面固定报表多维分析即席查询数据集市MOLAPRelational立方体管理行业情报ERPHRSCMCRMStatistics外部数据财务预算数据员工状态设备状态客户信息分析报告ETL:抽取、转换和加载电商、微博、社交网站、平安城市等产生大量社交数据、日志、图片、视音频数据….海量数据汇总、统计耗时太长,满足不了业务部门的时效性需求;传统计算模式遇到的困难某些业务部门需要实时数据分析,数据一边产生,一边进行分析,以应对市场压力数据产生速度快,数据量巨大,种类繁多,非结构化数据占了80%以上AnalyticsandBigDataonPower方案及案例分享课程Page15Page15Hadoop并行计算模式HDFS—HadoopDistributedFileSystem。HDFS为了做到可靠性(reliability)创建了多份数据块(datablocks)的复制(replicas),并将它们放置在服务器群的计算节点中(computenodes),MapReduce就可以在它们所在的节点上处理这些数据了。MapReduceAnalyticsandBigDataonPower方案及案例分享课程Page16Page16大数据技术与传统数据处理技术的关系超越和补充传统数据处理技术实时数据处理Internet级别海量数据存储与分析传统数据仓库In-MotionAnalyticsDataAnalytics,DataOperations&ModelBuildingResultsInternetScaleDatabase&WarehouseAt-RestDataAnalyticsResultsUltraLowLatencyResultsInfoSphereBigInsights传统/关系型数据源传统/非关系型数据源传统/关系型数据源传统/非关系型数据源AnalyticsandBigDataonPower方案及案例分享课程Page17Page17高性能运算SYMPHONY解决方案AnalyticsandBigDataonPower方案及案例分享课程Page18Page18大数据常见应用场景举例影像管理(各类单据的扫描件、地图影像),非结构化/半结构化数据存储和分析(XML文件、文本日志文件)–典型应用:测绘行业系统、地图服务提供商产品、公安部、银行/税务票据管理、电信详单日志分析、各类终端采集数据分析……–常见痛点:存储成本/性能,关系型数据库性能/功能问题。业务/产品/服务创新–典型应用:CDR分析,舆情分析,LBS,广告精准投放,移动终端服务/智慧XX(电表数据分析、HIS,电子支付),精益生产、反洗钱……–常见痛点:实时性、数据来源多样、数据量大计算密集型应用–高性能计算技术非常适用–典型应用:保险精算、银行风险分析、信用卡欺诈分析……–常见痛点:实时性、多种数据源要形成统一视图AnalyticsandBigDataonPower方案及案例分享课程Page19Page19AnalyticsandBigDataonPower方案及案例分享课程Page20Page20IBM大数据平台优势1-高性能•国内运营商进行的基于Hbase的数据查询测试,取得3~15倍的性能优势•国内运营商进行的基于Hive的数据分析测试,取得9~11倍的性能优势数据加载场景每核加载速度为x86核的11.18倍数据分析场景每核分析速度为x86核的9.63倍AnalyticsandBigDataonPower方案及案例分享课程Page21Page21为什么Symphony更快?JobTracker/TaskTracker用C++/C编写资源管理和任务管理解耦.支持300并发jobtrackers;1000并发jobs/jobtrackerSOA架构,共享服务(reuseJVMacrossmanytasks)使用TCP原语和二进制编码,取代httpandtext/XMLPushprotocolavoidstasktrackerpullingtasksandthedelaycausedbypullinginterval专利的asynchronouspersistency