大数据大洞察引领智慧成长大数据大洞察引领智慧成长©2012IBMCorporationAugust20,2013大数据无处不在大数据无处不在©2012IBMCorporation2大数据来自哪里?大数据来自哪里现在有300亿个RFID记(2005年时有13亿)全球有46亿台照相手机(2005年时有13亿)台照相手机每天有超过3亿活跃用户每年售出数亿台支持GPS的设备每天有超过1亿条消息GPS的设备截至2011年末网络上有超过20亿人在2009年有7600万台智能每天有超仪表……至2014年将达到2亿台过25TB日志数据©2012IBMCorporation3“数据是新型石油”数据是新型石油未开采的石油,没有什么价值。加工及提炼后,将助力世界。“上个月在瑞士达沃斯举行的世界经济论坛上,大数据是一个热点话题。在“越来越多的企业使用大众媒体去分析公众对产品的反馈,例如Facebook或“大数据已抵达Seton医疗保健家庭,幸运的是,通过使用这个分析工具,数据是个热点话题在论坛的一份报告《大数据,大影响》中声明:数据已成为一类新的经济资产,就像货币或黄金一样Twitter,也有使用网站资源试着“了解客户,是什么让他们选择他们想要的东西”负责IBM预测分析项目的迪阿德瓦说。每年超过200万复杂病例的患者得到了帮助…”.“公司被数据淹没了—迪阿德瓦说。公司被数据淹没了从客户的习惯到供应链的效率。但是许多经理却不能理解这些数据的意义.”“…现在,沃森正投入到工作中,消化了数百万页的研究,结合昀佳的临床实践和监测结奥斯卡情感测量—一种工具,是由洛杉矶时报、IBM和南加州大学安创新实验室共同开发佳的临床实践和监测结果,以协助医生治疗癌症患者.”安新实共开发的—分析意见,“主要针对Twitter上共享的百万条奥斯卡奖项比赛的公共信息做出的分析意见”“数据是新型石油”©2012IBMCorporation44意见.数据是新型石油.CliveHumby为了实现新的机遇,您需要超越传统的数据来源为了实现新的机遇,您需要超越传统的数据来源交易型和应用程序数据机器数据社交数据企业内容数量结构速度半结构种类高度结构种类高度结构结构化生产能力半结构化数据提取高度非结构化精确性高度非结构化数量©2012IBMCorporation6大数据的特点–4个V大数据的特点4个V综合分析覆盖面越来越宽的种类(Variety)应对日益增长的速度(Velocity)有效地处理日益增长的数量(Volume)50x35ZB300亿RFID传感器和计数器世界上80%的数据是非结构化的20202010计数器建立大数据来源的真三分之一商界领袖感到无法信任那些帮建立大数据来源的真实性(Veracity)分商界领袖感到无法信任那帮助他们做决策的信息©2012IBMCorporation7IBM大数据平台IBM大数据平台©2012IBMCorporation10通过大数据能力取得突破性进展通过大数据能力取得突破性进展分析任意大数据类型分析任意大数据类型具有独特的功能具有独特的功能取得突破性进展取得突破性进展分析任意大数据类型分析任意大数据类型具有独特的功能具有独特的功能取得突破性进展取得突破性进展交易型/应用数可视化和发现了解您客户的一切据零延迟操作Hadoop机器数据零在速度和规模上实现新产品创新数据仓库社交媒体数据现新产品创新即时的欺诈和风险流计算内容即欺诈风险意识利用仪表化资产整合与治理文本分析©2012IBMCorporation11IBM大数据战略:使分析离数据更近IBM大数据战略:使分析离数据更近新型分析应用程序需要一个大数据平台集成并管理不同种类、不同速率及不同流量的数据将高级分析应用于信息并且不改变信将高级分析应用于信息并且不改变信息的原本的格式将所有可用信息可视化,供即席分析将所有可用信息可视化,供即席分析使用为新型分析应用程序建立开发环境优化工作负载并安排进度安全和治理©2012IBMCorporation12安全和治理用大数据平台内的产品帮助入口点加速用大数据平台内的产品帮助入口点加速分析型应用1解锁大数据BI/ReportingBI/报告探索性/可视性功能性APP行业APP预测分析内容分析IBM大数据平台1–解锁大数据IBMDataExplorerIBM大数据平台系统管理应用开发可视化&发现2–分析原始数据3–简化您的数据仓库IBMDataWarehouseSolutions加速器InfoSphereBigInsightsSolutionsHadoop系统Stream流计算数据仓库5–分析流数据4用Hd降低成本信息整合&治理InfoSphereStreams4–用Hadoop降低成本InfoSphereBigInsights©2012IBMCorporation13IBM大数据典型应用架构–通信行业分析为例流计算实时计算和处理•Realtimemetricsanalysisandmodeling流数据结构化或非结构化Reporting dNetworkIBM大数据典型应用架构通信行业分析为例流计算yg•Adtargeting•Realtimenextbestoffer•Frauddetection非结构化and Analytics原始分析与展现WebHd强分析结构化网络分析/社交媒体分析•Sentimentanalysis•LocationbasedReporting SocialHandset非结构化Hadoop增强可查询的存档结构化分析ContentBandwidthAMPUNetworkmarketing•Behavioralanalysis•Microcustomersegmentationpgand AnalyticsHadoop增强分•Subscriberanalysis•Networkanalysis通用分析与挖掘数仓库SalesContentNetworkBandwidthServicesSubscribersAMPUReportingNetwork•Financialreporting•Customersegmentation•CampaignmanagementELT数据仓库PartnersEmployeeCallCenterLocationReporting and Analytics©2012IBMCorporation14IBM大数据产品组件IBM大数据产品组件©2012IBMCorporation23IBM大数据平台组件IBM大数据平台组件分析型应用1解锁大数据BI/ReportingBI/报告探索性/可视性功能性APP行业APP预测分析内容分析IBM大数据平台1–解锁大数据IBMDataExplorerIBM大数据平台系统管理应用开发可视化&发现2–分析原始数据3–简化您的数据仓库IBMDataWarehouseSolutions加速器InfoSphereBigInsightsSolutionsHadoop系统Stream流计算数据仓库5–分析流数据4用Hd降低成本信息整合&治理InfoSphereStreams4–用Hadoop降低成本InfoSphereBigInsights©2012IBMCorporation241–解锁大数据1解锁大数据客户需求理解现有的数据来源–理解现有的数据来源–公布数据在现有的内容管理和文件系统的新用途,而不是把数据复制到一个中央位置–从经整合的数据源搜索并浏览大数据从经整合的数据源搜索并浏览大数据价值陈述–更快的达到、运行、发现并检索相关的大数据据–在新的以信息为中心的应用中使用大数据源客户案例–用一个360度的视角将员工与大数据源联系起来项目开端:IBMDataExplorer项目开端:IBMDataExplorer©2012IBMCorporation25海量数据管理中异构数据源的集成FileStRelationalDataInte海量数据管理中异构数据源的集成SystemsContentManagementEilgratedEmailCRMdPlatfo数据管理平台终端用户SupplyChainormSystemsManagementApplicationDevelopmentVisualization&DiscoveryAccelerators终端用户ERPRSSFeedsAcceleratorsHadoopSystemStreamComputingDataWarehouseCommentingRatingTaggingCloudOAsystemRatingSharedFoldersSocialTools©2012IBMCorporation26ExternalSourcesInformationIntegration&Governance非结构化数据管理框架PublishSearchResultsReportApplicationSearchApplicationPresentApplication非结构化数据管理框架FederatedSourcesApplicationSDKUserProfilesWebResultsFeedsSubscriptionsAuthentication/AuthorizationQuerytransformationPersonalizationDisplayThesauriClusteringOntologySupportTextAnalyticsSearchEngineFacetingBITaggingMeta-DataOntologySupportSemanticProcessingEntityExtractionRelevancyTaggingTaxonomyCollaboration数据连接和集成框架©2012IBMCorporation27CM,RM,DMRDBMSFeedsWeb2.0EmailWebCRM,ERPFileSystemsDataExploer的主要优势1.独特的索引技术位置索引向量索引DataExploer的主要优势位置索引vs.向量索引2.可扩展架构分布式实时性实时性容错性3.高级分析能力分析的弹性和艺术性元数据管理4.整合的强大的兼容能力多种数据源内嵌接口API开发能力API开发能力5.先进的应用框架快速部署新的应用©2012IBMCorporation28DataExplorer功能组件DataExplorer功能组件©2012IBMCorporation29分析能力示例分析能力示例图形导航功能图形导航功能社交网络专家定位社交网络专家定位社交网络专家定位社交网络专家定位搜索结果自动聚类搜索结果自动聚类自定义内容分类自定义内容分类协作交互功能协作交互功能©2012IBMCorporation302–分析原始数据2分析原始数据客户需求提取数据并原样导入到Hadoop从中派生洞察力–提取数据并原样导入到Hadoop,从中派生洞察力–在Hadoop中处理大量的多样数据–将洞察力与数据仓库结合起来–用Hadoop进行低成本的ad-hoc分析,用来测试新的用p进行低成本的分析用来测试新的假设价值陈述–从多种数据源组合获取新的视角从多种数据源组合获取新的视角–克服将非结构化数据源结构化所耗费的过高成本–通过引进新的数据类型或者驱动新的分析类型,来扩展数据仓库的价值–用基于不同数据组合的实验去修改数据仓库内的分析模型客户案例客户案例–金融服务监管机构——管理额外的数据类型并与现有的数据仓库整合项目开端©2012IBMCorporation31项目开端:InfoSphereBigInsightBigInsightsEnterpriseEditionComponentsBigInsightsEnterpriseEditionComponentsVisualization&DiscoveryConnectorsDevelopmentToolsEc