IBM全球企业咨询服务部执行报告IBM商业价值研究院与牛津大学赛德商学院联合举行分析:大数据在现实世界中的应用创新型企业如何从不确定的数据中获取价值IBM商业价值研究院在IBM商业价值研究院的帮助下,IBM全球企业咨询服务部为政府机构和企业高管就特定的关键行业问题和跨行业问题提供了具有真知灼见的战略洞察。本文是一份面向决策层和管理层的简报,是根据该院课题小组的深入研究撰写的。它也是IBM全球企业咨询服务部正在履行的部分承诺内容,即提供各种分析和见解,帮助各个公司或机构实现价值。有关更多信息,请联系本文作者或发送电子邮件到:ibvchina@cn.ibm.com请访问我们的网站:。学院通过深入地融合到世界一流的牛津大学中,并且应对全球面临的一些挑战而建立了新的商业教育模式。欲了解更多信息,您可以联系作者,或者访问:www.sbs.ox.ac.uk。IBM全球企业咨询服务部 1–对于许多人来说不可否认地意味着许多方面–它已经不再局限于技术领域。如今,大数据已成为一项业务上优先考虑的工作任务,因为它能够对全球整合经济时代的商务产生深远的影响。除了为应对长期存在的业务挑战提供解决方案之外,大数据还为流程、组织、整个行业、甚至社会本身的转型激发了许多新的方式。然而,媒体的大肆渲染使得炒作与真实难以区分–到底在发生什么?我们最新的研究发现,企业正将大数据用于以客户为中心的收益创造、内部数据的探索以及更优秀的信息生态系统的构建。“大数据”“大数据”一词已经无处不在,然而,其概念仍然存在混淆。大数据已被用于承载所有类型的概念,包括:巨量的数据、社交媒体分析、下一代数据管理能力、实时数据等。无论是任何种类,企业都已经开始理解并且探索如何以新的方式处理并分析大量的信息。这样,数量较少但不断增加的先驱者实现了突破性的业务成果。在全球的各行各业中,高管都认识到,他们需要更多地了解如何利用大数据。但是,尽管它吸引了媒体的广泛关注,但从企业正在做的事情中很难发现深层次的信息。因此,我们试图更好地了解企业如何看待大数据–以及他们目前在多大程度上使用大数据而使其业务受益。IBM商业价值研究院与牛津大学赛德商学院联手进行了2012BigData@Work研究,调查了95个国家中的1144名业务和IT专业人员,并采访了20多名学者、业务主题专家和企业高管。我们发现,63%–近三分之二–的受访者表示,信息(包括大数据)和分析的使用为其组织创造了竞争优势。在IBM的2010年新智慧企业全球高管联合调研中,有此看法的受访者比例是37%–在短短两年内增加了70%。1作者:MichaelSchroeck,RebeccaShockley,JanetSmart博士,DoloresRomero-Morales教授,PeterTufano教授2 分析:大数据在现实世界中的应用作为日益扩大的信息与分析市场中越来越重要的一个领域,大数据具有重要的影响。对于在其组织内已经实施大数据试验项目或者部署项目的受访者来说,通过信息(包括大数据)和分析而获得巨大优势的比例要比仅依赖传统分析方法的组织比例高15%。一项令人感到意外的调研结果是,社交媒体对当前的大数据市场的影响相对较小。由于媒体在社交媒体对客户体验的影响方面的广泛报道,我们很容易相信,大数据意味着社交媒体数据,但只有7%的受访者这样定义大数据。不到一半的目前正在开展大数据举措的受访者认为他们在收集和分析社交媒体数据;相反,其他大部分受访者告诉我们,他们在当前的大数据项目中使用现有的内部数据源。那么,当前的大数据活动为何与以前不同?有些组织使用大数据已有多年时间。例如,一家全球电信公司每天从120个不同系统中收集数十亿条详细呼叫记录,并保存至少九个月时间。一家石油勘探公司分析几万亿字节的地质数据,而证券交易所每分钟处理数百万个交易。对于这些公司,大数据并非一个新概念。然而,两个重要趋势使得大数据时代与之前有显著的区别:•目前在广泛行业中几乎“所有方面”的数字化产生了新型的大量的实时数据。其中,非标准数据占据很大一部分:例如,流数据、地理空间数据或传感器产生的数据,这些数据并不能完美地适用于传统的、结构化的、关系型数据仓库;•当前先进的分析技术和工艺使得各组织能够以从前无法达到的复杂度、速度和准确度从数据中获得洞察力。关于本调研IBM商业价值研究院与牛津大学赛德商学院联手制订了本报告。报告基于IBM在2012年中期对95个国家中26个行业的1144名专业人员的进行的BigData@Work研究。受访者来自多个学科,包括业务专业人员(占总样本的54%)和IT专业人员(占总样本的46%)。受访者自己选择参与网上调研。调研结果基于对调研数据的分析,以及与牛津大学学者、业务主题专家和业务高管的讨论。IBM是研究建议的主要提供者。IBM全球企业咨询服务部 3在各行业和各地区,我们的调研发现,组织对大数据采用了一种务实的方法。最有效的大数据解决方案首先识别业务要求,然后定制基础架构、数据源和分析方法,以支持业务机会。这些组织从现有的和新的内部信息来源中获取新的洞察力,制订大数据技术战略,然后随着时间的推移逐步地升级相应的基础架构。我们的调研结果为各组织逐步开展大数据举措以及从大数据中获取最大的商业价值提供了五项关键建议:•以客户为中心推动初始举措;•制订整个企业的大数据蓝图;•从现有数据开始,实现近期目标;•根据业务优先级逐步建立分析能力;•基于可衡量的指标制定业务投资回报分析。定义大数据在对大数据的混淆中,很大一部分从大数据的定义开始。为了了解我们的调研受访者对该术语的定义,我们让每个受访者选出大数据的两个特征。没有任何一个特征在选择中具有明确的主导优势,相反,受访者对于当前更多的数据、数据和分析的新类型或者对更实时的信息分析的新要求的看法各异(见图1)。这些结果与确定大数据的三个维度的有用方式相一致–即“3V”:数量(volume)、多样性(variety)和速度(velocity)。尽管这些涵盖大数据本身的关键属性,但我们认为,企业需要考虑一个重要的第四维度:精确性(veracity)。将精确性作为大数据的第四个属性凸显了应对与管理某些类型数据中固有的不确定性的重要性(见图2)。߸࠽ڦ႑တݔྷݥدཥႚ๕ڦ༹ႎڦຕᇑݴဆૌ႙ٷຕଉํ้႑တፌႎୁႜَઠጲႎरຍڦຕม༹ຕ定义大数据我们让受访者从以上选项中选出两种描述,说明他们的组织如何看待大数据。这些选项经过缩写,各项选择经过标准化处理,使总和等于100%。受访者总数=1144。图1.受访者对大数据有不同的看法。4 分析:大数据在现实世界中的应用涵盖这四个维度有助于定义和区分大数据:数量:数据量。数量也许是与大数据最相关的特征,指企业为了改进企业中的决策而试图利用的大量数据。数据量持续以前所未有的速度增加。然而,真正造成数据量“巨大”的原因在不同和行业和地区各有不同,而且没有达到通常引用的PB级(petabyte)和ZB级(zetabyte)。超过一半的受访者认为数据量达到Terabyte和Petabyte之间才称为大数据,而30%的受访者不知道“大”对于其组织应该有多大。所有受访者都同意,当前被认为“巨大的数量”在将来甚至会更大。多样性:不同类型的数据和数据源。多样性是指管理多种数据类型的复杂性,包括结构化、半结构化和非结构化数据。企业需要整合并分析来自复杂的传统和非传统信息源的数据,包括企业内部和外部的数据。随着传感器、智能设备和社会协同技术的爆炸性增长,数据的类型无以计数,包括:文本、微博、传感器数据、音频、视频、点击流、日志文件等。速度:数据在运动中。数据创建、处理和分析的速度持续在加快。加速的原因是数据创建的实时性天性,以及需要将流数据结合到业务流程和决策过程中的要求。速度影响数据时延–从数据创建或获取到数据可以访问的时间差。目前,数据以传统系统不可能达到的速度在产生、获取、存储和分析。对于对时间敏感的流程,例如实时欺诈监测或多渠道“即时”营销,某些类型的数据必须实时地分析,以对业务产生价值。图2.大数据的四个维度。ຕڦփඓۨႠ࠶ຕڦ੍Ⴀࢅᇨ֪ႠLj࠶ᇱิຕాิႠڦփඓඓႠ܈ܠᄣႠຕଉຕࡀఇTBPBपຕຕڦሏۯݴဆୁຕLjሞփڟᅃ௱ాፔਦ֧大数据的维度IBM全球企业咨询服务部 5精确性:数据不确定性。精确性指与某些数据类型相关的可靠性。追求高数据质量是一项重要的大数据要求和挑战,但是,即使最优秀的数据清理方法也无法消除某些数据固有的不可预测性,例如天气、经济或者客户最终的购买决定。不确定性的确认和规划的需求是大数据的一个维度,这是随着高管需要更好地了解围绕他们身边的不确定性而引入的维度(参考右栏:“精确性,第四个‘V’”)。2最后,大数据是这些特征的组合,为企业在当前的数字化市场中创造竞争优势提供了机会。它使企业能够转变与客户交互并满足客户需求的方式,并且使企业–甚至整个行业–能够实现自身的转型。并非每家企业都采用相同的方法培养其大数据能力。但是,利用新的大数据技术和分析方法改进决策和绩效的机会存在于每个行业中。企业对大数据采取了实用的方法尽管宣传铺天盖地,但整个市场都同意,我们处于企业大数据采用的初级阶段。在本调研中,我们使用“大数据采用”(bigdataadoption)这个术语表示数据、数据源、技术和技能的自然演进,在全球整合市场中创造竞争优势。我们的BigData@Work调研证明,大多数企业目前处于大数据开发的早期阶段,大多数企业目前主要是理解概念(24%)或者定义与大数据相关的路线图(47%)。然而,28%的受访者属于领先的企业,他们正在进行概念验证测试(POC),或者已经大规模实施了大数据解决方案(见图3)。精确性,第四个“V”有些数据具有固有的不确定性,例如:人的感情和诚实性;曼哈顿摩天大楼上安装的GPS传感器;天气形势;经济因素;以及未来。在处理这些类型的数据时,数据清理无法修正这种不确定性。然而,尽管存在不确定性,数据仍然包含宝贵的信息。确认并接受这种不确定性的需求是大数据的特点。不确定性在大数据中以多种形式体现。人类环境中创建的数据存在怀疑论,例如社交网络;对于未来如何呈现以及人、自然或不可见的市场推动力量如何影响世界的多样性的不可知。这种不确定性的一个例子是能源制造,但公用事业公司仍然必须预测产量。在许多国家中,监管机构要求一定比例的产量来自可再生资源,而风或云都无法准确预测。那么,您如何做计划?要管理不确定性,分析人员需要创建围绕数据的上下文。实现这一点的一种方式是通过数据融合,即通过结合多个可靠性较低的来源而创建更准确、更有用的数据点,例如与地理空间位置信息相关的社会评论。管理不确定性的另一种方式是通过先进的数学方法,例如鲁棒优化技术和模糊逻辑方法。从本质来讲,人类不喜欢不确定性,但简单地忽略这一点可能产生比不确定性本身更多的问题。在大数据时代,高管需要以不同的方式处理不确定性的各个维度。他们需要承认、接受这一点,并确定如何充分利用这一点;对于不确定性,有一点是确定的,即它不会消失。6 分析:大数据在现实世界中的应用对调查反馈进行分析后得出的五个关键结论表明,受访者持有某些相同的、有趣的倾向和看法:•在各个行业中,大数据业务案例强烈集中于满足以客户为中心的目标;•可伸缩、可扩展的信息管理基础是大数据进步的前提;•企业开始利用现有的和新的内部数据源进行试点和实施;•企业要从大数据中获得最高的价值,需要先进的分析能力,然而,企业通常缺乏这些能力;•随着企业对大数据的认识和参与度增加,我们看到大数据采用可以分为四个阶段。1.客户分析推动大数据举措我们让受访者列出大数据的三个首要目标,近一半的受访者认为以客户为中心的目标是其企业的首要任务(见图4)。企业致力于改善客户体验,并且更好地了解业务驱动的成果我们让受访者列出大数据在其企业内的首要功能目标。受访者经过加权和汇总