大数据的十大来源及其应用价值当你开车路过一家餐厅的停车场时,你的手机屏幕上弹出了这家餐厅的当日特价菜品推荐,这种体验是不是很棒?如果赌场老板把发牌人忘记付给你的20美元亲自送还给你,你的心里是不是有点儿小激动?如果在线视频游戏能够把和我们玩法相近的用户即刻告知我们,这世界会不会变得很美妙?你是不是要下调汽车保险费率?大数据能让这一切变成现实。网络数据即使不是最原始的大数据源,也是使用最广泛、认可度最高的大数据源。除此之外,还有很多大数据源,它们都有各自的使用价值。其中一些广为人知,而另一些几乎没有名气。我们在此要借用本章的篇幅一起来回顾除网络数据以外的其他9种大数据源以及它们的用途。我们将站在一个较高的层次上讲解这部分内容,意图是在简单描述各类数据源的基础上,回顾每种大数据源的应用与商业含义。我们发现了一个非常明显的趋势,各行各业虽然生成了许多大数据源,但其底层的支撑技术却是相同的。而且,不同行业还可以使用相同的大数据源。大数据并非只有单一的用途,它的影响将会非常深远。我们将要讨论以下几种大数据源。汽车保险业:车载信息服务数据的价值。多个行业:文本数据的价值。多个行业:时间数据与位置数据的价值。零售制造业:RFID数据的价值。电力行业:智能电网数据的价值。博彩业:筹码跟踪数据的价值。工业发动机和设备:传感器数据的价值。视频游戏:遥测数据的价值。电信业与其他行业:社交网络数据的价值。汽车保险业:车载信息服务数据的价值车载信息服务在汽车保险行业中的关注度非常高。车载信息服务是通过汽车内置的传感器和黑盒来收集和掌握车辆的相关信息。我们可以配置不同的方案,使用黑盒来监测所有的汽车数据。我们可以监测车速、行驶里程,以及汽车是否安装了紧急制动系统。车载信息服务数据能够帮助保险公司更好地理解客户的风险等级,并设置合理的保险费率。如果彻底地忽略隐私问题,车载信息服务装置可以跟踪到汽车去过的所有地点、何时到达的、以多快的速度、使用了汽车的哪些功能等。车载信息服务可以潜在地降低司机的保险费率,并提升保险公司的收益。它是怎样做到在降低费率的同时提升收益呢?答案就在于保险公司要根据风险评估来进行保险定价。传统的风险评估方法使用的是年龄、人口统计特征以及个人意外伤害历史这类数据,它们只能提供高层次的概要信息。对于驾驶记录没有任何问题的车主,传统方法根本没办法把他们和附近的其他人区分开。保险公司要未雨绸缪,并做好最坏的打算。它们要弄清楚哪些人放在哪个风险范围上是最安全的,一般情况下,它们会先假定这些人的风险是位于该风险范围较高的一端。汽车保险公司对车主的行为习惯和实际风险了解得越详细,风险范围就会越窄,同时认定范围内出现需要提升费率的最坏情况的可能性就会比较小。这就是为什么可以同时降低保险费率和提升收益的原因。如果保险公司认为投保个体的风险较好,那么保险公司将可以更好地了解每个人的风险状况,预计必须支出的保费就不会发生太大变化。全球很多国家的保险公司都在使用车载信息服务,而且数量越来越多。早期项目的注意力放在从汽车上收集最少的信息,例如,它们并不关心汽车去过什么地方。早期项目跟踪的是汽车开了多远、什么时候开的车、是否超速和是否使用了大量的紧急制动。这些信息都是非常基本的信息,不牵涉到个人隐私,是故意设计成这样的。因为避免了收集高度敏感的信息,所以才会被广泛地接受。这个道理也同样适用于商业车队。如果保险公司了解到公司车队更多的用车情况,那么它为公司车队确定保险费率也就更容易。车载信息服务数据最初是作为一种工具出现的,它可以帮助车主和公司获得更好的、更有效的车辆保险。再过一段时间,等到许多交通工具都安装了车载信息服务装置后,那时保险业以外的行业也可以使用车载信息服务数据了。现在,公共汽车已经有了车载计算机管理系统,但是车载信息服务设备可以将其提升到一个新的层次。车载信息服务数据还有一些有趣的应用,我们来看一下这些应用。使用车载信息服务数据如果车载信息服务真的开始大规模应用,一定会出现许多令人兴奋的分析应用。想象一下,以后全国有数以千万计的汽车都安装了车载信息服务装置,那时候第三方研究公司会以匿名的方式为客户收集非常详细的车载通信数据。与为保险收集的有限数据不同,这时数据收集是以分钟或秒为频率,且收集内容包括但不限于速度、位置、方向和其他有用的信息。无论交通是否阻塞,无论什么日期,这种数据反馈方式都会提供大量的车载通信信息。研究人员可以知道每辆车在道路上的行驶速度,他们还可以知道车流开始的时间、结束的时间,以及持续的时间。这种真实的交通流信息视图将会多么令人惊讶!试想这会对交通阻塞和道路系统规划的研究产生多么大的影响!无心插柳柳成阴车载信息服务数据的多种用途只是一个例子,它说明了可以用最初预见不到的方式来使用大数据。对于某种特定的数据源,我们最后发现它最有效的用途可能与其创建之初的用途大相径庭。面对我们碰到的每一类大数据源,我们要开拓思路,多想想常规之外的其他用途。如果研究人员能够掌握大量汽车在每一个高峰时段、每一天、每个城市中的动向,他们就能非常清晰地判断出车流产生的前因后果。此外,还能查明下述问题的答案。一个在路中央的轮胎会对交通产生什么影响?左侧车道堵车会发生什么?如果路口的交通灯不同步,会产生何种结果?哪些十字路口虽然按照预期设定方式工作,但通行时间的设计仍然不合理?如果某条道路堵塞,堵塞会以多快的速度蔓延到其他道路?即使我们集中精力投入到昂贵的测试中,现在要想有效地研究诸如此类的问题也几乎是不可能的。除非我们安排人手来实际地监测每一条道路,记录下所有的信息,只有这样我们才能解决交通堵塞的问题。或者,我们可以安装大量的传感器来监测过往的车辆,还可以安装视频摄像头,但这些选择因为成本问题被严重限制了推广。交通道路工程师做梦都想得到我们所讲的车载通信信息。如果车载通信装置变得随处可见,那任何交通拥堵的地方都能被发现。城市道路和交通管理系统的革新,以及城市道路建设规划,都将惠及普通大众。车载通信刚开始出现时是为了满足保险定价的需求,但有了它还可以缓解交通压力和驾驶员堵车时焦急等待的心情,它的存在终将使高速公路的管理模式发生革命性的改变。多个行业:文本数据的价值文本是最大的也是最常见的大数据源之一。想想我们周围有多少文本信息的存在,电子邮件、短信、微博、社交媒体网站的帖子、即时通信、实时会议以及可以转换成文本的录音信息。文本数据是现在结构化程度最低的,也是最大的大数据源。幸运的是,我们在驾驭文本数据、利用文本数据来更好地做商业决策方面已经做了很多工作。文本分析一般会从解析文本开始,然后将各种单词、短语以及包含文本的部分赋予语义。我们可以通过简单的词频统计,或更复杂的操作来进行文本分析。自然语言处理中已经有很多诸如此类的分析了,这里我们就不再赘述。文本挖掘工具是主流分析套件中一个不可或缺的组成部分。此外,我们还能找到许多独立的文本挖掘工具包。其中一些文本分析工具使用基于规则的方法,用户需要调整软件才能找到自己感兴趣的模式。另一些工具则使用机器学习和其他算法自动地发现数据模式。每种方法都各有利弊,其相关论述已经超出了本书的范围。我们关心的是如何使用生成的结果,而不是使用工具产生结果的过程。做完文本解析和分类以后,我们就可以分析这些过程所产生的结果了。文本挖掘过程的输出结果通常是其他分析流程的输入。例如,如果能够分析出客户使用电子邮件的情感,就能利用一个变量将客户的情感标记为正面情感或负面情感。这种标记本身是一种结构化的数据,可以作为分析流程的输入。使用非结构化的文本创建结构化的数据,这个过程通常称为信息提取。另一个例子是,假定我们能够在客户与公司往来的邮件中识别出他们对公司某些产品的评价,我们就能利用一系列变量来标识客户的产品评价。这些变量本身也是结构化的度量指标,可以用来做分析。上述这些例子解释了如何捕获非结构化数据片段,并从中提取出相关的结构化数据。从非结构化文本中提取结构数据文本分析的例子很好地说明了该过程:获取非结构化数据,然后处理该数据,最后创建出可以用于分析和报表过程的结构化数据。驾驭大数据的一个重要部分是,利用这种创造性的方式将非结构化数据和半结构化数据变成可用于分析的数据。解释文本数据实际上是相当困难的。强调的词汇和语境不同,同一个单词表达出来的意思就不同。面对纯文本,我们根本不知道重点在哪里,也不知道整个语境。这说明我们得事先进行一些假设,我们会在第6章中更详细地讨论这个问题。文本分析既是一门艺术,也是一门科学,总会存在一定的不确定性。文本分析往往会有分类错误和含义模糊的问题。没错,如果我们在文本集合中发现了更好的决策支持模式,那就应该使用它。文本分析的目标是改进你的决策,但并不是令你的决策变得完美。文本数据可以有效地提升决策效果,它能提供比没有它时更好的结果,即使数据有噪音或含义模糊时,这一点也成立。使用文本数据一种目前很流行的文本分析应用是所谓的情感分析。情感分析是从大量人群中挖掘出总体观点,并提供市场对某个公司的评论、看法和感受等相关信息。情感分析通常使用社会化媒体网站的数据。以下是情感分析的几个例子。公司或产品的口碑怎么样?大家正在讨论的是公司的哪些活动?大家对公司、产品和服务的评价是好是坏?如前所述,文本分析的难点在于词汇和语境是相关的。我们要考虑到这个问题,但大量的评价会让客户情感的倾向变得明确。如果我们可以解读出人们在社交媒体上所说内容、与客服互动信息的趋势,这会对规划下一步的工作有很大的价值。如果公司可以掌握每一个客户的情感信息,就能了解客户的意图和态度。与使用网络数据推断客户意图的方法类似,了解客户对某种产品的总体情感是正面情感还是负面情感也是很有价值的信息。如果这名客户此时还没有购买该产品,那价值就更大了。情感分析提供的信息可以让我们知道要说服这名客户购买该产品的难易程度。文本数据的另一个用途是模式识别。我们对客户的投诉、维修记录和其他的评价进行排序,期望在问题变大之前,能够更快地识别和修正问题。产品首次发布,然后开始出现投诉,文本分析可以识别出客户在哪些方面存在问题。我们甚至可以做到在客服电话接二连三打进来之前,先把问题识别出来。这样我们就能更快地、更积极地做出响应。公司可以及时地做出反应,解决产品未来发行版本中同样的问题,也能主动与客户进行接触,缓解他们当下遇到困难时的焦躁情绪。欺诈检测也是文本数据的重要应用之一。在健康险或伤残保险的投诉事件中,使用文本分析技术可以解析出客户的评论和理由。文本分析可以将欺诈模式识别出来,标记出风险的高低。面对高风险的投诉,需要更仔细地检查。另一方面,投诉在某种程度上还能自动地执行。如果系统发现了投诉模式、词汇和短语没有问题,就可以认定这些投诉是低风险的,并可以加速处理,同时将更多的资源投入高风险的投诉中。法律事务也会从文本分析中受益。按照惯例,任何法律案件在上诉前都会索取相应的电子邮件和其他通信历史记录。这些通信文本会被批量地检查,识别出与本案相关的那些语句。例如,哪些电子邮件中有隐藏的内幕消息?哪些人在和别人交流时说的是假话?威胁背后的实质是什么?在法律案件中应用文本分析的做法称为电子侦察。所有预先进行的分析将帮助起诉获得成功。不使用文本分析,仅通过人工的方式将无法浏览所有的所需文档。即使我们可以做到人工浏览那些文档,但因为任务本身过于单调枯燥,我们很可能会漏掉其中的一些关键信息。文本数据可能会对所有的行业都产生影响。它可能是如今使用最广泛的一类大数据。对企业来讲,掌握如何收集、解析和分析文本是很重要的。文本是我们必须驾驭的一种大数据源。多个行业:时间数据与位置数据的价值随着全球定位系统(GPS)、个人GPS设备、手机的出现,时间和位置的信息一直在增加。从Foursquare到GooglePlaces,再到FacebookPlaces,它们提供了大量的服务与应用,可以记录每个人在某个时间点的位置。手机应用程序可以记录我们的位置和移动的轨迹。即使手机没有正式开启GPS,我们还是可以使用基站信号来获得相当准确的位置信息。消费者应用程序中有一些新颖的使用这些信息的方法,这些方