1大数据的价值与作用(2)胡经国二、多角度解读大数据的四个价值相关文献从多角度论述了大数据的四个价值,现将其介绍于下,供读者参考。本文在篇章结构和文字上对原文献作了一些修改,特此说明。1、记录功能:情景辅助及操作基础数据被记录下来,并非全部都是为了长远的利益所用。其实,很多记录发挥的作用是作为一种操作基础;脱离了记录,后续的操作将难以进行。这一点与人脑的作用有点相似。我们每个人在做一个即时操作的同时,大脑都会加以记录;然后依据这些记录,快速决定下一步怎么做。这些即时的记录,仅仅是一种情景辅助的作用。2、备份和监督功能:情景复原及责任追究记录也是对以前操作过程的一个虚拟备份。它记录了各种不同的操作过程及其次序,甚至还记录了不同环节的具体操作内容。这样一种作用可以看作是记录最被认可的初始价值。历史上的各种备忘录、金融记录甚至包括历史,都是出于这样一种动机来加以记录的。记录让当时的操作情景有了复原的可能性,哪怕只是一种并非完整的情景复原。这种情景复原除了具有纪念意义以外,还有一个重要的价值,那就是用于事后的责任追究,并且作为一种奖惩的依据。这样一种作用看似很微小,但是却是人类社会运作的基础。尤其是在连接时代的今天,不同主体之间的交互不断加剧,情景复原会让每个主体对自己的操作更加负责,让各种有效的连接成为一种可能。随着互联网与线下实体经济行为的日益融合,一次鼠标点击就有可能代表着很大的利益转移。结合网络协议的操作记录,已经成为大家在网上操作时承担相应责任的依据。例如,淘宝网鼓励买家与卖家在旺旺上聊天的时候将聊天内容记录保存下来。在具体的投诉环节中,相互之间的这些聊天记录可以作为一种证据去为自己辩护。这些记录包括:买方下单,支付款项;卖家发货;快递公司名称和单号,甚至包括该单在快递过程中的状态、时间,有些快递公司甚至将具体快递员的姓名和电话也记录在内,最后还有签收的方式等。这些都被详细地记录下来。所有这些记录发挥了一种情景复原以及事后追究责任的作用,从而确保了交易的正常进行。3、纠偏功能:情景指引及方向微调一个系统在运行过程中,有些时候也会出现一些跟平常不一样的差异。当这种差异所代表的数据,通过极值等各种方式体现出来的时候,系统本身的原有平衡可能会被打破,内部各方面的环节或资源就有可能跟不上。在这个时候2适当的外力参与很有必要,以免出现系统崩溃的情况。例如,汽车上的自动定速巡航,可以根据驾驶者设定的速度和汽车调配油门的大小进行不断的微调。当汽车速度超过预设速度多少的时候,就开始减小油门;当速度低于多少的时候,就开始加大油门。通过将当前的速度记录与标准设定的速度进行对比,通过一种模糊控制的方式来进行调整,从而发挥情景指引的作用。再如,一个企业的产供销系统,一个城市的交通系统,甚至一个国家的人口政策和资源利用等,都可以通过这样一种方式来进行微调,从而确保系统的良性运行。例如,中国的计划生育政策已经执行了很多年,而且也取得了一定的效果。但是,最近几年随着中国人口老龄化的加快,未来一些年社会对劳动力的需求会逐渐增大,劳动力短缺有可能成为中国的关键问题。在这样一种情况下,基于各种人口数据的不断变化,适当地进行人口政策的调整已经变成一种必须。但是,具体怎样调整,需要根据数据来说话。4、预测功能:情景研究及系统优化对未来的预测功能是目前业界对大数据最看重的价值之一。基于之前记录下来的各种数据的深入研究,发现其中的规律特征,从而进行系统优化,甚至升级。如果前面的纠偏只是一些相对较小的指引的话,那么基于预测的情景研究和系统优化,则是相对较大的变动。这种基于预测的价值实现,对系统(包括个人、企业机构,也包括各种电子性工具)的长远运行来说价值重大;它决定了一个系统是否具有长期的成长性和演变能力。一个主体(系统)不但要考虑即时的运行以及下一步的正确操作,更需要考虑长远的运行可能。尤其是在竞争激烈的今天,各种企业机构之间的竞争非常激烈。如何基于以往的运行数据,对未来的运行模式进行预测,从而提前进行准备或者加以利用、调整,对很多企业机构其实是一种生死存亡的问题。这样一种情况,同样适用于国家级别。正因为这一点,目前无论是企业级别还是国家级别都开始研究和部署大数据。例如,现在基于人类地球上的各种能源存量以及大气受污染、冰川融化的程度,我们确实可以按照目前这种工业生产和生活模式,推算出人类在地球上可以存活的年数。基于精准预测发现人类社会现有工业生产和生活模式是死路一条之后,人类就可以进行一些改变,这其实就是一种人类社会生存系统优化。这种结合以前的情景研究而不断进行系统优化的过程将赋予系统生命力。而大数据就是其中的血液和神经系统。通过对大数据的深入挖掘,我们将会了解系统的不同机体是如何相互协调运作的,同样也可以通过对它们的了解去控制机体的下一个操作,甚至长远的维护和优化。从这个角度讲,基于网络的大数据可以看作是人类社会的神经中枢。因为,有了网络和大数据,人类社会才开始灵活起来,而不像以前那么死板。基于大数据,个体之间相互连接有了基础,相互的交互过程得到了简化,各种交易的成本会减少很多。厂家等服务提供方,可以基于大数据研发出更符合消费者需求的服务,机构内部的管理也将更为细致。有了血液和神经系统的社会才算是真的有了生命。3三、大数据是“原油”不是“汽油”相关文献从不同角度论述了大数据的价值与作用,现将其介绍于下,供读者参考。本文在篇章结构和文字上对原文献作了一些修改,并添加了一些小标题,特此说明。1、大数据与数据的区别⑴、海量积累和高增长率大数据与数据的区别之一在于其海量积累和高增长率。数据(data)在拉丁文里是“已知”的意思;在英文中的一个解释是“一组事实的集合,从中可以分析出结论”。笼统地说,凡是用某种载体记录下来的、能反映自然界和人类社会某种信息的东西,都可以称之为数据。例如,古人“结绳记事”,打了结的绳子就是一种数据。在现代社会,信息的种类和数量越来越丰富,载体也越来越多。数字是数据,文字是数据,图像、音频、视频等都是数据。大数据量的增多是人们对大数据的第一个认识。随着科技发展,各个领域的数据量都在迅猛增长。据预测,近年来,数字数据的数量每3年多就会翻一番。⑵、数据的多样性大数据与数据的区别还在于数据的多样性。据认为,数据的迅猛增长是三维的、立体的。在这里所谓的“三维”,除了指数据量快速增涨以外,还指数据增长速度的加快,以及数据的多样性,即数据的来源和种类不断增加。⑶、从量的积累到质的飞跃大数据与数据的区别还在从量的积累到质的飞跃。从数据到大数据不仅仅只是量的积累,而更是质的飞跃。海量的、不同来源、不同形式、包含不同信息的数据,可以容易地被整合、分析;原本孤立的数据变得互相联通。这使得人们通过数据分析,能够发现小数据时代很难发现的新知识,从而创造新的价值。⑷、通过数据分析研究和发现规律大数据与数据的区别还在通过数据分析研究和发现规律。通过数据来研究规律、发现规律,贯穿了人类社会发展过程的始终。人类科学发展史上的不少进步,都和数据采集分析直接相关。例如,伦敦1854年发生了大规模的霍乱,很长时间没有办法控制。一位医师用标点地图的方法,研究了当地水井分布和霍乱患者分布之间的关系。发现有一口水井周围霍乱患病率明显较高。据此,他找到了霍乱暴发的原因:一口被污染的水井。在关闭这口水井之后,霍乱的发病率明显下降。这一医学案例充分展现了数据的力量。从本质上说,许多科学活动都基于数据挖掘。不是从预先设定好的理论或者原理出发,通过演绎来研究问题;而是从数据本身出发通过归纳来总结和发4现规律。近现代以来,随着人类面临的问题变得越来越复杂,通过演绎的方式来研究问题常常变得很困难。这就使得数据归纳的方法变得越来越重要,数据的重要性也越发凸显出来。2、大数据是国家战略资源在大数据时代,数据的重要作用更加凸显。许多国家都把大数据提升到国家战略资源的高度。⑴、有助于政府科学决策政府合理利用大数据,使得引导决策的将是基于实证的事实,并且使政府更有预见性、更加负责、更加开放。中国古代治国就已经有重视数据的思想。例如,商鞅提出,“强国知十三数……欲强国,不知国十三数,地虽利,民虽众,国愈弱至削”。在大数据时代,循“数”治国将更加有效。在小数据时代,政府做决策更多地依据经验和局部数据,难免头痛医头、脚痛医脚。比如,交通堵塞就多修路。在大数据时代,政府做决策能够从粗放型转向集约型。路堵了,利用大数据分析可以得知哪一时间、哪一地段最容易堵塞;或在这一地段附近多修路,或提前预警引导居民合理安排出行。从而,实现对交通流的最佳配置和控制,改善交通状况。⑵、有助于商家精准营销对于商家来说,大数据使精准营销成为可能。一个有趣的故事是关于沃尔玛超市的“啤酒、尿布”的故事。沃尔玛超市在分析销售数据时发现,顾客消费单上和尿布一起出现次数最多的商品竟然是啤酒。跟踪调查发现,有不少年轻爸爸会在买尿布时顺便买些啤酒喝。沃尔玛在发现这一规律以后,搭配促销啤酒、尿布,销量大幅增加。在大数据时代,每个人都会“自发地”提供数据。我们的各种行为,如点击网页、使用手机、刷卡消费、观看电视、坐地铁出行、驾驶汽车等,都会生成数据并被记录下来。我们的性别、职业、喜好、消费能力等信息,都会被商家从中挖掘出来,据以分析商机。⑶、有助于实现精准医疗大数据也将使个人受益。从生物学、医学上讲,以前生物学家只是通过对单个或几个基因的操控来观察其对生物体的影响,很难发现整体的关联。而在现在,由于技术的进步,可以分析很多,如遗传信息、全体基因的表达量信息、蛋白质族谱信息、全基因组甲基化信息、表观遗传信息等。同时,还有个人健康指标、病历、药物反应等数据。如果真能达成生物学上多维多向数据的有机融合,就能够把个人完整地描述出来,从而实现精准医疗的目的。⑷、有助于防止和打击数据造假在大数据时代,审核数据的真实性也有了更有效的手段。大数据的特征之一是多样性。不同来源、不同维度的数据之间存在一定的关联度,可以交叉验证。例如,某地的工业产值虚报了一倍,但是用电量和能耗却没有达到相应的规模。这就是数据异常,很容易被系统识别出来。在发现异常以后,相关部门再进行复核,就能够更有针对性地防止、打击数据造假。⑸、大数据是非竞争性资源5数据是一种资源。但是,数据又跟煤、石油等物质性资源不一样。物质性资源不可再生;你用多了,别人就用少了,因而很难共享。而数据则可以重复使用,不断产生新的价值。大数据资源的使用是非竞争性的。在共享的前提下,更能够达到双赢的目标。从另一个角度来说,如果数据不被融合、联系在一起,那么也不能称之为大数据。3、大数据不能被直接拿来使用现在有一种流行说法认为:在大数据时代“样本=全体”,人们得到的不是抽样数据而是所谓“全数据”,因而只需要简单地数一数就可以下结论了,复杂的统计学方法可以不再需要了。然而,这种观点是错误的。这是因为:⑴、统计学依然是数据分析的灵魂首先,大数据能够告知信息,但是不能解释信息。打个比方说,大数据是“原油”而不是“汽油”,不能被直接拿来使用。就像在股票市场,即使把所有的数据都公布出来,不懂的人依然不知道这些数据代表的是什么信息。在大数据时代,统计学依然是数据分析的灵魂。正如有专家指出的,没有系统的数据科学作为指导的大数据研究,就如同不利用工程科学知识来建造桥梁,很多桥梁都可能会坍塌,并带来严重的后果。⑵、全数据概念本身很难经得起推敲其次,“全数据”的概念本身很难经得起推敲。所谓全数据,顾名思义就是全部数据。这在某些特定的场合,对于某些特定的问题,确实可能实现。比如,要比较清华、北大两校同学的数学能力在整体上哪个更强,可以收集到两校同学高考时的数学成绩作为研究的数据对象。从某种意义上说,这是全数据。但是,这并不是说我们有了这个全数据就能很好地回答问题了。一方面,这个数据虽然是全数据,但是仍然具有不确定性。因为,入校时的数学成绩并不一定能完全代表学生的数学能力。假如让所有同学重新参加一次高考,几乎每个同学都会有一个新的成绩。分别用这两组全数据去做分析,结论就可能发生变化。另一方面,事物在不断地发展和变化。同学入校时的成绩,并不能代表