大数据与档案管理上海大学图书情报档案系2013年12月1.大数据概述除了上帝任何人都必须用数据来说话1.1大数据的定义大数据是指其大小超出了典型数据库软件的采集、存储、管理和分析等能力的数据集。——麦肯锡研究院(MGI)大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。——高德纳(GartnerGroup)大数据指的是如此大而复杂以致现有的数据管理工具或传统数据处理手段无法处理的数据集。——维基百科(Wikipedia)康奈尔大学计算机科学家JonKleinberg称,“大数据这个术语本身很模糊,但在某些方面却又非常具体,大数据是可能改造一切的一种过程的标签”。对于处在探索期的大数据研究来说,与其准确地予以限定性分析,倒不如更多地将精力放在对其特征、内涵的探寻和运用的研究之中。从研究者角度而言,与其寻找一个公认的定义,倒不如去分析这样的问题:当大数据来临时,就某一具体的业务(如数字档案馆、电子文件等)而言,我们是否可以富有想象力地回答,大数据究竟会对某一特定领域带来何种影响,以及人们面对这些影响所获得的机遇是什么?这才是我们跨学科研究的旨义所在,而这无疑具有更加重要的意义。1.2大数据的特征(4V)大量(Volume)数据中的数据不再以几个GB或几个TB来衡量,而是以PB(1千个T)、EB(1百万个T)或ZB(10亿个T)为计量单位。IDC2011年6月报告显示,全球数据量在2011年已达到1.8ZB,“如果把所有这些数据都刻录存入普通DVD光盘里,光盘的高度将等同于从地球到月球一个半来回,也就是720000英里。相当于每位美国人每分钟写3条Twitter,而且还要不停地写2.6976万年”。速度(Velocity)大数据往往以高速实时数据流的形式动态产生,具有很强的时效性。2010年,据英国研究咨询公司Coda预测,移动网络数据流量在未来五年有望增长40倍,用户上传的内容将爆发式增长。对大数据的处理速度要非常快。传统数据仓库系统、BI应用都是批处理方式,但对于大数据应用,必须进行实时数据流处理。比如对于灾难的预测,需要很快地对发生的程度、影响的区域范围等进行量化。多样(Variety)一是数据来源多,随着科技的发展,大数据数据来源和承载方式多种多样,如微博、社交网站、传感器等,数据处于分散状态。二是数据类型多,包括结构化数据(如企业、行业内数据)、半结构化数据(物联网数据)、非结构化数据(互联网数据),并且据Gartner预计,2012年“半结构和非结构化的数据,诸如文档、表格、网页、音频、图像和视频等将占全球网络数据量的85%左右”。价值(Value)由于大量有用与可能没用的数据并存,因此大数据可谓是“遍地都是金子,又遍地都是沙子”。一方面,大数据的价值密度较低,以视频监控为例,在连续不断的监控流中,可能仅有一两秒的影像是有用的数据。另一方面,虽然单条数据并无多大价值,但庞大的数据量则是一座“富矿”,将已有的结构化与非结构化数据进行融合、分析后,将会从中挖掘出极高的价值。特别是竞争激烈的商业领域,数据正成为企业的新型资产,企业都在追求数据价值的最大化。1.3大数据的认识误区大数据之大并不仅仅指容量在大数据的认识上,很多人存在这么一个误区:只有几百TB乃至PB的数据才能称之为大数据。事实上,“大数据并非总是说有数百个TB才算得上,根据实际使用情况,有时候数百个GB的数据也可称为大数据,这主要看它的第三个维度,也就是速度或时间维度”。事实上,解决一个问题的数据规模有一个阈值。“数据少于这个阈值,问题解决不了;达到这个阈值,就可以解决以前解决不了的大问题;而数据规模超过这个阈值,对解决问题也没有更多的帮助”。今天的大数据将不再是明天的大数据当前,大数据的定义是相对于目前的技术和资源而言的,随着时间的推移,处理数据的工具和技术、原始存储空间和处理能力的提升,大数据的界定也必然会发生变化。今天的大数据明天可能不再被认为是大数据,就像10年前的大数据在如今看来什么都不是一样,大数据会继续演进下去。如今,在数据容量、速度、多样性、复杂度等方面被认为是不可能的或无法想象的事情、几年过后情况会完全不同,这是一个多年不变的定律,在大数据时代也同样适用。大数据的价值在于分析与应用很多人认为,正是由于大数据的大容量、高速和多样性,才使得他们比其他数据更具有优势且更重要。然而,“大”和“数据”都不是大数据中最重要的。事实上,拥有任何一个数据集,无论它们多大或者多小,其自身都不会带来任何价值。被收集来的数据如果从不使用,不会比存放在阁楼或地下室的垃圾更有价值。大数据的价值体现在如何分析它们,并采取怎样的措施来提升本身的业务水平。换言之,数据即服务。大数据是一种服务变革本质而言,大数据是信息爆炸时代对数据核心价值的再挖掘,其中综合运用到去冗降噪技术、语义引擎、可视化分析等,因此被很多专业人士认为是继云计算、物联网之后IT行业的又一次颠覆性变革。事实上,大数据“不仅仅是技术变革,更实质上的是计算机服务时代的来临,对数据的抽丝剥茧、总结结论更体现了计算机行业正从技术供应型转为服务供应。1.4大数据与云计算、数据挖掘的区别首先,本质上,云计算改变了IT,而大数据则改变了业务。云计算的目的是通过互联网更好地调用、扩展和管理计算及存储资源和能力,因而从根本上改变了单位的IT架构。大数据使得企业从“业务驱动”转变为“数据驱动”,从而改变了企业的业务架构。其次,云计算与大数据的目标受众不同。云计算的主要推动力量是存储及计算设备的生产厂商和拥有计算及存储资源的企业,因此云计算是卖给CIO的技术和产品,是一个进阶的IT解决方案。大数据的直接受益者不是IT部门,而是业务部门,产业发展的主要推动力量是从事数据存储于处理的软件厂商和拥有大量数据的企业,因此是卖给CEO、业务层的产品。换言之,云计算与大数据实际上是工具和用途的关系。云计算为大数据提供强大的存储和计算能力,更加迅速地处理大数据的丰富信息,并更方面的提供服务;来自大数据的业务需求,能为云计算的落地找到更多更好的实际应用。如果说云计算为数据资产提供了保管、访问的场所和渠道,那么如何盘活数据资产,使其为国家治理、企业决策乃至个人生活服务,则是大数据的核心议题。总之,大数据处理会利用到云计算领域的很多技术,但大数据并非完全依赖于云计算;反过来,云计算之上也并非只有大数据这一种应用,“云计算和大数据共同引领以数据为原料,计算为能源的又一次生产力的大解放,甚至可以与以蒸汽机的使用和电气的使用为代表的第一次工业革命和第二次工业革命相媲美”。首先在数据量上,传统的数据挖掘通常是存储在数据库或者文件中的数据,数据量相对较小,一般为TB级以下,大数据技术能实现对PB量级数据的处理,因此,大数据时代将实现从样本数据到全体数据处理的转变。其次,在数据特性上,传统的数据挖掘一般只能对结构化信息进行处理,处理的信息大多是非实时信息,大数据技术能够实现对结构化、半结构化特别是非结构化信息的处理,处理的信息大多是实时信息。最后,两者的分析手段与方法也有差别,传统数据挖掘的主要算法以统计学为基础,分类和预测是两种常见的数据分析形式,主要包括探索性数据分析(ExploratoryDataAnalysis,EDA)和验证性数据分析(ConfirmatoryDataAnalysis,CDA),而大数据挖掘不仅仅需要统计学方法,还大量使用了机器学习、人工智能、知识图谱等算法。大数据与数据挖掘大数据时代的来临,标志着传统数据挖掘方法已经不再适应日新月异的数据环境,在数据采集、数据存储、数据分析以及可视化等诸多方面捉襟见肘。当然,大数据这一概念之所以能够引发共识成为当前热点,最为重要的是,各个行业领域具有了对大数据分析和利用的巨大现实需求和具体应用需求。显然,这些都不是传统数据挖掘所能解决的,而这也正是是众多IT企业将大数据定义为现有处理工具或手段无法处理的数据集的原因所在。1.5大数据应用大数据在商业中的应用大数据就像货币或黄金一样,是一种新型的经济资产。——2012.1达沃斯世界经济论坛《大数据,大影响》大数据在社会管理中的应用“Google登革热趋势”,利用搜索数据近乎实时地估计登革热在全球的传播情况。(蓝色——该系统估计数据;橙色——巴西官方统计数据)美国流感传染率的官方数据与基于Twitter的数据比较1.6大数据发展(宏观)在大数据发展上,美国是第一个吃“螃蟹”的国家。美国的大数据计划萌芽于“数据开放运动”,2009年5月21日,Data.Gov上线发布,在其目标和使命陈述中指出,Data.Gov的主要目标是“开放联邦政府的数据,通过鼓励新的创意,让数据走出政府、得到更多的创新型运用。Data.Gov致力于政府透明,全力把政府推向一个前所未有的开放高度。它带来的开放将巩固我们国家的民主,提高政府的效率和效能”。美国2012年3月29日,奥巴马政府发布《大数据研究和发展计划》,旨在提高从海量、复杂的数据中获取真知灼见的能力,加速在科学与工程领域创新步伐,增强国家安全,转变教育和学习模式。根据这个计划,美国政府将开发及加强大数据系统,使之能够进行数据采集、保留、存储、管理、分析,以及分发大数据分析的结论。对此,奥巴马政府组建了“大数据高级指导小组”,以协调政府在大数据领域的两亿多美元投资。此举标志着,美国把应对大数据技术革命带来的机遇和挑战,上升到国家战略层面,形成了全体动员格局。2010年1月,英国政府的数据开放网站正式出台:Data.Gov.uk。除去地理信息之外,该网站公布了3000多项民生数据。而这个时候,美国的Data.gov虽然已经运营了半年多,却还仅仅只有1000多项民生数据。2010年5月,戴维.卡梅伦出任首相后,提出了“数据权”(RighttoData)的概念,指出“数据权”是信息时代每一个公民都拥有的一项基本权利,并承诺要在全社会普及“数据权”。2012年11月,英国政府发布新的政府数字化战略,旨在使政府服务实现“默认数字化”,承诺2015年前开放有关交通运输、天气和健康方面的核心公共数据库,并投资1000万英镑建立世界上首个“开放数据研究所”(OpenDataInstitute)。英国2013年6月,日本公布了新的IT战略——创建最尖端IT国家宣言,全面阐述了2013-2020年期间以发展开放公共数据和大数据为核心的日本新IT国家战略。值得注意的是,在日本的大数据产业发展中,很多专业人士提出“在进一步充分利用匿名化技术,制定合理、活用的大数据规则”的前提下,要修改并进一步完善个人信息保护法规。2013年8月,澳大利亚政府信息管理办公室(AGIMO)发布了《公共服务大数据战略》,该战略以六条“大数据原则”(数据属国有资产;从设计着手保护隐私;数据完整性与程序透明度;技巧、资源共享;与业界和学界合作;强化开放数据)为支撑,旨在推动公共行业利用大数据分析进行服务改革,制定更好的公共政策,保护公民隐私,使澳大利亚在该领域跻身全球领先水平。日本、澳大利亚我国的大数据战略(国家层面)2013.2,国务院《关于推进物联网有序健康发展的指导意见》发布,提出要“加快传感器网络、智能终端、大数据处理、智能分析、服务集成等关键技术研发创新”。2012.3.29(与美国大数据计划同日),我国科技部发布“‘十二五’国家科技计划信息技术领域2013年度备选项目征集指南”,将大数据研究列在首位。2011.11,工业和信息化部发布的《物联网“十二五”发展规划》发展规划中,把信息处理技术作为4项关键技术创新工程之一被提出,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。此外,2013年两会期间,有人大代表建议把大数据上升为国家战略。2012.11,广东省颁布了《广东省实施大数据战略工作方案》,率先启动了大数据战略,拟在财政、环保、招投标等领域率先开展数据公开试点,逐步推