大数据时代索引与数据库事业的发展与创新结语大数据时代索引与数据库事业面临的挑战及创新索引与数据库的发展现状大数据时代引言◦“大数据”(BigData)已经在全球引起了广泛关注,正在引领了又一轮数据技术的革命。美国EMC公司于2011年5月在美国拉斯维加斯举办第11届EMCWorld大会,大会的核心是帮助企业利用IT变革的重要趋势。此次大会以“云计算相遇大数据(CloudMeetsBigData)”为主题,着重展现当今两个最重要的技术趋势,正式提出了“大数据”概念。根据IDC《数字世界》研究项目在2012年的统计,2010年全球数字资源的规模首次突破了ZB(1ZB=1万亿GB)级别,达到了1.227ZB;而2005年只有130Eb,五年增长了10倍。如果保持这种爆炸式的增长速度,到了2020年,我们的数字资源规模将超过40ZB,相当于世界上每个人拥有超过5200GB的数据。无疑,我们已进入了大数据时代。单位:ZB在2011年12月,我国工信部发布了物联网“十二五”规划,提出了4项关键技术创新工程。信息处理技术的内容包括海量数据存储、数据挖掘、图像视频智能分析等,都是大数据技术的重要组成部分;另外3项关键技术创新工程,包括信息感知技术、信息传输技术、信息安全技术,这些也都与“大数据”密切相关。我国也对大数据技术给予了足够的重视。◦基于以上概述,我们认为,大数据时代已经到来,已经对我们的社会产生了重大影响。本文将尝试对大数据时代我国的索引和数据库事业的发展与创新进行研究和展望。2.1大数据的定义和特征◦许多权威机构和企业对大数据给予了不同的定义。麦肯锡认为,“大数据所涉及的数据集规模已经超过了传统数据库软件获取、存储、管理和分析的能力。”IBM公司认为,可以用3个特征相结合来定义大数据:数量(Volume)、种类(Variety)和速度(Velocity),即庞大容量、极快速度和种类丰富的数据。IDC公司认为,“大数据不是一个事物,而是一个跨多个信息技术领域的现象。大数据技术描述了新一代的技术和架构,通过使用高速(Velocity)的采集、发现或分析方法,从超大容量(Volume)的多样(Variety)数据中经济地提取价值(Value)。”◦综合以上几种不同的见解,我们认为,具备以下特征的就是大数据。(1)数量大(Volume)。大数据所包含的数据量很大,而且在急剧增长之中。但是,在可供使用的数据数量不断增长的同时,可处理、理解和分析的数据比例却在不断下降。(2)种类多(Variety)。随着技术的发展,数据源不断增多,数据的类型也不断增加。不仅包含传统的关系型数据,还包含来自网页、互联网、搜索引擎、论坛、电子邮件、传感器数据等原始的、半结构化和非结构化数据。(3)速度快(Velocity)。除了收集数据的数量和种类发生变化,需要处理和生成数据的速度也在变化。数据流动的速度在加快,要有效的处理大数据,需要在数据变化的过程中实时的对其进行分析,而不是滞后的进行处理。(4)价值量(Value)。在信息时代,信息具有很重要的商业价值。但是,信息具有生命周期,数据的价值会随时间快速减少。另外,大数据的数量庞大,种类繁多,变化也快,数据的价值密度很低。如何从大量多样的数据中尽快的分析出有价值的信息非常重要。对海量的数据进行挖掘和分析,这也是大数据技术的难点。(5)真实性(Veracity)。这是一个衍生特征。真实有效的数据才具有意义。随着新数据源的增加,信息量的爆炸式增长,我们很难对数据的真实性和安全性进行控制,因此需要对大数据进行有效的信息治理。◦大数据在结构类型上也有其特点:大多数的大数据都是半结构化或非结构化的。半结构化的数据是指具有一定的结构性并可被解析或者通过使用工具可以使之格式化的数据,如包含不一致的数据和格式的员工薪酬数据。非结构化的数据是指没有固定结构,通常无法直接知道其内容,保存为不同类型文件的数据,如各种图像、视频文件。◦根据目前大数据的发展状况,未来数据增长的绝大部分将是半结构化或非结构化的数据。2.2大数据时代已经到来◦(1)大数据时代已经到来理论的提出:2008年,《Nature》杂志出版一期专刊,专门讨论未来的大数据(BigData)处理相关的一系列技术问题和挑战。现实的节点:2007年是人类创造的信息量有史以来第一次在理论上超过可用存储空间总量的一年。◦(2)大数据时代到来的原因首先,信息技术和计算机网络技术的发展,为大数据时代的到来奠定了坚实的技术基础。各种技术的发展,使得数据的来源、类型、数量变得越来越多,由此产生出了的数目庞大且不断急剧增长的非结构化数据、半结构化数据,整个社会发展进入到了大数据时代。其次,大量智能终端的广泛应用与网络应用的不断增长,为大数据时代的到来奠定了坚实的物质基础。通过互联网和社交网络、数码相机等工具,每个人的日常生活正在被数字化,人们可以随时方便的根据自己的需要,产生大量的非结构化数据、半结构化数据。特别是智能手机和笔记本电脑的普及,是当前数据量爆炸增长的一个重要原因。最后,信息社会的快速建立,信息成为越来越重要的经济资源,也是大数据时代到来的重要原因。在信息时代,数据已经成为社会资源的重要组成部分,基于数据的处理、分析、挖掘等服务都被信息服务机构广泛应用和开展,信息的经济价值越来越大,人们对数据的重视程度越来越高,由此也产生了大量的数据。◦(3)大数据时代的到来,必定会对索引和数据库事业也产生重大影响。本文将论述大数据为索引和数据库带来的机遇和挑战,探讨大数据时代索引和数据库事业的发展与创新,以引起业界学者对相关问题的关注与探讨。3.1索引事业的发展现状◦按照钱亚新教授的说法,“将一种书报或一套书报中讨论所及的人名、物名、事名、地名、时名或篇名等分析而组合,用一定的方法排列它们的次序,并表明它们在书报中所在的地位的表,叫作索引。换言之,索引是一种检查指定范围内的书报所有特项知识的工具。”◦一般来说,索引的编制有手工和计算机编制两种方式,随着科技和时代的发展,目前基本都使用计算机编制索引的方式。◦九十年代以来,随着当代数字化、网络化、智能化技术的发展,索引研究对象也随之从传统的印刷型扩大到了数字型,出现了索引数据库、文摘数据库、全文数据库,以及网页索引、网址索引、搜索引擎、学科导航等各种新兴工具,检索语言、标引方法和索引技术等领域都有了新的突破。◦目前使用最多的索引产品是数据库索引,南京政治学院上海分院信息管理系的张琪玉教授直接提出了现代的索引就是数据库的判断。◦目前国内外的索引事业随着计算机和网络技术的发展也取得了很大的进展。在国际,SCI等三大索引在科技界形成了重大影响,其他领域的索引应用也取得了广泛的成果。在国内,各种类型的中文全文文献数据库纷纷上网,为科研工作者提供了很好的帮助,传统索引事业也稳步发展。网络信息检索工具是国内外索引研究和应用的热点,影响越来越大。◦根据本中心的研究,目前国内外在索引领域的研究表现出明显的差异性,但发展趋势基本一致。◦具体表现在以下四个方面:第一,国内外对电子索引技术的研究日益成熟,在国内正处于研究网络的中心,而在国外已逐渐处于网络边缘。这与国内信息技术研究比国外起步稍晚的原因是分不开的。第二,传统的索引理论的研究仍然占据重要地位。国内外学者对传统索引理论的研究仍然非常重视。相对而言,国外学者的理论研究更具全面性和系统性。第三,索引的应用研究将成为索引研究中的重要内容,国外的应用研究相对国内更为广泛。国外对索引的实践与应用的研究已经深入到了引文分析、文献计量学、科学计量学、评价、绩效评估、医学等多个具体领域。第四,与其他学科相结合开展研究可能成为未来索引研究的发展趋势之一。在索引研究的过程中注重与其他学科的结合,一方面可以引入新的理论与方法,如社会学、本体、知识地图、元数据等,为索引理论和方法的研究带来新的视角;另一方面,索引的方法与研究成果也可以应用于其他学科,为促进其他学科研究的发展做出贡献。◦此外,自从改革开放到现在,我国的索引从业人员数量一直在稳步增加,这一方面与国家重视图书馆的建设有关,另一方面也是索引事业发展的需要。◦但是我们与国外相比,索引事业的从业人员仍然数量偏少,素质有待提高。特别是在索引教育方面,我们取得的成绩还不够,比如我们至今没有一本公认的比较权威的索引学教材。3.2数据库事业的发展现状◦数据库(Database)是按照数据结构来组织、存储和管理数据的仓库。◦相对于索引事业,数据库事业的发展更为迅猛。目前,全世界大约有书目型数据库、参考型数据库、参考文献数据库、全文型数据库等几十种不同类型的数据库。各种数据库的具体数量更是难以估计。◦1980年以前,数据库技术的发展,主要体现在数据库的模型设计上。◦进入90年代后,计算机领域中其它新兴技术的发展对数据库技术产生了重大影响。数据库技术与网络通信技术、人工智能技术、多媒体技术等相互渗透,相互结合,使数据库技术的新内容层出不穷。◦至今,数据库的许多概念、应用领域,甚至某些原理都有了重大的发展和变化,形成了数据库领域众多的研究分支和课题,产生了一系列新型数据库。如:分布式数据库、联合数据库、大规模并行处理数据库等。◦国外数据库的发展大致经历了四个阶段:1970年以前为初步发展阶段;1970-1980年数据库数量迅速增加,开始进入联机检索阶段;1980年至2010年数据库数量剧增,类型也发生了巨大变化,而且开始全球化,是数据库的深入发展阶段;2010年至今,数据的类型和数量均发生了重大变化,数据库也必须随之发生改变,于是进入了变革发展阶段。◦我国数据库的研究和应用相对国外来说,起步较晚,也可以大致参照国外的发展状况划分为四个时期:介绍学习时期(70-80年代)、初步发展时期(80-90年代)、稳定发展时期(1990-2010年)、变革发展时期(2010年至今)。◦总的来说,国内外的数据库技术发展非常迅猛。◦分析我国数据库建设现状,目前仍处于较低的发展阶段。◦虽然已经建立了种类众多的数据库,全国各高校的计算机和信息管理专业都开设了数据库课程,数据库、商业数据库的建设和使用越来越广泛。◦但是,我国的数据库建设仍然普遍存在以下一些制约因素:政府缺乏统一的整体规划;各地的信息机构对数据库的建设不够重视;数据库的技术发展仍滞后于国外;商业数据库的建设和应用不够广泛;数据库技术人员的素质还有待提高等。◦而在国外,从六十年代末期开始,数据库系统的研究和开发已经走过了四十多年的历程,取得了辉煌的成就,形成了庞大的产业。◦数据库技术和系统已经成为世界各国信息基础设施的核心技术和重要基础。进入大数据时代,当我国还在研究大数据的概念时,英国的维克托•迈尔•舍恩伯格早在2010年就在《经济学人》上发布了长达14页对大数据应用的前瞻性研究,已写出了《大数据时代》这本对大数据系统研究的先河之作,并被誉为“大数据商业应用第一人”。4.1面临的挑战◦大数据对于索引和数据库事业而言,既是巨大的机遇,又是巨大的挑战。面对海量的种类繁多的半结构化和非结构化数据,从中迅速的进行分析,找出有效的价值,这一方面具有重大的经济意义,另一方面也要求我们必须改进现有的技术,使用新方法来从数据中提取价值。◦大数据时代对索引和数据库事业提出了如下的重大挑战:(1)理念更新。大数据带来的是一种全新的模式,索引和数据库的观念也要随之跟随变化,以适应时代的需要。同时要更加注重商业思维,充分利用大数据,获取经济利益。(2)及时有效。大数据时代的数据产生迅速,数据的价值生命周期却很短暂,如何能够及时有效的从数据中发现商机并付诸行动才能获取价值。(3)集成分析。如果将分析集成到与数据所面临的环境中,将加快信息分析的速度,使分析结果能够更快的实现可操作化。(4)可扩展。面对大数据必须采取新方法来处理数据,要实现从规模较小的数据集到大规模数据集的分析,因为我们不能控制所面临的数据源产生数据的规模。4.2技术的创新◦目前,大数据时代的索