“大数据”环境下科技情报服务新模式探析摘要:回顾了大数据产生的背景,对大数据环境带来的科研环境变化进行了深入分析,包括科研模式向数据密集型科研转变,研究方法向关联分析转型,科研手段向以高性能计算为依托强大数据处理能力聚焦,大数据环境为传统学科提供了新的研究内容。并基于上述分析对大数据环境下科技情报服务新模式进行了探讨,提出聚焦数据整合与信息融合,提供跨平台、个性化的科技情报服务以及提供基于大数据的文献数据挖掘服务等科技情报服务新模式,为广大科技工作者提供更加优质的科技情报服务,满足大数据环境下的科研工作需求。关键词:大数据;科技情报服务;模式当今社会信息技术飞速发展。以云计算、物联网和大数据为代表的新一代信息技术正在迅速改变着人们的生活和思维方式。大数据正成为人类社会最重要的资产。以物联网为基础,以云计算为手段,通过对大数据的分析处理,形成数据智能,构建智慧城市,已成为社会发展的趋势[1]。在大数据环境下,科技情报服务作为一种信息获取、分析加工,进而产生有价值情报的知识型服务,必然衍生出新的服务模式。大数据环境也为科技情报服务提出了新的要求,同时也带来了新的机遇。本文拟从大数据环境对科技情报服务的影响出发来探讨一下大数据环境下科技情报服务的新模式。大数据的产生背景大数据这一术语产生于全球数据爆炸性增长的背景下。2001年,META集团的分析师DougLany在研究报告中将数据增长带来的挑战和机遇定义为3个V,即数量(Volume)、速度(Velocity)和种类(Variety)的增加[2],这可视为对大数据特征的最早描述。按照维基百科的定义,大数据是指规模大到无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合;麦肯锡全球研究所(MGI)则将大数据定义为“一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集集合”。2011年6月,EMC/IDC发表了一篇题为“从混沌中提取价值”的研究报告,首次对大数据的概念和其潜在应用价值进行了探讨。报告把大数据定义为“大数据技术描述了新一代的技术和架构体系,通过高速采集、发现或分析,提取各种各样的大量数据的经济价值,大数据的特点可以总结为4个V,即volume(体量浩大)、variety(模态繁多)、velocity(生成快速)和value(价值巨大但密度很低)[2]。该定义的核心在于如何从大数据中获得价值,因而得到广泛的认同。目前,大数据的价值已引起世界各国政府部门、经济部门和工业部门的高度重视。2014年,美国白宫发布了《大数据:抓住机遇,创造价值》的报告,标志着大数据已上升为美国的国家战略[3],对大数据分析处理和利用能力已成为国家竞争力的重要组成部分。随后,法国、澳大利亚、日本、韩国等发达国家分别发布了各自的大数据战略,我国也在“973”计划中设置了大数据计算的基础研究的科研选题。由此可见,大数据将对人们的生产、生活方式产生重大而深远的影响。大数据环境下科研环境的变化大数据时代的迅猛到来,必将带来科研模式、方法、手段、内容等方面的诸多变化,从而对科技情报服务模式产生影响。具体来说,大数据将从以下4个方面给科研环境带来深远的影响:首先,大数据带来了科研模式的变化。科研模式正在向数据密集型科研转变[5],这种转变体现在两个方面:用数据的方法来研究科学和用科学的方法来研究数据。前者产生了生物信息学、计算生物学等学科,后者产生了统计学、数据挖掘、机器学习等学科。可以预见,随着大数据的发展,数据密集型科研模式覆盖越来越多的传统学科,将催生出更多的新兴学科。其次,大数据环境也带来研究方法的变革。传统自然科学领域解决问题的基本方法是建立模型,模型来源于物理学等基本学科。大数据时代将打破传统科学研究以探究基本原理和建立模型为主要方法的研究范式,转而研究数据之间的关联和联系。这种关联分析只需要明确事物之间的相关性,而不强调事物之间的因果联系。第三,大数据环境也引发科研手段的变革。科学研究将更加借助于计算机技术发展带来的超强的数据处理能力。计算机科学的发展也将围绕着提高数据处理能力展开。在大数据环境下,统计学将迎来新的拓展,基于大数据的统计模型将跳出传统统计模型的框架,进化出新的统计框架。在大数据环境下,传统的结构化数据的存储方式、线性的数据处理模型都将统统失效,必须发展出高效并行、非结构化的新型存储与处理模式。最后,大数据环境也给传统学科提供了新的研究内容,如社交网络为社会学提供了新的研究方向;自然语言处理、语言识别、机器翻译、文本分析成为语言学的新的研究内容。大数据处理技术为上述各类海量数据的处理提供了必要的工具。大数据环境下科技情报服务模式从上面的讨论可以看出,科研环境的变化对科技情报服务既带来了挑战也带来了机遇。大数据对情报服务带来的挑战主要体现在大数据的多元异构与非结构化,以及数据规模巨大,超出一般方法的处理极限。另外,大数据环境下,作为科技情报服务对象的科研人员的情报服务需求也日益多样化,传统的以文献加工整理为主的科技情报服务已很难满足大数据环境下的科研工作需求。因此,现代科技情报服务工作必须适应大数据环境下科研工作的新环境和新特点,努力为大数据环境下的科研工作提供强有力的信息支撑。笔者认为,应当着重从以下四个方面着手重新构建大数据环境下的科技情报服务模式。聚焦数据整合与信息融合大数据时代,科学研究越来越依赖于数据。大数据的特点之一就是多元异构。数据科学的困境就在于数据的体量巨大和数据的分散性、异构性、模糊性,碎片化特征明显。从价值链分析,大数据价值链包括数据获取、存储、共享、检索、分析、展示等环节,这与情报学研究的价值链存在着很多类似之处,便于发挥情报服务的传统技术优势。另一方面,大数据时代,科学数据的内涵和外延都得到深度拓展,作为情报学的研究对象也不仅仅局限于传统的文献数据。因此,科技情报服务应当充分认识到拓展后的科学大数据的价值,转变情报研究思路,以大数据的加工为重点,搭建大数据与科研工作的桥梁。重点工作包括构建科研数据中心,实现分散数据的整合、多元数据的融合和数据的标准化的目的。数据整合就是将分散的数据进行集中。数据融合则是将孤立的数据进行关联。只有融合,数据才有价值。这正是充分发挥大数据作用的关键所在。标准化也是数据服务的关键。作为科技情报服务提供的数据应当是标准化的,以便于共享共用。具体的工作包括元数据著录、标引、链接等数据加工过程,并采用新一代的基于大数据的工具和平台实现对大数据的获取、存储、管理与分析。提供跨平台的科技信息服务随着大数据环境的建立,信息资源和信息服务逐步向“云端”聚合。在访问平台方面,则在传统的PC平台上,又增加了微信平台、移动App等新的平台。因此,科技情报服务要创新服务模式,提供基于移动端的多种接入方式,使科研人员能够随时随地获取科技情报服务。例如,解放军医学图书馆就推出了基于手机的“掌上军图”移动App[6],提供了图书、公开课、学术资源、馆藏查询等丰富的科技情报资源,极大地方便了科研人员随时随地查阅科研信息。提供个性化科技情报服务大数据时代,科技信息已经突破传统的一次和二次文献资源,其外延已拓展为与科研活动相关的各类数据,其类型包括文献及其描述信息;科研项目、成果、机构、人员等科研事实数据;术语、定义、图表等内容实体;词典、百科全书、词表等知识资源;实验与测量形成的科学数据;以及网络资源、社交媒体、用户行为等扩展数据等。其数据种类繁多,数据量极大,科研大数据和e-Science环境已然形成[7]。从用户需求来说,已经从传统的文献分析发展为多样化的情报需求。基于科研大数据可以分析科研人员的研究领域及其研究兴趣的变化,从而建立科研大数据与科研人员研究领域的关联模式,为形成科技情报个性化主动推送模式奠定基础。同时,由于学科的分化,科研人员的研究日益体现出自己的特色,传统的综合情报服务很难全面向各个领域进行深化,只有在细分学科领域下,配合全样本数据和领域知识的建设,才能真正为科研人员提供知识化信息服务,实现知识化信息服务的高效与准确,满足个性化科研的需求,提供个性化科技信息服务。提供文献数据挖掘分析服务从情报服务阶段性演化来看,大致经历了事实型情报服务、综述型情报服务和挖掘型情报服务三个阶段。事实型情报服务是以事实报道为主要形式的情报服务,这是情报服务的最初阶段。综述型情报服务是通过大量文献追踪,用于反映或预测某一领域的发展趋势。大数据时代,文献数据挖掘正成为新的科技情报服务模式。最典型的是文献计量学的发展。通过对文献大数据的分析,可以对科学研究前沿热点变化规律的认识,也可以获得研究热点的知识图谱。了解世界上重要的研究领域、相关学者及其关注的重点。从而为我国科技政策、科技发展战略的制定等提供重要依据。在这方面,我国科技情报界的巨擘中国科学技术信息研究所首开大数据情报服务之先河,与万方数据公司共同研发了“万方创新助手”,基于期刊、学位、会议、科技成果、专利、标准、政策法规、媒体信息、科技动态等中文科技信息资源,围绕学科、组织机构、专家、主题、基金等“知识获取五要素”,构成二维空间,依托中文信息处理技术、元数据仓储技术、信息网格技术、数据关联挖掘技术与自动分类/聚类技术,对于海量科技知识信息进行挖掘和分析,进而为用户提供立项评审、科技能力评估、项目监测、科技查新、科研定题等支持[8]。军事医学科学院卫生勤务与医学情报研究所也研发了“科技情报决策支持系统”,能够建立文献、成果、专利、标准等科技信息资源的自动关联,从而为科技工作者提供全方位的信息与决策支持。随着科技情报服务转向数据密集型模式,精通数据科学的专业人才也将成为科技情报服务的重要资源。结束语随着大数据时代的到来,不断积累的科研数据已成为科技信息服务的重要源泉。同时,大数据的多元异构性和庞大的数据量,也为大数据环境下的科技情报服务带来新的挑战。因此,必须从数据整合与信息融合、跨平台、个性化和数据挖掘等4方面进一步创新大数据环境下的科技情报服务模式,为科研工作做出更大贡献。参考文献[1]赵国栋,易欢欢,糜万军等著.大数据时代的历史机遇:产业变革与数据科学[M].清华大学出版社,2013-06-01[2]Lany.D.3Ddatamanagement:Controllingdatavolume,velocityandvariety[S].MetaGroupResearch.2001.06[3]GantzJ,ReinselD.Extractingvaluefromchaos[S].IDCiView,2011:1-12[4]美国白宫.大数据:抓住机遇,创造价值[EB/OL].[5]TonyHey等著,潘教峰等译.第四范式:数据密集型科学发现[M].科学出版社,2012-06-01[6]李春,胡畔畔.解放军医学图书馆开启移动服务新模式[EB/OL].[7]肖潇,吕俊生.E-science环境下国外图书馆科学数据服务研究进展[J].图书情报工作.2012,56(17):53-58,114