对大数据环境下科技情报工作发展趋势的几点思考贺德方中国科学技术信息研究所报告提纲四、对大数据环境下科技情报工作的思考三、中信所在大数据方面的相关工作二、大数据对科技情报工作的影响一、世界各国对大数据的重视程度日益提高一、世界各国对大数据的重视程度日益提高2012年3月,美国政府宣布“大数据的研究和发展计划”,引发了世界各国的广泛关注,未来国家层面的竞争力将部分体现为一国拥有数据的规模、活性以及解释、运用的能力,数字主权将成为继边防、海防、空防之后另一个大国博弈的空间。大数据国家层面战略相继出台。2012年11月,韩国政府推出了《大数据总体规划》,提出从大数据的收益和效能出发考虑大数据的逐步应用;确定大数据共享的基础设施以及技术支持与专业训练的规则。2013年2月,法国政府推出《数字化路线图》,列出了五项将会大力支持的战略性高新技术,而“大数据”就是其中一项。2013年6月,日本安倍内阁正式公布了新IT战略——“创建最尖端IT国家宣言”。这篇“宣言”全面阐述了2013~2020年期间以发展开放公共数据和大数据为核心的日本新IT国家战略。2013年6月,澳大利亚政府信息管理办公室(AGIMO)发布了《公共服务大数据战略》。该战略以六条“大数据原则”为支撑,旨在推动公共行业利用大数据分析进行服务改革,制定更好的公共政策,保护公民隐私。“大数据的研究和发展计划”•汪洋副总理向广东省干部推荐《大数据》,在财政、环保、招投标等领域率先开放数据。•2013年7月上海发布大数据行动规划•中关村成立大数据产业联盟•2013年9月天津滨海新区大数据产业发展行动方案•国家发改委2012年高技术服务业研发及产业化专项,设立了“大数据分析软件开发和服务创新”专项•科技部2014年度973计划指南,设立了“大数据计算的基础研究”项目我国各级政府也开始重视大数据发展战略一、世界各国对大数据的重视程度日益提高根据IDC发布的2013全球对大数据技术和服务的投资预测结果,全世界对大数据技术和服务的投资2013年将超过100亿美元,而到2016年将接近250亿美元。一、世界各国对大数据的重视程度日益提高几千年前第一范式–经验范式由伽利略、哥白尼以及同时代的开普勒创建的实验观察模式,被称为科研第一范式。第二范式–模型推演和理论科学以牛顿微积分和经典力学为代表的模型推演和理论精准预测,是科研的第二范式。第三范式–仿真模拟和计算科学20世纪初,量子力学和混沌理论的发展否定了模型推理和理论预测的可行性,并以电子计算机的诞生为契机,演变出科研的第三范式——计算科学。第四范式–数据密集型科学随着小世界网络和无尺度网络等复杂网络研究的深入,以及计算能力和传感器的无处不在,数据密集型科学从计算科学中分离出来,成为科学研究的第四范式。几百年前几十年前当今“数据密集型”科学研究——指当今科学研究越来越依赖于数据的聚集和分析,特别是海量数据分析,这也揭示了大数据时代的来临。二、大数据对科技情报工作的影响在《第四范式——数据密集型科学发现》一书中,该书作者就科学范式总结道:过去数千年的科学是“经验范式”,主要是描述自然现象;过去数百年的科学是“理论范式”,主要是应用模型和一般化的归纳;过去数十年的科学是“计算范式”,主要是模拟复杂现象;而今天的科学是“数据开发范式”即“e-Science范式”,主要是将理论、实验、模拟相统一,其特点是数据由仪器收集或者由模拟仪器产生,由软件来处理,信息/知识存储在计算机中,科学家利用数据管理和统计方法来分析数据库和数据文件。数据科学将创造新的科学研究方法论情报研究的层次演进与范式发展1940s1960s1990s2010s事实性情报搜集综述型情报分析计算型情报研究科技文献的翻译、报导和提供科技文献的综述、检索、分析和计量科技文献知识挖掘计算、监测、评价、预测等研究二、大数据对科技情报工作的影响科学范式的演进和当今数据密集型科研活动的兴起,强力推动着科技情报研究服务的范式演进和发展。从194O——2O1O年的数十年中,科技情报研究与服务的工作模式经历了显著的转型与变化,从主要是基于事实、数据、信息、文献翻译等的事实型情报收集服务;到主要是基于文献检索、翻译、综述而开展定性分析和文献计量定量分析等的综述型情报分析服务;再到主要基于文献、专利、标准、经济社会和开源数据库的数据挖掘计算与分析,以及建设科技发展态势监测分析与研究系统的计算型情报研究。1.Volume2.Variety3.Value4.Velocity数据量大全球在2010年正式进入ZB时代,IDC预计到2020年,全球将总共拥有35ZB的数据量数据类型繁多如今的数据类型早已不是单一的文本形式,而是结构化数据、半结构化数据和非结构化等多种形式的综合,提出了更高的处理要求沙里淘金,价值密度低如何通过强大的机器算法更迅速的完成数据的价值“提纯”是目前大数据汹涌背景下亟待解决的难题实时变化迅速大数据区分于传统数据最显著的特征。如今涉及到感知、传输、决策、控制开放式循环的大数据,数据具有很高的时效性(动态科技信息、用户动态需求等),所以对数据实时处理有着极高的要求大数据的特点二、大数据对科学研究和情报服务工作的影响大数据的特点:第一,数据体量巨大。全球在2010年正式进入ZB时代,IDC预计到2020年,全球将总共拥有35ZB的数据量。第二,数据类型繁多。如今的数据类型早已不是单一的文本形式,数据类型分为结构化数据、半结构化数据和非结构化数据。第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。如何更迅速的完成数据的价值“提纯”是目前大数据汹涌背景下亟待解决的难题。第四,高速变换、实时处理。大数据区分于传统数据最显著的特征,是数据具有时效性,所以对数据实时处理有着极高的要求。世界科技期刊已接近10万种;SCI数据库的记录数2011年已达4.94亿条之多;欧洲专利局worldwide数据库有专利文献6500万件之多全世界每年仅学术论文产出约300-400万篇;世界各国每年出版专利文献数量超过150万件......Science杂志:“科学就是数据,数据就是科学”,“数据是金矿”,“数据推动着科学的发展”科学文献数据库;专利数据库;标准数据库;科学数据库;多媒体数据(图片、声音、视频等)......科技情报领域的大数据环境二、大数据对科学研究和情报服务工作的影响数量Volume增速Velocity多样性Variety价值Value科技信息资源符合大数据的特点相对于大数据的四大特点,科技信息资源也越来越多地显示出相同之处。当今时代,科学研究数据、论文和专利等产出不断增长和积累。全球科技文献产出的数量不断增长,SCI数据库的记录数2011年达到了4.9亿条之多。同时,资源的加工深度也在不断扩展。以专利信息为例,世界各国每年出版专利文献超过150万件,欧专局数据库有专利文献6500万件之多。汤姆森科技信息集团的Delphion专利服务系统拥有经过深加工高附加值的约5400万份专利文献,而该公司的的温特创新索引数据库详细记载了超过1100万条发明专利信息,由各个行业的技术专家进行重新编写和翻译,除了包含相关的同族专利信息,还包括描述性的标题和摘要、新颖性、技术关键、优点等。科技文献数据的巨量增长和内容积累,给科技文献的管理、分析和应用提出了显著的挑战。二、大数据对科技情报工作的影响情报学是以数据、信息、知识、情报为主要研究对象的学科,大数据问题的出现也给情报学提出了诸多挑战。信息服务传统模式将会被改变大数据内容的非结构化和碎片化特点对内容组织和有效关联提出了新的要求用户需求更复杂,对服务价值的期望值更高现有的技术和工具难以处理大数据的规模和复杂性二、大数据对科技情报工作的影响相比于传统的信息内容,特别是相对规范的科技信息,大数据更零散、更原始、更复杂。这些巨量、快速、多样的数据存在明显的碎片化特征;不少数据仅仅停留在原始数据层面,并未成为真正的信息。这就要求我们要有能力去获取和管理更多层面和来源的相关资源,实现资源内容的重新组织和有效关联,加强信息组织方法与算法的创新研究,努力发现大数据信息资源中蕴藏的隐形知识和内在关系。大数据给情报学提出了的挑战之一:二、大数据对科技情报工作的影响文献通过著录、标引、解析、链接等一系列加工和组织,逐步实现其知识化和单元化的解构、重组与关联,形成新的资源空间和大数据化扩展。文献网络资源…社交媒体…用户使用行为…大数据对相关技术提出了新的要求:技术是大数据问题中的关键问题,并将一直影响着大数据问题的研究。对大数据的有效存储、管理和使用是实现大数据目标的基本要求。在此基础上,传统的信息获取、存储管理、分类、索引、检索、聚类、人机交互技术等信息分析处理技术方法如何顺利转移到对大数据的管理和利用上来是对情报学提出的重要挑战。二、大数据对科技情报工作的影响大数据给情报学提出了的挑战之二:现有的信息技术和软件难以处理大数据的规模和复杂性,特别是在获取、存贮、搜索、共享、分析和可视化等关键环节,更需要有新的技术去取代传统的方法与工具。信息获取分类索引检索聚类存储管理人机交互NoSQL(不仅限于SQL数据库)海量分布式文件系统分布式搜索实时流数据处理信息抽取技术知识图谱可视化技术用户需求更复杂,对服务价值的期望值更高:大数据4V中的价值特性使得用户对基于大数据服务的价值有更高的期望值,但同时用户的需求也更加复杂。实现从数据到用户价值的转化则需要情报人员一方面能够更深刻地了解用户需求,另一方面需要更加系统性地了解数据及其特征,建立高效可控的数据处理流程,掌握多种数据分析方法,需要情报人员具备更加全面、综合的素质与能力。二、大数据对科技情报工作的影响大数据给情报学提出了的挑战之三:以馆藏为中心以文献需求为主深层次情报需求•资助机会的寻求•知识产权管理和商业价值的开发•寻找潜在合作者•扩大自身被发现的可能•文件、数据集的管理与存储•大文本和数据文件的分析OCLC(即联机计算机图书馆中心)的报告《研究生涯:美国研究人员所需的信息支持》列出了研究人员的信息需求。用户主要需求已经从过去以文献需求为主转变为更深层次的情报需求。二、大数据对科技情报工作的影响“揭示、发现、传递、问答”的信息服务传统模式将会被彻底改变,“查全、查准”也不再是评价服务效果的核心指标。如何将相关内容进行辨识、分析和重新组织,提交满足用户真正需求的信息产品,是我们必须面对的最重要问题。在大数据时代,大量数据是真假不分的杂乱数据,数据背后反映的是复杂的现实世界无显著规律的行为。面向信息内容的去粗取精、去伪存真工作将会变得更加的重要和有需求。人们关注的不再是信息传递的形式,而是传递的内容和对象。大数据给情报学提出了的挑战之四:二、大数据对科技情报工作的影响•国外情报机构围绕大数据的开发利用动手早、投资大。尤其是美国,在911事件后,从政府、专业信息机构和私营部门多个层面对情报技术研发投入巨资,重点解决大数据的获取、处理、情报分析问题,其中部分成果已经得到实际应用。•特点:不设限地收集各种渠道信息、多种途径推动应用技术发展、注重掌控未来关键技术。核心技术包括信息抽取技术、知识图谱技术、深度学习技术、可视化分析与展示技术、数据存取与计算技术等。国外情报机构围绕大数据开展的工作:二、大数据对科技情报工作的影响•美国情报高级研究计划局投资了近百个研究项目,例如:科技动向理解与预测(FUSE)项目旨在利用科技的全球化特点,探索“从全球科技文献和专利中探测重大技术能力”的理论和模型。•美国国防部也对情报研究相关的大数据项目进行了投资,如机器阅读项目,旨在实现机器对文本的语义理解能力。•2012年,IBM等公司开发了“全球新闻实时情报分析系统”原型系统,可以跟踪英语、汉语和阿拉伯语的新闻网站,并自动解析其语义,将其中的机构、人物及其关系提取出来,组织成类似于维基百科一样的形式,方便人们查看。国外情报机构围绕大数据开展的工作:文献类型外文中文学术期刊20900种13000种学位论文34万册210万册学术会议13万册