现代情报检索系统课程报告1本门课程虽然只有短短的十次课,但通过这十次课的学习和讨论掌握了现代情报检索的概念、原理、方法和应用,对情报检索领域的发展趋势有所了解。此外通过五次的课程讨论拓宽了知识面,更重要的是通过课程讨论在自己查找资料,整理讨论内容及小组交流讨论的过程中对小组所选领域的相关内容有更深入的理解,通过这一过程的锻炼增强了自主学习的意识与能力以及对所了解知识的分析与运用能力,这些都为以后的学习和研究有很大的益处。下面分别就这十次课自己所掌握和了解的知识以及自己的感触做一简单的概括。第一次课作为本门课程的第一次课主要介绍了情报检索的基本概念、理论及其相关知识。情报检索是情报学科的一部分内容,检索技术是情报技术的核心主要内容有:1.情报学、信息管理学及其他相关领域的介绍。情报学是一门研究情报的行为和属性,以及处理信息使其易于获得和易于使用的最适宜方法的学科。它关注与信息的产生、收集、组织、存储、检索、解释、传播、转换和使用相关的知识体。具有跨学科的性质。情报学有三部分内容:(1)情报学核心领域,包括信息的生产、采集、评价、组织、存储、传输、检索和传播的理论与实践。(2)信息管理,各种组织的信息资源管理。(3)信息技术,包括可用于情报学与信息管理的各种技术。情报学主要研究热点:(1)情报检索/信息检索:包括信息检索的人机交互、智能检索、信息过滤技术、基于内容的检索、跨语言检索、检索可视化等。情报学(2)数字图书馆(DL):多种媒体信息描述、转换并以数字化形式存储,利用互联网络,以智能、有效的信息检索方式,为用户提供多种语言兼容的远程数字信息服务。研究知识信息导航、数字图书馆新型服务、标准规范等。(3)竞争情报与知识管理:战略性情报、知识组织、知识服务、知识检索、知识挖掘、知识发现与知识库、以及知识产权、知识创新、知识网络化研究等。竞争情报主要是面向企业。(4)信息构建:IA,诞生于情报学与建筑学的结合点上,与情报学有密切的关系。包括信息系统内组织、标引、导航和检索体系设计、信息空间结构设计,将建筑设计原理引入数字领域。(5)数据库知识发现(KnowledgeDiscoveryinDatabase,KDD),是指通过对数据库中大量数据的分析,发现数据库中存在的关系和规则,从而挖掘出数据库中背后的知识。它包括数据选择和预处理、数据挖掘、知识解释和评价、知识应用等。其中数据挖掘(DataMining)是知识发现的关键步骤。(6)信息资源管理:包括社会信息资源管理、信息资源规划、网络信息资源管理、信息资源共享和优化配置、信息政策法规等。信息管理学与情报学有一定的交叉。从概念角度分析,涉及到数据、事实、信息、知识、智能等。信息管理学包括数据管理、信息管理(处理)、知识管理、智能管理等。信息管理学科是情报学的重要支撑领域之一。除此外其他与情报检索相关的学科领域有IT、数学和语言学等我校“情报学”学科主要研究领域有:2(1)信息资源组织与内容检索:信息资源的描述,信息资源的组织、检索与利用,基于内容的信息检索、数字图书馆、知识组织与检索,信息资源战略规划及实施流程。(2)知识管理与挖掘:多媒体信息资源的数据挖掘与知识发现,文本知识挖掘和应用,知识共享。(3)情报研究及信息分析:电子情报分析研究、军事电子装备发展战略、电子信息技术和产业发展的战略规划、政策法规、技术发展趋势。(4)信息系统与安全管理:信息系统开发、信息资源安全控制及信息系统安全管理,重点研究网络环境下信息服务与安全机制,信息系统的安全保障机制与安全管理策略等。我校图书馆学领域的主要方向:信息资源建设与整合、数字图书馆、知识服务。2.信息、情报、情报工作以及情报检索、信息检索的概念介绍信息从图书情报领域来理解,可以认为是经过处理、组织而获得的数据。对情报的定义有很多其中有代表性的有以下几个观点:“情报是在特定时间、特定状态下,对特定的人提供的有用知识。”“情报是判断、意志、决策、部署、规划、行动所需要的能指引方向的知识和智慧。”“情报是指含有最新知识的信息”“作为存储、传递和转换的对象的知识。”情报工作是指根据经济和科技发展需要,有目的、有计划、有组织地搜集国内外新技术、新动态、新成果,并经过加工、整序、分编、报道、存贮和综合分析研究之后,以多种形式及时、准确地提供给用户的一种具有高度综合性、预测性和前瞻性的服务工作。概括起来,情报可分四类,即军事、政治、经济、科技情报。我们主要讨论科技情报。科技情报又分为战略情报和战术情报。战略情报:指对国民经济和科技发展具有重大参考价值的综合性、方向性、决策性的科技情报。战术情报:指科研生产中某项具体技术问题的情报,如产品结构、工艺流程、试验数据等情报。情报检索是将情报按一定的方式组织和存储起来,并根据用户的需要找出有关情报的过程。情报检索的本质是情报集合与需求集合的匹配与选择。需求指用户的需求,往往以用户提出问题或检索课题的形式体现。众多不同形态的的需求汇集,就构成了需求集合。匹配与选择是一种机制,负责把需求集合与情报集合进行相似性比较,然后根据一定的标准选出符合需要的情报。该过程包括了存和取两个环节。“存”——对大量信息进行的高度组织化的存储,“取”——是面向随机出现的信息需求而进行的高度选择性的检索,且强调快速方便性。“存”和“取”二者的关系是密不可分的。在这一过程中“存”和“取”二者的关系:一是相互依存。没有存储就无从检索,而没有检索其存储将失去意义。二是相互制约。从存储的角度看,越简单越好,但过于简单的存储势必影响检索的质量和效率。即有效的检索是以增加存储的代价为前提。广义的信息检索广义的信息检索指信息的存储与检索2个环节,存储就是将大量信息有序化组织并存入数据库(信息集合);检索是从数据库中选择、查寻用户所需的信息。存3储是检索的基础,检索是存储的反过程。狭义的信息检索:仅指信息检索环节本身。信息检索的本质:信息集合与需求集合的匹配。信息检索系统是指具有信息存储和检索功能,面向一定用户的信息服务设施。在当前环境下,信息检索系统通常是一类基于计算机和网络的人机交互信息检索系统。信息检索研究的主要内容信息检索理论(部分)作用:指导检索系统设计等。理论来源:数学模型。(1)检索模型信息检索模型(IRModel)的理论基础主要来源于数学。是对信息检索过程的抽象,可采用四元组的形式模型表示一个检索系统。布尔逻辑模型的基础是集合论和布尔代数。向量空间模型是将提问向量与文献向量进行相似度计算来决定相关度,命中结果由相似度阈值来决定。概率检索模型建立在概率论框架基础上,采用概率论原理来解决信息检索问题。检索模型促进了检索技术的发展。第一章情报检索概述信息检索理论(2)标引理论信息的标引(Indexing)主要是给出信息内容的概念主体和类别等,以便用户从不同角度去检索。计算机自动标引的理论基础:统计学方法。单词频统计、加权统计标引、逆文献频率加权标引。其他理论:检索系统评价理论;情报学的引文分析;语言学的语言规则,句法和语义的分析方法等。第一章情报检索概述信息自动处理与组织信息处理与组织的目的,主要是确保信息能够被用户快速地检索和方便的获取,并能够为数据挖掘和信息分析提供良好的数据结构。信息自动处理与组织技术:(1)自动标引自动标引(AutomaticIndexing):指利用计算机从数据库中抽取关键词,通过一定的分析处理,给出标引词的过程。中文自动标引的难题:汉语词的切分、如何确定标引词(三种方法:统计分析法、语言学方法、人工智能法)。第一章情报检索概述信息自动处理与组织(2)自动分类与聚类分类与聚类主要是将信息按内容特征分门别类组织在一起,使人们可以4方便地获取某一类信息。其中,分类可以借助分类词表进行,也可以根据某一分类训练集进行归类,或按所设计的分类决策树进行分类。聚类完全是利用信息相似原理来进行。第一章情报检索概述信息自动处理与组织(3)自动摘要自动摘要(AutomaticAbstrcting):利用计算机将一篇文章(文本)浓缩成较短摘要的过程。自动摘要主要是通过抽取文中的主题句来实现的,抽取主体句的方法有:词频或词组频率统计、摘录各级标题、利用各级标题中的关键词抽取句子、借助提示短语抽取句子。自动摘要的另一种方法是基于理解的自动摘要。第一章情报检索概述信息自动处理与组织(4)视频信息索引视频信息索引研究的主要内容包括:视频信息索引的标引、分类、摘要、描述等。视频索引的目的是为视频信息整序,为视频检索提供手段和途径。(5)信息的组织对信息检索而言,信息组织的主要文档形式有:顺序文档、索引文档和倒排文档。信息检索方法与技术