第2章 信息检索与检索系统

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第2章信息检索与检索系统2.1信息检索的含义和作用2.2检索工具的基本功能及类型2.3检索系统的构成2.4检索语言2.1信息检索的含义和作用1.信息检索的含义(1)“信息检索”(InformationRetrieval)是指将信息按一定方式组织和存贮起来,并针对信息用户的需求找出所需要的信息的过程。信息检索的广义概念包括两个部分,即信息存储和信息检索,狭义则仅指该过程的后一部分,即信息的查找过程。信息检索的目的是为了解决特定的信息需求和满足信息用户的需要。它根据检索(查找)对象的不同,又可以分为文献检索、事实检索和数据检索。信息检索的本质是信息用户的需求和一定的信息集合的比较和选择的过程,即“匹配”的过程,也就是用户需求的主题概念或提问表达式同一定信息系统的检索语言相适应的过程。(2)科技信息检索是应用现代信息检索理论并借助一定的检索工具和技术,从浩如烟海的科技信息资源中查找所需信息的过程。(3)信息检索方式按照信息存储手段和载体形式,可以分为手工检索(手检)和计算机检索(机检)。手工检索是针对印刷型检索工具的,计算机检索使用的对象是计算机检索系统(包括各种数据库、检索软件及相关应用软件、计算机硬件和通信设施等)。无论是手检还是机检,按检索过程和最终结果的关系可分为直接检索和间接检索两种方式。直接检索是指查阅一次信息(或一次文献)直接获取所需信息的方法,其效率很低(手检)。间接检索主要是指利用各种检索工具或检索系统获取信息线索的方法,再通过信息线索获取原始信息,这种方式效率要高得多,因而是现代信息检索的主要方式。(4)信息检索入口又称检索点或检索标识,是指信息内部特征或外部特征的属性值的集合。检索标识是系统标引员和信息用户所共同遵循的“接口”,是信息用户检索信息的出发点和依据。检索标识主要包括主题词、关键词、分类号、著者、标题、机构名称或代码等。(5)信息检索的类型按检索结果的内容来划分,可以划分为文献检索、数据检索、事实检索和概念检索。文献检索(DocumentsRetrieval)是目前信息检索的主要类型,它是通过二次文献查找所需的一次文献或(和)三次文献。数据检索(DataRetrieval)是满足数据需求的检索过程,如数理化等科学数据、经济数据、历史地理数据等。这里的数据指大量的数值、数字和相应的在逻辑层次结构上紧密相关的信息内容,它不等同于狭义的数学上的含义。事实检索(FactRetrieval)是对特定事实或事件的检索。事实内容包括大量的科学事件和社会事件,例如传统的报刊检索和现代的网络新闻检索就是查找“何时何地发生的具体事件”。概念检索(ConceptRetrieval)是查找特定概念的含义、作用、原理或使用范围等解释性内容或说明。最常见的概念检索是查找各种参考工具书,例如字词典、百科全书、名录、手册、指南等参考工具书。2.信息检索的作用(1)信息检索是信息社会个人素质的一个重要组成部分(2)信息检索是实现信息资源共享的重要途径(3)信息检索是科学研究和技术创新的重要组成部分(4)信息检索是提高个人竞争力的重要因素2.2检索工具的基本功能及类型1.检索工具的基本功能信息检索工具的主要功能表现在存储和检索两个方面。报道及时全面、存储规范有序、检索方便准确是对检索工具的基本要求。因此,检索工具应具备下列基本功能:(1)报道功能以高度压缩的形式简要揭示信息的内容特征(如标题、主题、摘要和分类等)和外部特征(如书刊名、著者和号码等)。(2)标识功能对著录信息进行多种标识,如序号、代码号、主题词、关键词、学科类目等。(3)辅助检索功能检索工具须提供多种辅助检索手段,如分类索引、主题索引、著者索引、机构索引和代码索引等。辅助检索功能的完善程度不仅是检索工具的主要质量指标,而且也是影响信息用户能否充分实现信息资源共享的一个关键因素。2.检索工具的基本类型(1)按载体形式划分①书刊型检索工具,即以图书或期刊形式出版的常用检索工具。又可分为期刊式、单卷式和附录式等形式。②卡片型检索工具,将文献的各种检索标识著录在卡片上并按一定方法排列组织而成的传统检索工具。③缩微型检索工具,以缩微胶卷或平片的形式报道文献线索的检索工具,需要专用的缩微阅读设备。④机读型检索工具,以计算机为主要手段进行信息存储和信息检索的工具。它是信息检索工具(系统)发展的主导形式和方向。(2)按著录信息的特征划分①目录(Contents)以文献的外部特征为著录依据,记录具体出版事项及其收藏信息的报道性检索工具。按组织形式和范围可划分为国家书目、联合目录、馆藏目录、报刊目录、联机性和网络性目录等多种类型,按报道信息的学科范围可将目录划分为专题目录和综合目录。②索引(index)将文献的一些外部特征和内容特征作为著录依据,并依此线索揭示文献原始信息内容的检索工具,如著者索引、主题索引、分类索引、关键词索引等。③文摘(abstract)在著录文献外部特征的基础上,另外增加揭示内容特征的摘要部分,它是系统地报道、积累和检索文献信息的主要工具,是传统检索工具的核心。根据文摘揭示信息内容的深度,可以分为指示性文摘和报道性文摘。④参考工具书(reference)是分析和著录大量具体而常用的科学数据与事实、以备查用的各种常用工具书的总称。⑤搜索引擎(searchingengine)将网络信息按一定分类方法组织起来,通过检索网址的方式来检索信息的检索工具。如百度、Google、搜狐、yahoo等。(3)检索工具的其它分类方法①按检索手段可分为手工检索工具和计算机检索工具;②按报道的信息来源可分为单一型和多类型检索工具;③按收录信息的学科范围可分为综合型和专业型检索工具;④按检索的对象和结果可分为文献信息和事实数据检索工具。2.3检索系统的构成1.检索系统的构成信息检索系统是由存储在一定载体上的有序化信息集合,相应的检索技术和设备,以及配套协调机制共同构成的具有信息存储和检索功能的共享信息环境。(1)检索文档经过有序化处理并附有检索标识的信息集合。如各种手检工具和机检数据库。检索文档包括顺排文档和倒排文档,顺排文档的检索是对库中主文档的检索,倒排文档是抽取具有检索意义的字段再重新组成的索引文档(检索属性和信息地址的有序集合)。(2)检索设备用以存储信息和检索标识、实现信息查询及其结果传递的技术手段。如主机、终端及通信设施等。(3)系统规则规范信息采集分析、标引著录、组织管理、检索与传输等过程的各种标准体系。(4)作用于系统的人包括信息采集、分析和标引人员,系统管理和维护人员,信息用户和信息检索服务人员等。以上四要素是针对广义的信息检索系统而言的。狭义的检索系统仅指软件环境的核心部分,即:手工检索系统由正文、辅助索引、分类表和主题词表、说明、文献来源目录等5部分组成;计算机检索系统由数据库的字段、记录、文档、主题与分类索引、辅助咨询等部分组成。良好的信息检索系统须具备以下特征:①须有规范的检索语言作环境支持(包括适宜的操作系统);②须有一部数据字典或词表作后盾;③对信息特征的标引和著录务求详细准确;④须具备多种系统检索标识;⑤全部检索标识必须有序化并相互协调;⑥提供多种检索方法和途径;⑦检索过程简易高效,符合“用户努力最小”原则;⑧准确的信息传递和信息输出;⑨多种检索系统之间须具有兼容性和通用性。2.检索系统的基本原理信息源主题概念分析标引语言数据库检索词主题概念分析信息需求用户标引词检索工具存储标识=检索标识规范化词检索语言规范化词?采集转换信息存储过程信息检索过程录入输出信息检索系统基本原理框图2.4检索语言1.检索语言的概念检索语言是用于描述信息系统中信息的内部特征和外部特征及其表达信息用户需求提问的一种专门语言。或者说,检索语言是信息存储和信息检索共同遵循的一种约定性语言。检索语言又称为标引语言、索引语言、存储语言等。信息检索的匹配过程就是通过检索语言的匹配过程实现的。2.检索语言的基本要求和特点(1)易于标引和检索:这是衡量检索语言的首要指标。其基本因素有:①词语或符号的含义必须明确,不能有歧义或交叉②语言概念丰富,概括面广,让各种文献信息都能有类可归(即有词或有号)③标识的简洁直观性④检索语言的语法必须严密规范;(2)检索语言须具有实用性;(3)具有较高的查全率和查准率;(4)满足多种检索要求,提供多种检索途径;(5)检索语言之间的通用性和兼容性。3.检索语言的类型(1)检索语言按是否受控划分为人工语言和自然语言①人工语言:对检索语言的概念加以规范和控制,把各种同义词、多义词、同形异义词等进行规范化处理,使每一个检索词只能表达一个概念,分类语言、标题词和主题词(叙词)语言都属于人工规范语言;②自然语言:对检索语言中的同义词、多义词等不加处理,取其自然状态,单元词和关键词属于这一类。(2)按检索时的组配实施状况划分为先组式和后组式检索语言①先组式检索语言:在检索前,检索词已被预先组配好,检索时用户只能严格按照预先设定的检索词去查找信息而不能任意组配。如分类索引中的各级分类款目、标题索引中的标题词都是如此。②后组式检索语言:在检索前检索词没有被预先组配,检索时可以对检索词任意组配,构成所需要的检索概念。其组配的基本原理是:具体概念可通过一般概念组配而成。单元词、叙词、关键词都属于这一类。(3)按内容性质划分为分类语言和主题语言①分类语言:是用分类号和相应分类款目来表达各种概念,以学科体系为基础,将各种概念按学科性质和逻辑层次结构进行分类和系统排序。其特点是能集中体现学科的系统性,反映事物的从属派生关系,便于按学科门类进行族性检索。按照分类方式的不同,又可分为体系分类语言、组配分类语言和混合分类语言。②主题语言:是对信息主题内容特征的主题词汇概念,经规范化处理所形成的检索语言。由于主题词表达概念准确,所以主题途径是检索信息的主要途径。主题词汇按一定规则构成主题词表,词表通过参照方式揭示词汇之间的相互关系,用作信息标引和信息检索的参考依据。主题语言按照主题性质的不同,可以分为标题词(subjectheading)语言、单元词(uniterm)语言、叙词(descriptor)语言、关键词(keyword)语言等。4.体系分类语言体系分类语言是目前世界上最流行的检索语言,常见的有《杜威十进制分类法》(DDC)、《国际专利分类法》(IPC)、《美国国会图书馆分类法》(LC)、《英国国会图书馆分类法》(LCC)、《中国图书馆图书分类法》(中图法)、《中国科学院图书馆图书分类法》(科图法)等。体系分类语言的具体表现形式就是分类表及其辅助说明,一部完整的分类法由三个部分组成,即:分类表、辅助表和使用说明。现以《中图法》和《科图法》为例予以简单说明。(1)《中图法》分类表的构成①分类表:是选择、类分、组织和检索信息的依据,分为:编制说明:对类的设置与排序、标引和查阅方法等问题的说明。基本部类:将全部知识划分为马列毛邓、哲学、社会科学、自然科学和综合性图书五个部分。又称基本序列。大纲:也称基本大类,构成分类表的一级类目。《中图法》把知识体系分为22个基本大类。简表:即基本类目表,是整个分类表的骨架。详表:又称主表,即分类表的正文,由类号、类目和注释组成。复分表:是祥表的一系列标准子目表,用于对祥表中指定需要划分的类目作进一步的细分。②辅助表:即《中国图书馆图书分类法索引》,用于引导用户从信息主题的角度迅速准确地确定分类号。③使用说明:是《中图法》的配套使用手册。图2-2(P.34)列出了《中图法》各级类目展开的示例。(2)《科图法》简介:中科院系统图书情报机构几乎全部采用《科图法》。《科图法》与《中图法》都属于体系分类语言,其编排体例与结构类似于《中图法》,如图2—3所示。5.主题词语言主题词语言是以概念为基础(包括正式主题词和非正式主题词)、经过规范化处理的具有检索意义和组配性能的单词或词组的有机集合。主题词是从主题途径组织信息和检索信息的依据。非正式主题词是用来指引正式主题词的一种措施,即引导词,正式主题词是用于主题标引和检索的受控词。主题词语言的具体表现形式是主题词表和主

1 / 32
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功