2.0文献检索的基本概念广义概念:将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关的信息过程,故全称:“信息的存储与检索”。信息检索的定义狭义概念:仅指上述过程的后半部分,即从信息集合中找出所需要的信息的过程,相当于人们通常所说的信息查寻(InformationSearch)信息检索的定义文献检索:文献信息的存储、文献检索两个过程。情报检索模型即是“匹配”模型。目的:为了解决特定的文献需求和满足用户的需要。图2.1文献检索的原理2.1文献检索的原理、类型和方式根据信息检索或查找的内容可划分为文献检索、事实检索和数据检索。根据信息检索手段可划分为手工检索和计算机检索。2.1.2信息检索的类型文献检索(DocumentRetrieval)是以文献为检索对象,从已存贮的文献库中查找出特定文献的过程。例如“关于计算机控制系统有些什么参考文献?”这就需要我们根据课题要求,按照一定的检索标识(如主题词、分类号等),从所收藏的文献中查出所需要的文献。数据检索(DataRetrieval)是以数据为检索对象,从已收藏数据资料中查找出特定数据的过程。例如:查喜马拉雅山有多高,杭州六和塔建于何年等。事实检索(FactRetrieval)即通过对存贮的文献中已有的基本事实,或对数据进行处理(逻辑推理)后得出新的(即未直接存入或所藏文献中没有的)事实过程。例如:本学年成绩优秀的学生有多少,某同类产品中,那种牌号的销量最大。数据和事实检索是要检索出包含在文献中的具体情报;文献检索则是要检索出包含所需要情报的文献。文献检索是最典型和最重要也是最常用的情报检索手工检索即用人工来处理和查找所需信息的检索方式。计算机检索利用计算机和一定的通信设备所查找所需信息的检索方式。2.2.1检索系统检索系统是根据特定需要利用一定的检索设备,从整理加工并存贮在某种载体上的文献集合中检索出所需情报的系统。它根据检索设备和载体的不同,可以分为手工检索系统和计算机检索系统。手工检索系统由手工检索设备(如书本式目录、文摘、索引、卡片柜等)、检索语言、文献库等构成。特点:它使用方便,成本低廉,但检索效率和响应时间均较差。计算机检索系统主要由计算机检索设备(联机检索设备、光盘检索设备、微机检索设备、缩微品机检设备等)、检索语言、文献库等构成。特点:检索效率高,响应速度快等特点,但是成本和检索费用较高。在我国,这两种检索系统将在很长一段时期内并存使用,相互补充。2.2.2信息检索工具检索工具的定义检索工具是人们用来存储、报道和查找文献的工具,它具有存储和检索的功能。4个基本条件:(1)能够详细著录文献的外部特征和内容特征(2)具有即定的检索标识(3)全部文献必须根据标识,系统科学地排列成为一个有机地整体(4)能够提供多种检索途经检索工具的作用:1、文献高度集中;2、提高检索速度;3、提供有规律的检索;4、消除语言障碍.检索工具的分类1.按加工文献和处理信息的手段不同可分为:手工检索工具和机械检索工具;2.按收录范围分,有综合性、专题性(《计算机应用文摘》)和专业性(《移动云计算文摘》);3.按著录方式分,有目录型、题录型(索引型)、文摘型和全文型;4.按出版方式分,有印刷型(卡片型、书刊型)、缩微型和电子型(联机数据库型、软盘型、光盘型)。(一)按著录方式划分:1.目录型2.题录型3.文摘型4.全文型1.目录型目录型检索工具是以整本图书或期刊的外部特征为报道对象。报道内容:图书:书名/著者//出版地:出版者,出版时间期刊:刊名/编著出版地:出版者,创刊年2.题录型题录型检索工具是以书刊中的某篇文献(或章节)的外部特征为报道对象报道内容:文献篇名/著者//刊名出版年、月(卷、期)、页码3.文摘型报道对象与题录相同,但对文献内容揭示的程度较题录更深入更具体,增加了文献的摘要文摘按其内容特征可分:指示性文摘、报道性文摘、指示—报道性文摘4.全文型报道对象与题录相同,但增加了文献的全文按载体不同:全文数据库(中文、外文)期刊等印刷型(二)按载体方式划分印刷型(书本式、卡片式)缩微型电子型:联机型(磁性载体、计算机及通信网络)光盘型(光盘、计算机及光驱)网络型(Internet、网络数据库)2.3检索语言一、检索语言的概念检索语言是信息检索系统存储与检索所使用的共同语言。检索语言是一种人工语言,用于各种检索工具的编制和使用,并为检索系统提供统一的、作为基准的、用于信息交流的符号化或语词化的的和语言。二、检索语言的分类检索语言可分为描述外表特征和描述内容特征的检索语言。描述外表特征的检索语言有书名、著者、机构、号码;描述内容特征的检索语言有分类语言和主题语言。分类语言用分类号表达各种概念,将各种概念按学科性质进行分类和系统排列。世界上比较著名的分类法有:《国际专利分类表》(IPC)、《杜威十进分类法》(DDC)、《美国国会图书馆图书分类法》(LC)。我国在图书情报系统广泛采用的有《中国图书馆图书分类法》(简称中图法)和《中国科学院图书馆图书分类法》(简称科图法)。《中图法》使用字母与数字相结合的混合号码,基本采用层累制编号法。将人类的文献分为五个基本部类,22个基本大类。五大部类是:1、马列主义、毛泽东思想2、哲学3、社会科学4、自然科学5、综合性图书天文学、地球科学Q生物科学R医药、卫生S农业科学T工业技术U交通运输V航空、航天X环境科学、安全科学Z综合性图书A马克思主义、列宁主义、毛泽东思想、邓小平理论B哲学、宗教C社会科学总论D政治、法律E军事F经济G文化、科学、教育、体育H语言、文字I文学J艺术K历史、地理其中T工业技术的二级类目采用两个字母标识:T工业技术TB一般工业技术TL原子能技术TD矿业工程TM电工技术TE石油、天然气工业TN无线电电子学、电信技术TF冶金工业TP自动化技术、计算技术TG金属学、金属工艺TQ化学工业TH机械、仪表工业TS轻工业、手工业TJ武器工业TU建筑科学TK动力工程TV水利工程以局域网(LAN)类为例,列出中图法的各级类目:TP自动化、计算机技术T工业技术TP3计算技术、计算机技术TP39计算机的应用TP393计算机网络TP393.1局域网(LAN)例如要查找“网络计算机(NC)”方面的文献:TP3计算技术、计算机技术TP36微型计算机TP368.6网络计算机(NC)根据“TP368.6”这一类号,查找图书馆馆藏分类目录,就能检索到有关“网络计算机(NC)”的馆藏文献。分类号越长,表示的学科范围越窄。为了醒目和方便读写,分类号中的数字部分由左至右每隔3位加一个圆点“.”,如G252.7、TP317.1,TN919.8索书号又称索取号,是图书馆藏书排架用的编码,是文献外借和馆藏清点的主要依据。一般由分行排列的几组号码组成,常被印书脊下方的书标上。一个索书号只能代表一种书。计算机与通信学院陈多C53代表分类号126代表种次号2代表第二版4代表第四辑丛书索书号:C53/126-2:4四、主题检索语言标题词:是从文献的题目、正文或摘要中抽选出来,经过规范化处理的词或词组,先组式语言。叙词(单元词):叙词语言是以规范化科学名词为基础的一种主题法检索语言,叙词是主题词表中的所有正式主题词可以根据需要将它们组配起来,用以表达复杂的概念。是后组式语言,可自由灵活组配。关键词:未经规范化处理,直接从文献题名、原文或文摘中选取的能反映原文主题内容的自由词汇叙词语言的体现形式是叙词表。国内外常用的叙词表主要有我国许多文摘检索刊物使用的《汉语主题词表》,英国《科学文摘》使用的《INSPEC叙词表》,美国《工程索引》使用的《Ei叙词表》以及美国《政府报告和索引》使用的《NTIS叙词表》等。主题词与关键词的关系计算机与通信学院陈多布尔逻辑位置逻辑截词字段限制加权其他常用检索算符2.4文献检索的技术2.4.1布尔逻辑检索技术布尔逻辑检索技术就是利用布尔逻辑算符进行检索项的逻辑组配,用以表达检索者的提问概念。布尔逻辑算符指规定检索词之间相互关系的运算符号,在检索表达式中起着逻辑组配的作用复杂概念的检索式组配检索词检索词检索词简单2.4.1布尔逻辑检索技术常用的布尔逻辑运算符:逻辑“与(AND)”逻辑“或(OR)”逻辑“非(NOT)”1逻辑“与”运算符:AND或*用于交叉概念或限定关系的组配,实现检索词概念范围的交集。表达式:AandB或A*BBAnd两侧的检索词必须同时出现在检索字段中检出同时含有检索词A和检索词B的记录A2逻辑“与”作用缩小检索范围,提高查准率。举例检索“人口控制”或者“控制人口”方面的文献信息。人口and控制2逻辑“或”运算符:OR或+用于检索词并列关系(同义词、近义词)的组配,实现检索词概念范围的并集。表达式:AorB或A+BB在文献记录中只要含有检索词A和检索词B中的任何一个即算命中检索出的记录含有检索词A或者检索词BA2逻辑“或”作用扩大检索范围,防止漏检,提高查全率。举例检索“计算机”方面的文献信息。计算机or电脑使用的注意事项如果检索词涉及表达整体概念,要针对具体情况分别列出每个表达部分概念的检索词,否则将出现漏检。3逻辑“非”运算符:NOT或-一种排斥关系的组配,用来从原来的检索范围中排除不需要的概念。表达式:AnotB或A-BB适用于排除含有某个指定检索词的记录A检索出的记录含有检索词A,但同时不含检索词B3逻辑“非”作用缩小检索范围,增强检索的准确性。但使用不当,易排除有用文献信息,从而导致漏检举例检索有关协议方面的文献信息,但不包括TCP/IP。协议notTCP/IP使用的注意事项两个关系紧密的检索词不宜用not2.4.1布尔逻辑检索技术优先级高优先级低优先级运算()NOTANDOR词位置检索(positionaloperator)—位置运算符利用布尔逻辑算符对检索词进行逻辑组配时,未限定检索词之间的位置关系,会影响某些课题的查准率并容易造成误检。为了弥补其不足,一般检索系统都提供文中自由词检索功能,也称全文检索功能。所谓全文检索是利用文献记录中任何有实义的关键词、词组或字符串作为检索词,词与词之间的位置关系可以用位置运算符来表达。位置运算符的使用,进一步强化了对概念的限制,比布尔逻辑运算符更能表达复杂的概念,并避免AND逻辑组配产生的词义含糊或误检。为了提高检索的广度和准确度,常常需要对检索词之间的位置关系加以限定。全文检索的运算方式,不同的检索系统有不同的规定,主要差别有两点:规定的位置算符不同;位置算符的职能和使用范围不同。2.4.2下面介绍几种数据库经常使用的位置运算符:允许两个检索词之间最多可以插入n个单词,且这两个检索词的词序任意此算符两侧的检索词必须紧密相连,所连接的词间不允许插入任何其他单词或字母,但词序可以颠倒(N)(nN)举例举例同词位检索允许在连接的两个词之间最多夹入n个其他单元词,只强调插入单元词个数没限定插入单元词的具体范围,同时词序不能颠倒此算符两侧的检索词必须按输入时的前后顺序排列,而且所连接的词之间除可以有一个空格或一个标点符号或一个链接号外不得夹有任何其他单词或字母(W)/()(nW)举例举例严密性强严密性差举例举例同字段检索(P)(F)表示此算符两侧的检索词必须同时出现在同一字段内。如:篇名字段、文摘字段、叙词字段等,但两词的词序中间插入的次数不限。表示此算符两侧的检索词必须同时出现在同一个自然段。其他位置逻辑检索(S)——(Subfield)表示在此算副辆车的检索词必须出现在同一个子字段中,顺序不变,中间可插入词数不限。举例(basicorcobolorpascal)(S)(program*orcompil*)Basic(S)program*basic(S)compil*Cobol(S)program*cobol(S)compil*Pascal(S)prog