信息检索基本方法彭奇志江南大学副研究馆员2007.92.1检索工具2.1.1检索工具的定义检索工具是人们用来报道、存储和查找各类信息的工具。包括传统的二次、三次印刷型检索工具,缩微阅读检索工具,基于计算机的光盘检索系统、联机检索系统,以及基于Internet的网络信息检索系统、网上工具书、搜索引擎、Archie、Wais等各种信息检索工具和检索系统。检索工具的类型按照检索手段的不同,检索工具可分为手工检索工具、机械检索工具和计算机检索系统。按照著录形式的不同可分为:目录型检索工具、题录型检索工具、索引型检索工具、文摘型检索工具、全文型检索工具等。按照载体形式的不同可分为:书本式检索工具、卡片式检索工具、缩微式检索工具和机读式检索工具等。2.1.2手工检索工具手工检索工具是传统的检索工具,主要是各种类型的工具书。工具书是人们根据一定的需要,广泛收集某一范围的有关资料,按特定体例或方式编排,提供基本知识和文献线索的一种特殊类型的图书,是检索文献信息的重要工具。根据工具书的体例和功用,可分为检索类工具书、词语类工具书、资料类工具书、表谱类工具书、图录类工具书和边缘类工具书六种类型。2.1.2.1检索类工具书按著录内容划分,检索类工具书大致可分为以下四种:目录、题录、文摘、索引。目录(Bibliography/Catalogue):通常是以文献的“本”、“种”、“件”等为单位,对一批相关文献外表特征的揭示和报道。例如:《全国新书目》、《全国总书目》、《全国报刊简明目录》等。题录(Title):它报道和揭示单篇文献的外表特征,是在目录的基础上发展起来的一种检索工具。它与目录的主要不同点在于著录的对象不同,目录的著录对象是整部文献,而题录的著录对象是文献中的论文或部分内容。例如:美国《化学题录》、《中文科技期刊题录数据库》等。文摘(Abstract):是系统著录、报道、积累和揭示文献信息外表特征和内容特征的检索工具,是重要的二次文献。它是对文献中的论文或内容进行浓缩,概括地描述其主要论点、数据、结论等,并著名其出处,按一定的规则编排起来的一种检索工具。文摘分三种:指示性文摘、报道性文摘和评论性文摘。例如:《新华文摘》、《经济学文摘》等。索引(Index):是将文献信息中的题名、人名、地名、字句及参考文献等分别摘录出来,并著名出处,按一定的规则编排起来的一种检索工具。例如:《经济科学论文索引》、《社会科学引文索引》(SocialScienceCitationIndex,SSCI)等。2.1.2.2词语类工具书词语类工具书包括各类字典、词典,主要提供字词的形、音、义和使用方法,以及学科名词术语的含义、演变和发展。字典以字为单位,按一定次序排列,说明形体、读音、意义和用法;词典,也作辞典,以词语为单位,按一定次序排列,解释词汇的概念、含义和用法。例如:《辞海》、《汉语成语大词典》、《社会科学大词典》等。2.1.2.3资料类工具书资料类工具书能够为读者提供各种基本知识或某一课题的具体资料。主要包括百科全书、年鉴、手册、名录、类书、政书等。百科全书是人类知识的总汇,是记录人类知识最全面、最系统的大型综合性工具书。它概述了人类—切知识领域的基本资料,对每一学科提供定义、原理、方法、历史及现状、系统和参考书目等方面的资料,被誉为“工具书之王”、“没有围墙的大学”。年鉴是汇辑一年内时事动态、学科发展和各项统计资料等重要资料,按年度出版的工具书。手册也称指南、便览、大全等,是把某一学科或某一专题的概括性又具体实用的知识、资料和数据汇编在一起。名录是专门收录人名、地名、机构名以及其他事物名,按照一定规则进行排序,并予以简要揭示和介绍的工具书。类书是收录古代文献资料,按类别或韵目编排,提供检索、征引使用的工具书。政书是汇集历代或某一朝代的政治、军事、经济、文化、外交等方面的法律、法令和法规制度史料的工具书。2.1.2.4表谱类工具书表谱类工具书是以表格或其他较为整齐的形式,记录史实、时间、地理等资料,并附以简略的文字说明,以反映史实和时间。主要包括年表、历表和专门性历史表谱3种类型。年表是按年代顺序编制,专供查考历史年代、历史纪元及历史大事的检索工具。如《中华人民共和国大事记》等。历表是一种把不同历法的历日按一定的次序汇编在一起,以相互对照的表格,提供查找和换算不同历法的年、月、日的工具书。专门性历史表谱主要用于查考人物、职官、地理和数据等专题资料,如《中西回史日历》等。2.1.2.5图录类工具书图录类工具书是以图形、图像、符号等为主体,附以简略的文字说明,以反映各种事物、人物的空间特征和形象特征的工具书。它包括地图、历史图录、文物图录、人物图录、艺术图录、科技图像等。地图是地球表面自然和社会现象在平面图上的缩影,以反映各种事物和景象的地理分布及其在空间与时间上的相互制约、内在联系和发展动态。历史图录是以图形、图像等揭示历史人物和事物的工具书。2.1.2.6.边缘类工具书边缘类工具书主要指那些介于工具书与非工具书之间,既具有一般图书的阅读功能,又具有工具书的查检功用的文献。它主要包括资料汇编、史书、方志等。资料汇编有针对性地摘编文献信息的片断或全文,按专题或学科分类编排,提供读者阅读或查检。包括法规资料汇编、条约资料汇编、统计资料汇编等。2.1.3机械检索工具机械检索工具是手工检索工具向计算机检索系统过渡的中间检索工具。它主要包括两种类型:机电检索工具(如打孔机)和光电检索工具(如缩微机)。机械检索工具利用机械装置改进信息资源的存储和检索方式,但是只能对某一固定存储形式的信息资源进行特定检索,过分依赖于设备,检索操作复杂,成本很高,并且检索质量和效率也不理想。所以很快被计算机检索系统所取代。2.1.4数据库数据库的类型:数据库的类型多种多样。数据库有网状数据库、层次数据库、面向对象数据库、Web数据库、多媒体数据库、移动数据库、智能数据库、实时数据库、并行数据库、分布式数据库、联邦式数据库、模糊数据库、演绎数据库和统计数据库等。数据库的类型11.按信息处理层次划分,数据库可分为书目数据库、文摘数据库和全文数据库。全文数据库:全文数据库(Full-textdatabase)是将文献全文以机读版的形式存储起来,并可与相应的软件配合提供文中检索和全文输出的数据库。数据库的类型22.按照收录的文献类型划分分为期刊论文数据库、书目及图书全文数据库、专利数据库、学位论文数据库和产品数据库等。3.根据收录文献信息的范围划分分为综合性数据库和专业性数据库。4.按媒体信息划分分为文本数据库、数值数据库、声音数据库、图像数据库、视频数据库和多媒体数据库。2.1.4.3数据库的结构数据库一般由文档、记录、字段这三个自上而下的层次构成。通常一个数据库至少包括一个顺排文档和一个倒排文档。顺排文档是按文献记录的输入顺序(即文献序号)排列的文档,又称为主文档。它将全部记录按照存取号的大小顺序依次排列形成文献信息集合,是数据库的主体内容。倒排文档倒排文档是把顺排文档中的标引词抽出,按标引词的字母顺序依次排列而成的文档。如果将顺排文档看作是某种印刷型检索工具的正文部分,那么倒排文档就相当于它的辅助索引。字段(Field)在文摘数据库中,一条记录应包含原始文献的题名、作者、出处、出版时间、分类号、文摘、主题词或关键词等字段。每一个字段都有一个相应的标识符,以便计算机识别。例如在Dialog系统中,常用标识符及含义为:标识符字段名au=作者字段jn=期刊名称字段py=出版年字段cs=机构名称字段dt=文献类型字段la=语种字段2.1.5计算机检索系统计算机检索系统一般可分为光盘检索系统、联机检索系统和网络检索系统等。联机检索(OnlineRetrieval)是20世纪60年代发展起来的一种提供人机对话的检索技术,是指用户利用终端设备(包括检索终端、调制解调器和打印机),通过国际(卫星)通信网络,与本地计算机检索系统或远程计算机检索系统的主机联结,从而检索世界各地存储在计算机数据库中的信息资料。联机检索系统联机检索系统主要有以下四种服务方式:(1)回溯检索(RS,RetrospectiveSearch)是用户对检索系统中积累多年的文献信息数据库进行检索,查找一定时间范围内或特定时间以前的文献信息的一种联机检索方式。通过RS进行专题检索或情报调研,可全面系统地了解有关文献信息的线索。(2)定题检索(SDI,SelectiveDisseminationofInformation)是指在回溯检索的基础上,定期从文献数据库中检索出回溯检索日之后出现的新的文献信息的一种联机检索方式。(3)联机订购联机检索的结果通常是一些文摘或题录形式的二次文献。联机检索系统可以为用户提供原始文献的联机订购服务。(4)电子邮件联机检索系统为用户提供E-mail和电子邮政的功能。2.1.5.3网络检索系统网络检索系统是通过因特网提供网络数据库、出版物、书目、动态信息等网上信息资源查询和利用的检索系统。早期的网络检索工具主要是基于传输和下载网上信息,包括远程登录(Telnet)、文件传输服务(FTP)、电子邮件(E-mail)、电子公告栏(BBS)、新闻组(USENET)等。FTP获取信息资源的最大问题是查找需要的资料必须预先知道这些资料存放在哪个文件服务器中,随着FTP服务器的增多,这个问题变得越来越严重,于是人们就开发出Archie、WAIS、Gopher系统,以解决寻找FTP资源的困难。2.2检索途径信息检索途径一般包括文献信息的内容特征途径和外表特征途径。内容特征途径:主题途径分类途径代码途径外表特征途径:题名途径责任者途径机构名称编号途径其它途径内容特征途径1.主题途径主题途径是按文献信息的内容主题进行检索的途径,对课题进行主题概念分析,提炼主题概念,选择能表达主题概念的语词,确定主题词、关键词、叙词或标题词。传统的手工检索依据的是各种主题索引或关键词索引,主题索引或关键词索引按检索词的字顺排列,用户根据确定的检索词按照字顺进行查找,从检索词下的索引款目,即可找到所需文献的线索。计算机检索视检索系统的检索规则而定,如检索系统提供了主题词索引,用户必须先查主题词索引,然后使用规范的检索词才能检索。2.分类途径分类途径是一种按照文献信息所属学科(专业)类别进行检索的途径。对课题内容进行分类分析,按分类法进行分类,获取分类号。传统的手工检索依据的是按分类编排的分类目次表或分类索引,按类逐级进行检索。计算机检索时提交分类号进行检索即可。分类检索能较好地满足族性检索的要求,提高课题信息的查全率。2.3检索标识检索标识,即检索词,是指能表达检索课题主题概念和信息需求的名词术语、分类号、名称及代码等的总称,包括主题词、关键词、名称、分类号、分子式、专利号及各种号码等。它与检索途径相对应,是检索途径的具体化。如主题途径的检索标识就是主题词,分类途径的检索标识是分类号,著者途径的检索标识是著者姓名,其它的则依此类推。检索标识的确定检索标识的确定,一般应考虑以下基本原则:(1)检索标识必须反映课题内容和信息需求。(2)检索标识和数据库的标引标识应相一致。(3)所选检索工具或系统具有叙词表或主题词表的,优先选用叙词或主题词作为检索词。(4)要从词表规定的专业范围出发,选用各学科内具有检索价值的基本名词或术语。(5)如选择的检索词无词表可查,或在词表中未反映时,检索词为自由词,这时还应选取该词的同义词、近义词、广义词、狭义词、分子式、分类号、登记号、专利号、化学物质俗名、商品名等,使用多个词试检,或通过逻辑“或”组配进行检索。2.4检索方法2.4.1工具法又称常用法或直接法,是指直接利用检索工具检索文献信息的方法,这是信息检索中最常用的一种方法。它又分为顺查法、倒查法和抽查法。2.4.2引文法引文法又名追溯法,是查找某一篇文献被哪些文献所引用,或者利用文献末尾所附参考文献和注释为线索逐