现代信息检索课程教案

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

现代信息检索概述1.5.3计算机信息检索的基本技术与方法[学习重点]熟练掌握计算机信息检索的基本技术1.5.3.1计算机文献信息检索的技术查全率(Recallratio)=[检出相关文献量/文献库内相关文献的总量]×100%查准率(Precisionratio)=[检出相关文献量/检出文献总量]×100%1.布尔逻辑检索(逻辑组配检索)(Booleanlogical)指采用布尔逻辑表达式来表达用户的检索要求,并通过一定的算法和实现手段进行检索的过程。布尔逻辑表达式是采用布尔运算符(逻辑与“and”、逻辑或“or”、逻辑非“not”等)来连接运算检索词,以及表示运算优先级的括号组成的一种表达检索要求的一种算式,简称提问逻辑式。逻辑与“AND”运算符,也可用“*”表示,用来组配不同的概念的检索词。是一种概念相交和限定关系的组配。例如:“AANDB”或“A*B”其含义是:检出的信息中必须同时含有“A”和“B”两个检索词。基本作用是对检索范围加以限定,逐步缩小检索范围,提高检索结果的查准率。例如,检索“计算机在图书馆中的应用”方面的文献,其提问式可写成:计算机and图书馆或计算机*图书馆逻辑或“OR”运算符,也可用“+”表示,是用来组配具有同义或同族概念的检索词。如:检索提问式:“AORB”或“A+B”其含义是数据库记录中任何一条记录,只要含有“A”或“B”中任何一个检索词即为命中的文献。基本作用是扩大检索范围,增加命中文献量,提高文献的查全率。如:“微机+电脑+PC机”、“微机or电脑orPC机”逻辑非“NOT”运算符,也可用“-”表示,“NOT”算符是排除含有某些词的记录,其逻辑提问表达式为“ANOTB”或“A-B”,即检出的记录中只能含有“NOT”算符前的检索词A,但不能同时含有“NOT”后的检索词B。基本作用是缩小检索范围,但并不一定能逻辑非提高文献命中的准确性,一般只起到减少文献输出量的作用。在联机检索中可降低检索费用。例如:“计算机NOT微机”应注意,由于“NOT”算符有排除掉相关文献的可能,因此,在实际检索中应慎重使用。2.截词检索截词检索是在词干的不同位置添加截词符“?”、“*”或“$”,以此代表词的可变部位,以检索一组概念相关或同一词根的词,从而减少相同词干的检索现代信息检索第一章文献信息基础知识2词的输入数量,提高检全率的一种常用检索方法。这种检索方式可以扩大检索范围,提高查全率,主要用于西文数据库检索。中文数据库通常不使用这种技术。主要用于检索词的单复数、词性的词尾变化、词根相同的一类词,以及同一词的拼法变异等。在不同的检索系统里用不同的符号,一般为:*、?、!基本作用是提高查全率,防止漏检。类型:■根据截词的位置不同,分为前截断、后截断、中截断•前截断:又称左截断,截词符放在被截词的左边,可与后截断一同使用。目前这种检索技术应用已经极少,例如:*magnetic。•中截词:把截词符放在词的中间。这种方式查找英美不同拼法的概念最有效。例如:如:wom*n可检出woman,women•后截断:是前方一致检索,又称右截断,截词符放在被截词的右边,是最常用的检索技术,例如:librar*。■根据截断的数量不同,分为有限截断和无限截断。•有限截断:限制被截断的字符数量,例如输入apple??表示被截断的字符只有两个,可检出apple、applet等结果。•无限截断:不限制被截断的字符数量。例如输入educat?,可以检索educator,educators,educated,educating,education,educational,等等。•注:不同的数据库所用的截词符不一样,使用应先查一下各数据库的帮助加以确认。3.位置算符检索表示两个检索词间的位置临近关系,又叫邻接检索。这种检索技术通常只出现在西文数据库中,在全文检索中应用较多。布尔逻辑运算符表示两个概念之间的逻辑关系,位置算符表示的是两个概念在信息中的实际物理位置关系常用位置算符•W/n(with/n):两词相邻,在一个标引字段中W/n表示两个词不可以互换顺序,二者之间可插入0-n个词。如:智能机器人(w/3)控制,可检出“智能机器人控制”,“智能机器人行为控制”等•N/n(near/n):两词相邻,N/n表示两个词可以互换顺序,二者之间可插入n个词。如:智能机器人(n/3)控制,可检出“智能机器人控制”,“控制算法对智能机器人的影响”等•F(field):同字段检索,被f连接的检索词必须出现在同一字段中。现代信息检索第一章文献信息基础知识3•S(sub-field/sentence):同句检索,要求参加检索运算的两个检索词必须在同一自然句中出现。4.限制检索通过设定相应的检索条件实现对检索的优化。是缩小或约束检索结果的方法,最常用的是对特定字段的限定检索。如:riceinti(表示只在题目字段中查找文献)riceinde(只在主题词中查找)riceinab(只在文摘中查找)au=Smith,J.C(查作者为Smith,J.C的文章)py=1998(只查1998年的文章)la=Chinese(只查语种为中文的文献)常用的限制检索方式:•字段检索——将检索限定在特定字段内进行限制的方法。字段限制范围的大小顺序是:题名关键词摘要全文常见的检索字段:题名(Title,TI)、著者(Author,AU)、文摘(Abstract,AB)、关键词(Keyword,KW)、文献类型(DocumentType,DT)、主题词(DE)刊名(Journal,JN)、语种(Language,LA)、全文(Full-text)等5.禁用词表有些词在单独使用时无实际意义或出现频率过高,一些检索系统规定这些词为禁用词(StopWords),如:in,on,about,a,an,only,do等。这些词在某些数据库(如BPBIOSISPreviews生物学文摘数据库)中不能作为检索词。6.嵌套检索技术用括号将优先检索的检索式括起来,系统首先检索括号中的概念。优先算符()优先级别最高优先级运算:()NOTANDOR7.全文检索:全文检索是指对文献全文内容进行字符串匹配检索,包括字符串检索、截词检索和位置检索等技术。全文检索技术是一种面向全文、提供全文的新型检索技术。它可以使用原文中任何一个有实际意义的词作为检索入口,得到的结果是源文献而不是文献的线索。全文检索系统必须具有一个全文数据库。在全文库的基础上,对其字、词、句、段等的加工、检索与编辑。系统除了可以用布尔逻辑运算式进行检索外,还具有文本检索功能,并具有同义词控制、后控词表对检索策略的自动调整等功能。现代信息检索第一章文献信息基础知识4此外,系统还允许用户以自然语言进行检索,直接获取原文中的有关章、节、段、句等。8.扩检:在试探性检索所获取的检索结果过少,还不到检索要求时,应采取扩展检索以扩大检索范围,保证检索率。采用的方法可以是增加检索词:如将原检索词的所有同义词、别名、俗名作为检索词进行组配检索,使用截词技术或扩大检索的年代与文献范围。缩检:亦称二次检索,当检索结果数量过多,评价、筛选困难时,为保证检索精度与检准率,使用缩检,即在原有检索结果中进行筛选,这个措施可反复采用,直到检索结果符合要求。1.5.4文献信息检索的基本步骤与策略[学习目标]掌握文献信息检索的基本步骤,并能运用于实践。采用检索工具检索文献信息一般要经历5个紧密相连的步骤1.分析研究课题,明确检索要求分析研究检索课题是整个检索过程的关键,是信息检索成功与否的关键,检索者首先要对课题作综合分析,通过分析明确如下要求,(1)明确课题的专业范围及其关健点,选取主题词。(2)明确所需文献类型。(3)确定所需文献的时间范围与语种范围.(4)分析检索目的:以科研攻关,解决具体的技术难题为目的。(5)研究探索:密切跟踪,了解国内外某一研究领域的最新成果与动态。每一项理论或技术都有其发生、发展和形成的过程,检索时就是根据研究课题相关知识发展的形成期、高峰期和稳定期来确定检索的时间范围。检索要求愈明确,检索范围愈具体,已知条件愈多,检索效果愈好。因此,分析研究课题这一步进展得如何,对其后的检索程序至关重要.检索者切忌情况不明就贸然开始检索,这会导致走弯路或检索失败。检索的目的与要求及检索范围作为选择检索工具与数据库的依据。不同的数据库其收集的文献类型、学科范围,对文献的回溯期限不同。2.选择检索工具(或数据库)与检索手段根据已经明确的检索要求与专业范围,选择合适的检索工具或数据库。确定检索方法:追溯法、常用法(顺查法,倒查法,抽查法)中外文检索工具与数据库很多,检索者要求对各种检索工具或数据库的性质,内容和特点作深入了解,可借助于各种检索工具指南,学科文献指南或联机数据库目录。机检包括联机检索,脱机检索,光盘检索与网络检索,其中手工检索基本上现代信息检索第一章文献信息基础知识5不花钱,机检速度快,效率高,但费用也高。检索者可根据时时间要求、设备状况与经费条件来选择合适的检索手段。3.确定检索途径与拟定检索式采用哪种方法与途径,要结合课题检索要求与检索工具或数据库的特点来确定。就检索途径而言,如果课题检索要求泛指性较强的文献资料,最好用分类途径;如果课题检索要求是专指度较高的文献资料,最好选择主题途径,如果事先巳知文献著者,分子式,专利号,标准号,报告号等条件,则利用著者途径,分子式途径与文献代码等途径为好。必要时将这些途径与分类、主题途径配合使用,将会收到更好的检索效果。检索提问式是计算机信息检索中用来表达用户检索提问的逻辑表达式,由检索词和各种布尔逻辑算符、位置算符、截词符以及系统规定的其他组配连接符号组成。4.实施试检索操作用分类法与主题法检索文献时,要选准分类号与主题词,在机检中还要构造机检策略,即用布尔逻辑或其它符号将检索词连接起来,组成一种逻辑运算式。在检索过程中,无论是手检或机检,均需视检出结果,如果试检索的结果与检索需求存在差距,则需要对检索课题进行再分析,不断修改与完善检索策略,以达到检索的合理性与有效性。再分析的过程包括:重新选择检索系统,选择相关检索词,重新拟定检索式,以及在原有检索策略的基础上进行扩检、缩检,设定较长的文献回溯期等。阅读检出结果,决定取舍。在手检中对切题的文献要记录文献资料的篇名(书名),著者,文摘、文种、来源等,尤其是文献来源切不可遗漏。倘若是机检,可选择打印格式,联机或脱机打印输出即可。5.检索结果的评价与获取原始文献评价检索结果是结合多种标准对检索结果进行评价、筛选,把真正符合需要的检索结果保留下来。获取原文是文献检索的最后一步,原文获取可以通过多种途径实现。全文数据库的检索与原文获取可以一步完成,是检索时的首选。而题录与摘要信息检索系统只能检索到原文的线索,在这种情形下,应尽可能通过本地资源获取原文。如本地资源无法保障,则可以考虑使用电子文献传递系统从其他图书、情报机构获得原始文献。目前大部分非全文数据库多提供了原文的外链接,用户可以根据需要选择。1.5.5计算机信息检索的策略1.分析研究课题,明确检索要求检索误区1——过分依赖搜索引擎。Internet资源与专业的网络数据库来现代信息检索第一章文献信息基础知识6比,无论是质量还是数量上都有很大的差距,检索文献目前来说最主要的来源还应是专业数据库,即正规的出版物上发表的文献。检索误区2——忽略摘要数据库。摘要数据库的数据量大,范围广,是查找文章线索极好的检索工具。就目前的情况而言,不可能全部都能得到电子版的全文,先找到文章线索再根据线索查找印刷版的全文是一项不错的组合。2.选择数据库或网络检索工具选择合适检索工具的前提是对网络资源有一个较全面的、清晰的了解,具体地说要对检索工具的类型、内容特点、时间范围、学科范围、甚至出版商的大体情况都要有一个了解。方法:①注重平时的积累②不要盲目检索,应养成检索前了解一下数据库的习惯③注重与他人的交流④重视图书馆主页的资源3.提炼检索词,制定检索式①检索词尽可能选用词或词组,然后用布尔逻辑运算符将检索词连接起来,切忌把

1 / 38
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功