常见检索技术作者:陈亚萍学号:1101212925手工检索(manualretrieval)是一种传统的检索方法,即以手工翻检的方式,利用工具书(包括图书、期刊、目录卡片等)来检索信息的一种检索手段。与之对应的计算机检索(computer-basedretrieval)简称机检,是指利用计算机通过各种数据库查找所需文献信息的方法,检索过程是由人操纵计算机完成的,其匹配是由计算机进行的。在检索过程中,人是整个检索方案的计设者和操纵者。利用机器及计算机,配合以相应的搜索语言和逻辑对相关课题进行检索是检索技术的发展趋势。检索表达式,又称检索式、检索提问式,是机检中用来表达检索提问的一种逻辑运算式。构建检索表达式需要用到相关逻辑检索及检索技术。(一)常用检索方法概述1.布尔逻辑运算检索——是指利用布尔运算符连接各个检索词,然后由计算机进行相应逻辑运算,以找出所需信息的方法。它使用面最广、使用频率最高。2.位置运算检索——位置算符检索是用一些特定的算符(位置算符)来表达检索词与检索词之间的临近关系,并且可以不依赖主题词表而直接使用自由词进行检索的技术方法。3.截词检索与词根检索——截词检索是预防漏检提高查全率的一种常用检索技术,大多数系统都提供截词检索的功能。截词是指在检索词的合适位置进行截断,然后使用截词符进行处理,这样既可节省输入的字符数目,又可达到较高的查全率。词根检索是指输入某一单词,系统会自动匹配与该词具有相同词根的其他词。4.字段检索——限定如主题、关键词等某个字段进行检索。5.全文检索——将文件中所有文本与检索项匹配的文字资料检索方法。6.精确检索——指检索词与结果完全匹配的检索技术。与之对应的模糊检索,则是指检索词的基础上进行相应的扩展。7.其他检索技术(禁用词、嵌套、限制词、大小写敏感词等)(二)分述1.布尔逻辑检索(Booleanretrieval)乔治·布尔(GeorgeBoole,1815年11月-1864年),爱尔兰数学家,哲学家。1848年,布尔出版了TheMathematicalAnalysisofLogic,这是他对符号逻辑诸多贡献中的第一次。1854年,他出版了《TheLawsofThought》,这是他最著名的著作。在这本书中布尔介绍了现在以他的名字命名的布尔代数。由于其在符号逻辑运算中的特殊贡献,很多计算机语言中将逻辑运算称为布尔运算,将其结果称为布尔值。布尔逻辑在检索中主要分为与、逻辑或、逻辑非。(1)逻辑与含义表示检出同时含有A、B两个检索词的记录。用法常用于连接不同概念的检索词,以表达复杂的主题运算符AND或*检索式AANDB或A*B例如:分别在中英文数据库中,用题名字段检索智能机器人控制方面的文献。示例数据库:CNKI检索式:智能机器人*控制示例数据库:ScienceDirect检索式:intelligentrobotANDcontrol由结果可见,逻辑与重在“同时”,及检索字段里出现and/*前后的检索词。(2)逻辑或含义表示检出含有A词或者B词的记录。用法常用于连接同一概念的不同表达方式,或者相关词,以防漏检。运算符OR或者+检索式AORB或者A+B例如:在中文数据库中检索二氧化硫方面的文章数据库:CNKI检索式:二氧化硫ORSO2在英文数据库中检索传感器方面的文章示例数据库:CSA检索式:sensorORdetector由上述检索结果可见,逻辑或的意义为OR/+前后的检索词“出现其一或同时出现”,这样能够保证课题的查全率。(3)逻辑非含义检出含有A词,但同时不含有B词的记录。用法常用于排除某些概念,以达到精确检索的目的。运算符NOT或-检索式ANOTB或者A-B例如:在中文数据库中查非酒精饮料方面的文章示例数据库:万方检索式:饮料NOT酒精(4)注意☻逻辑运算符在中文数据库中多使用符号*,+,-,在英文数据库中使用字母and,or,not,具体如何使用,请参考数据库的帮助或说明。☻逻辑运算顺序:如果有括号,先执行括号内的运算;没有括号时,各系统有不同的规定,检索时,请参考数据库的帮助或说明。2.位置算符检索用法:用来指定词与词的位置关系(1)W/n——算符两侧的两个检索词按此前后衔接的顺序排列,词序不可变,词与词之间相互距离不超过n个词(注意:是单词,不是字母)。W即with。示例数据库:WorldScientific检索式:solarNear/2energy(2)N/n——算符两侧的检索词之间的距离不超过n个词,词序可变。N即Near。示例数据库:WorldScientific检索式:solarNear/2energy(3)Same——算符两侧的检索词在同一个子字段或同一个自然句中,使用SAME运算符(而非AND运算符)是缩小检索范围的好方法。(4)Paragraph——算符两侧的检索词在同一个段落中。3.截词检索与词根检索(1)截词检索截词检索或称通配符扩展检索,是预防漏检提高查全率的一种常用检索技术,大多数系统都提供截词检索的功能。截词是指在检索词的合适位置进行截断,然后使用截词符进行处理,这样既可节省输入的字符数目,又可达到较高的查全率。用某个符号来代替英文单词的一部分,通常用于相同词干或部分拼写相同的词,常用的截词符有*?等。?代表任意一个字符,*代表零个或多个字符。截词检索可分为:有限截词放在词中间或末尾,一个符号表示一个字母。例如:示例数据库:WebofScience(SCI)输入wom*n检出woman,women无限截词放在词的末尾,一个符号表示任意多个字母。例如:示例数据库:OxfordUniversityPress(OUP)输入compute?检出computer,computers,computed(2)词根检索(stemming)即检索系统会根据词根的分析检索相关词,例如输入computer,系统自动检索包含词根“computer”的单词(computer、computing、computational、computed等等)的全部记录。示例数据库:EI输入:control输出:control,controller,controlling等检索选项示意图检索结果示意图4.字段检索即将搜索词限定在某个字段进行搜索,字段检索结合逻辑检索可以提高结果的精准度。常见字段English搜索结果呈现位置摘要Abstract论文摘要题名Title书目或论文题目关键词Keyword摘要或关键词主题Subject呈现相关主题的文献作者Author按作者呈现结果作者机构Affiliation按作者单位呈现结果图书编号ISBN搜索某图书期刊编号ISSN搜索某期刊内文献5.全文检索全文检索(full-textsearch),是指从各数据中逐字查询所键入的检索词,目的是查看所要的词语是否出现在文本中,但是全文字段并不查询书名或者其他的字段。使用时,检索词越明确越好。6.精确检索用法:用来检索特定的词组或句子数据可采用如下任意方式来实现精确检索:(1)使用特定符号“”{}(如google,EI)(2)使用程序控制,如CNKI利用精确匹配和模糊匹配实现。7.其他检索技术(1)禁用词用法:排除没有检索意义的词。这些词通常是一些虚词,如冠词、连词、助词等。检索时可查看系统的禁用词表。例如:汉语中“的、地、得、了”等。英语中的a/about/also/and/any/as/at/be/between/by/both/for/some/so/not/this/with等。(2)嵌套用途:简化检索式,提高检索效率例:在中文数据库中查本科生或研究生的就业问题(本科生OR研究生)AND就业例:在英文数据库中查有关造纸废水处理方面的文章(papermakingORpaperpulp)ANDwastewaterAND(treatORtreatment)(3)限制词字段检索和限制检索常常结合使用,字段检索就是限制检索的一种,因为限制检索往往是对字段的限制。在搜索引擎中,字段检索多表现为限制前缀符的形式。如属于主题字段限制的有:Title,Subject,Keywords等。属于非主题字段限制的有:Image,Text等。作为一种网络检索工具,搜索引擎提供了许多带有典型网络检索特征的字段限制类型,如主机名(host);域名(domain);链接(link);URL(site);新闻组(newsgroup)和E-mail限制等。这些字段限制功能限定了检索词在数据库记录中出现的区域。如在北大网站上关于篮球赛的信息:(4)大小写敏感词(case-sensitive)它主要是针对检索词中含有人名、地名等专有名词的。在区分大小写的情况下,大写检索词能被当作专有名词看待(如Internet专指因特网);小写检索词则被当作普通词看待(如internet则代表互联网络)。而在不区分大小写的情况下,则无法区分该检索词是指专有名词还是普通词,从而影响了检索结果的准确性。如Google不区分大小写:(三)显示与优化检索结果1.扩大检索结果的方法*考虑同义词或近义词(使用布尔逻辑符or连接)*使用上位词(如飞行器_航天飞机_载人航天飞机)*使用截词符*选择较大检索范围的字段(如摘要)2.缩小检索结果的方法*使用and、not等限制检索范围的逻辑算符*使用位置算符*选择检索范围较小的字段*使用下位词*使用精确检索