第三节信息检索技术TheInformationRetrievalTechnology1.检索算符2.检索策略3.检索评价第三节信息检索技术用一个关键词检索可能比较简单容易,但通常检索题目会用到不止一个关键词。下面就讲一下有效组合多个检索概念的方法和技巧。数据库是有高度的组织结构性的,因此,要有效地进行检索需用到一些特殊的技术。当你要用多个词表达你的检索意图时,检索词的输入必须通过数据库能够理解的方式才行。例如:互联网对青少年的影响1.检索算符首先列出相关的检索词:互联网、青少年、影响。要注意的是,通常名词比形容词、介词、代词更适合作为检索的主题词,你知道吗?有些没有实际意义的虚词在检索中被称为禁用词(stopword),禁用词在检索时通常会被忽略掉;接下来试着把这些检索词组配起来:“互联网”和“青少年”和“影响”常用到的连接词有AND(与)、OR(或)和NOT(非),下面的篇幅将向你展示连接词的用法1.1布尔逻辑算符布尔逻辑算符是规定检索词之间逻辑关系的算符,利用布尔逻辑算符进行检索词或代码的逻辑组配,是计算机信息检索系统中最常用的一种检索方法,也称布尔检索。布尔逻辑算符通常包括以下三种:(1)逻辑“或”:(OR)或“+”表示(2)逻辑“与”:(AND)或“*”表示(3)逻辑“非”:(NOT)或“-”表示(1)逻辑“与”(AND或*)逻辑“与”(AND)是用来组配具有相互交叉限定关系的检索概念。逻辑“与”有时也用“*”代替,其含义是检出的记录中同时含有“AND”前后两个检索词。如:查找有关“纳米”和“材料”方面的文献时,其检索式为:●NanoANDMaterials●Nano*Materials当你希望所找的文章中包含两个或两个以上的检索概念时,你可以在检索式中用“AND”将这些关键词连接起来,表示这些关键词必须同时出现在记录中的某处。使用“AND”将缩小检索范围。如:studentsANDInternet输入上面这个检索式,会找到关于students和internet同时出现的文章,只包含其中一个词的文章是不会被检索到的。因此,在连接不同概念的检索词时,AND是非常有用的。在一个检索式中,AND可以被使用多次。如:studentsANDInternetANDassignments有的中文数据库用“*”来代替AND,就象下面的这个例子。当然,不是所有的中文数据库都支持这种用法,你可以查看帮助文件加以确认。如:学生*互联网(2)逻辑“或”:用“OR”或“+”表示在检索中,你也可以用逻辑“或”(OR)连接关键词。检索式(AORB)可以检索到包含A或者B或者A和B同时出现的文献。OR最好用于针对一个概念的同义词检索。很显然,使用OR可以扩大检索范围。例如InternetORWeb使用上面这个检索式,使用了网络的同义词。会找到有关Internet或Web的文献或Internet与Web同时出现的文献。也可以在一次搜索中多次使用OR:如:InternetORWebORonlineORdigitalORwired有的中文数据库在使用OR时需用“+”来代替:互联网+网络+在线OR用于组配具有并列关系、概念相同或相近的检索词,如同义词、相关词等。用OR算符的基本作用是扩大检索范围,增加命中的文献量,提高检索的查全率。如:查找“肿瘤”的检索式为:cancer(癌)ortumor(瘤)orcarcinoma(癌)(3)逻辑非:“not”或“-”表示NOT的含义是排除,意味着在检索结果中只出现其中的一个关键词而不应出现另一个关键词。例如:computerNOTsoftware输入上面这个检索式,会检索到有关computer的文章,但这些文章中不应包括和software相关的内容。需要注意的是,有的中文数据库在使用NOT时需用“-”来代替,就象下面的例子。当然,不是所有的中文数据库都支持这种用法,你可以查看帮助文件加以确认.如:计算机-软件上述检索式用于查找只出现计算机而不出现计算机软件的文献,用于连接排除关系的检索词,即排除不需要的和影响检索结果的概念。用NOT连接检索词A和检索词B,检索式为:ANOTB(或A—B)表示检索含有检索词A而不含检索词B的信息,即将包含检索词B的信息集合排除掉。如:查找“动物的乙肝病毒”的文献的检索式为:hepatitisBvirus(乙肝病毒)nothuman(人类)图(a)图(b)图(c)1.2截词算符(truncation)截词符就是用一个符号来代替单词的一部分或某个字母。截词符只用于英文检索。截词检索的作用是减少检索词的输入而保证相关检索概念的涵盖,同时也方便解决语言文字拼写方面的差异(如美式英语和英式英语),避免漏检。这样可以扩大检索范围,提高查全率,节省检索时间。看看下面这些例子:输入wom?n可以检出woman,women输入comput*可以检出computer,computus,computing,computative,computator等Comput*er截词符用来对检索词(干)进行扩展。在不同的检索系统中,截词符有不同的表示方法,通常用“?”或者“*”来表示。截词方式:按截断的位置来分共有三种:后截断、中间截断、前截断;按截断的字符数量来分:有限截词(limitedtruncation)、无限截词(unlimitedtruncation)。平时用得较多的是后截断(无限截词和有限截词)和中间截断(仅允许有限截词)。(1)后截断后截断即前方一致检索,是最常用的检索技术。将截词符放在一个词干的后边,以表示其后可有无限或有限个字符。★后截断无限截词不说明具体截去字符的数量。截词符是在一个词尾加一个?号,表示在其后可添加任意多个字符,这些字符都被作为检索词进行检索。无限截词通常用?或*来表示把截词符放在字根的最后。如:behav?;系统将找出“behave,behaviour,behavioural”等等。★后截断有限截词说明具体截去字符的数量,截词符是在一个词尾加有限个?号,n个?号表示其后可添加的字符数少于等于n个。如:smok??;系统将对smoke,smoky,smoked,smoker,smokes等进行检索。对于最多允许添加一个字符的情况,则用??的形式表示。如:smok??;将只对smoke,smoky进行检索。(2)中间截断中间截断是把截词符号放在一个检索词的中间。一般中间截断只允许有限截断。中间截词符也称通配符,是在一词中间用若干个?号,表示可插入若干个字符。中间截断主要用于英式和美式单词的不同拼写方式,以及有些词在某个元音位置上出现单复数不同。如:organi?ation将对organisation和organization进行检索。如:wom?n系统将找出woman,women“;中文数据库截词一般只能用在词尾,英文数据库则3种方式都可以。(3)前截断前截断用?或*来表示把截词符放在字根的左边。如:*Computer,系统在检索时,索引词Microcomputer算命中1.3位置算符位置算符:表示其连接的两个检索词之间的位置关系(1)(W)与(nW)算符W是with的缩写。(W)表示其连接的两个检索词必须按序出现,中间不允许插词,只能有一空格或标点、符号。如:high(W)class命中的记录中出现的匹配词可能有:highclass或high-class。(nW):与(W)类似,只是它允许插词,插词量小于或等于n个。如:silicon(2W)sensor;命中的记录中出现的匹配词除上例的外,还可能会有:siliconangularratesensor,silicon-basedchemicalsensor等等。(2)(N)与(nN)算符(N):N是near的缩写。(N)表示其连接的两个检索词的词序可变,但两词间不允许插词。(nN):(nN)中的n表示允许插词量少于或等于n个。如:internet(1N)accessing命中记录中除上例的外,还会可能有:accessingtheinternet,internet/intranetaccessing等。(3)(L)算符(L):L是limit的缩写。(L)表示其连接的两个检索词之间有主副关系,前者为主,后者为副,可用来连接主、副标题词。它们出现在记录的规范词字段。如:television(L)highdefinition命中记录的规范词字段(de)中出现的匹配词是:TELEVISION-Highdefinition。(4)(S)算符(S):S是Subfield的缩写。(S)表示其连接的两个检索词必须出现在同一子字段中。子字段是指字段中的一部分,如一个句子、一个词组、短语。字段不限,词序不限。如:silicon(S)sensor命中记录出现的匹配情况如:Avacuummagneticsensor(VMS)usingasiliconfieldemittertipwasfabricatedanddemonstrated.(5)(F)算符(F):F是Field的缩写。(F)表示其连接的两个检索词必须出现在同一字段中,字段不限,词序不限。如:pollution(F)control可检出:controlandmanagementofindustrialpollution不同算符的比较:两个词由不同的算符连接组成不同的检索式,其检索结果显然不同。比如同样两个词用关系较紧的算符其检索结果的记录一定比用关系较松的算符检出的记录数少。以下用electron和device两词为例,在EiCompendex数据库检索,其结果如下表所示。位置算符按照限制程度的大小排序为:(W)、(nW)最强,(N)、(nN)次之,(S)再次之,(F)最弱。2.检索策略执行一个课题的检索是有过程、分步来完成的,检索步骤的科学安排称为检索策略(searchstrategy),它是为实现检索目标而制定的全盘计划或方案。信息检索的基本流程分析检索要求选择数据库确定检索词构成检索式提交计算机结果显示完成满意修改检索式不满意检索课题的分析,即主题分析,明确课题所包含的概念成份及其相互关系。这是检索策略制定的根本出发点,也是影响检索效率高低或成败的关键。要明确以下问题:◎分析课题的主要内容及其所涉及的学科范围。◎所需文献的类型、语种、年代及文献量的范围。◎对查新、查准、查全的指标要求,及其侧重。2.1检索课题分析2.2选择相关信息资源通过检索需求的目的的分析,有针对性的选择相关信息源,主要确定以下几个方面:(1)是否要对所有与检索课题相关的资源进行检索,如果是,则不但要考虑检索一次文献和二次文献的数据库,而且对于网上其它资源;如搜索引擎、学科导航专题BBS等也要进行查询。(2)究竟要选择哪些信息源;如查找生物学方面的信息,则可能会涉及医学方面的信息资源,所以要考虑跨学科的问题。(3)选择哪些语种的信息源:是中文还是西文?还是两者兼顾。(4)信息源覆盖的年限是否符合要求。大多数数字信息资源覆盖的年限都是近20年的内容,如果课题需要更早的资料,就要考虑手工检索的问题;还有些数据库由于更新速度的原因,无法提供最新的信息,也是要考虑的因素,考虑用其它相关资源来予以补充。(5)信息源的特点及针对性如何:要了解自己已选信息资源的查询特点,是否与自己的信息需求相吻合。例如要查询某个机构或公司的网页,使用搜索引擎是最好的;查询新闻时事,可登录到一些新闻网站;查找学位论文,就一定要使用学位论文数据库或直接登录到大学的网站上查询或申请提供相关的服务。2.3检索字段和限制符(1)检索字段数据库可供检索字段有二种,一种是反映内容的主题字段,如:题名、叙词、标识词和文摘等。字段检索时,使用后缀符如:如:/TI表示Title(篇名)/AB表示Abstract(文摘)/DE表示Descriptor(叙词,规范词)例如:electron/ti表示electron一词须出现在篇名字段;electron/ti,ab表示electron一词须出现在篇名或文摘字段。后缀代码(suffixcode),对应基本索引(