第3章网络信息资源检索技术与工具3.1网络信息检索技术3.1.1布尔逻辑检索技术常用的布尔逻辑算符有三种逻辑与AND逻辑或OR逻辑非NOT布尔检索具有运算程序简单、查询描述准确、查准率较高等优点。运算符优先顺序为:NOT、AND、OR,也可以利用括号改变其执行顺序。ABBAAANDB(A*B)ABABABAORB(A+B)AORB(A+B)ABBABABNOTA(B-A)ANOTB(A-B)实例1.查找“胰岛素治疗糖尿病”的检索式:insulin(胰岛素)anddiabetes(糖尿病)2.查找“肿瘤”的检索式:cancer(癌)ortumor(瘤)orcarcinoma(癌)orneoplasm(新生物)3.查“动物的乙肝病毒(不要人的)”的文献的检索式:hepatitisBvirus(乙肝病毒)nothuman(人类)4.综合实例:检索北京大学的老师研究的有关核酶在抗病毒基因治疗中的作用方面的论文。检索式的书写为:北京大学and(核酶and抗病毒基因治疗)and(作用or效果)。实例检索含有草莓或香草但不含巧克力口味的冰激淋:(strawberrgORvanilla)NOTchocolateANDice-cream布尔检索的特点(1)形式简洁,结构化强,语义表达力好。(2)布尔运算关系有利于准确表达检索概念之间的逻辑关系。(3)由于布尔运算以比较方式在集合中进行,故软件易实现。布尔检索的局限性(1)它不承认文献内容所涉及的多个概念的相对重要性,即没有规定每个检索词的权重,一个概念要么与文献内容完全相关,要么完全不相关,这常与实际情况相悖。(2)它把各个概念看成是相互独立的,忽略了概念间的相互关系;它把概念与文献的关系简单化,忽略了概念与文献内容形式和结构的关系。(3)它不能妥善区别和处理用检索式中较多的概念标引的文献和用检索式中更较少的概念标引的文献。如处理提问式(AANDBANDC…ANDZ)时,系统把含有若干个提问词和不含任一提问词的文献认为一样差,同样加以排除;在处理提问式(AORBORC…ORZ)时,不能把含有所有提问词的文献看做比只含一个提问词的文献更好一些。(4)它不能对检索结果按与检索要求相关的程度排序输出,因而结果输出量较难控制。(5)它过分依赖检索语言的文字化、规范化,而且往往要求较复杂的表达式。3.1.3截词检索技术(模糊检索)按截断的位置划分:前截断(后方一致)后截断(前方一致)中截断(中间一致)无限截词截词的规则1.使用通配符“?”,表示截去的字符数个数为0-1个。comput?表示computer,computers,computing。2.使用通配符“*”,表示截去的字符数不确定多少个。如:MARKET*表示:MARKET,MARKETABLE,MARKETING前截断(后方一致)后截断(前方一致)中截断(中间一致)3.1.3邻接检索技术(选学)同字段邻接邻接符号F(field),检索式为A(F)B,表示它关联的两个概念A、B必须同时在同一字段中出现。3.1.3邻接检索技术同自然段邻接邻接符号P(paragraph),检索式为A(P)B,表示它关联的两个概念A、B必须同时在同一自然段中出现。3.1.3邻接检索技术同句邻接邻接符号S(sentence),检索式为A(S)B,表示它关联的两个概念A、B必须同时在同一自然句中出现。3.1.3邻接检索技术有间断无序邻接邻接符号nN,检索式为A(nN)B,表示它关联的两个概念A、B间可插入0~n个其他词汇,且两个概念前后顺序不定,其中n代表可插入词个数。n如果为零,检索式写作A(N)B。Econom??(3N)recovery可以检出econmicrecoveryrecoveryoftheeconomyrecoveryfromeconomictroubles3.1.3邻接检索技术有间断有序邻接邻接符号nW,检索式为A(nW)B,表示它关联的两个概念A、B间可插入0~n个其他词汇,且两个概念前后顺序固定,不可改变。其中n代表可插入词个数。n如果为零,检索式写作A(W)B。Price(3W)inflation可检出Pricelevelsandinflation3.1.4限制检索技术是对检索词范围加以约束,以减少过多的检索无用的检索结果,提高检索准确程度。检索用词的选择方法3.3.1检索用词的取名分析方法1.同义分析:①同物异名〖例〗万维网/环球信息网/全球浏览网②全称与简称〖例〗北京大学/北大〖例〗UnitedStatesofAmerica/UnitedStates/America/U.S.A/U.S.③异称〖例〗马铃薯/土豆电动机/马达的士/出租车④代称词〖例〗抄手/馄饨空间通信/宇宙通信有的检索工具对同义词不作处理,有的选择比较正式、通用的词,对于不同的检索工具必须区别对待.3.逐字展开〖例〗温度计――>温度测量仪足针――>足部针灸3.部分说明〖例〗数字图书馆的人机效率分析――>数字图书馆+可用性4.还原补全〖例〗记忆跟踪――>雷达根据记忆保持对目标的自动跟踪5.检索用词的定义分析方法6.检索用词的内容分析方法〖例〗发电厂烟气净化发电厂烟气――>灰尘、二氧化硫、氮氧化物净化――>除尘、脱硫、脱硝――>静电除尘、脉冲放电、布袋除尘、过滤、洗涤塔、磁性吸收剂、流态燃烧技3.3.2检索式的生成方法一个检索式就是一个检索条件。通过对用户检索提问的分析归纳,结合检索工具的具体情况,我们可以构建检索式。构建检索式的方法有:切分、删除、替换、聚类、补充、增加、组合1切分以词为单位切分检索提问要求保持原意:〖例〗信息时代的个人隐私问题切分为信息|时代|个人|隐私|问题信息时代|个人隐私|问题信息时代|个人|隐私|问题〖例〗舰艇学院切分为舰艇|学院〖例〗北京图书馆切分为北京|图书馆3删除删除不具有检索意义的词、高频词、低频词:〖例〗信息时代的个人隐私问题经删除处理后为信息时代|个人隐私或信息时代|个人|隐私〖例〗世界信息产业发展的现状与趋势经删除处理后为世界信息产业3替换检索提问中的词可能比较模糊、宽泛、狭窄或者不可行,必须作替换处理。〖例〗空气中细菌的计算方法经替换处理后为空气污染的计算方法4聚类对切分出来的词按语义进行聚类:〖例〗海军广州舰艇学院先切分为海军|广州|舰艇学院然后进行聚类海军广州舰艇学院+海军广州舰艇学院+海军舰艇学院+广州舰艇学院+舰艇学院5补充补充缩略词或同义词或相关词:〖例〗检索海军广州舰艇学院的信息海军广州舰艇学院+水面舰艇学院+水面舰艇学院+第二舰艇学校〖例〗检索图书情报术语方面的资料图书情报术语+图书情报学术语+图书馆学术语+情报学术语6增加限义词对多义词必须进行限制,以明确词义:〖例〗伦敦伦敦+英格兰伦敦+安大略〖例〗filteringinformationfilteringwaterinformation7组合当词素相同而位置不同时,需要通过组合以限定词义:〖例〗清洁用机械清洁*机械〖例〗机械的清洁机械*清洁〖例〗航天器可靠性实验航天器|可靠性|实验――>航天器*可靠性实验小结:拿到一个课题,不要盲目上机检索,先要制定好检索策略,做到胸中有数,才能有的放失。首先透彻地分析检索课题的主题内容,确定与课题相关的主题概念,再将概念转化为检索词,注意应避免使用一般性的词作为检索词;其次,选择这些检索词的同义词和相关词。如果检索课题是综合性或跨学科的,这类课题涉及到许多相关研究领域,仅用几个检索词是概括不了的,应在相关的研究专题领域选择相应的检索词。然后,利用逻辑算符对检索词进行必要的逻辑组配。检索时要根据课题的需要,及时调整检索策略。当文献量过少,可使用逻辑或扩大检索范围。遇到复杂的课题,可适当考虑使用逻辑算符进行组合检索。为节省检索时间,最好由严到宽地制定几套检索策略,以供检索中随时调用。注意事项:1.检索者使用的检索词与检索系统中规范的词语有一定差距,致使检索结果不理想;3.不同的检索系统,要求使用的检索运算符不一样,不是均支持所有运算符的组配。检索之前应先了解所使用的检索系统的要求。3.3上机检索程序产生漏检的原因可能有:没有用足够的同义词、近义词、隐含概念;位置算符用得过严、过多;逻辑与用得太多;后缀代码限制得太严;工具选择不恰当;截词运算不恰当;单词拼写错误;文档号错误;组号错误;括号不匹配等。产生误检的原因可能有:检索词一词多义;括号使用不正确;检索词与英美人的姓名、地址名称相同;不严格的位置算符的运用;逻辑运算符号前后未空格;截词运算不恰当;检索式中没有使用逻辑非运算;检索式中检索概念太少;从错误的组号中打印检索结果提高查准率的方法有:下位概念检索字段限定检索(篇名、叙词和文摘)布尔逻辑组配检索(逻辑与、逻辑非)位置运算检索限制选择功能检索(时间、语种)进阶检索或高级检索提高查全率的方法有:上位概念、同义词、近义词检索截词检索减少对文献外表特征的限定布尔逻辑组配检索(逻辑或)位置运算检索(W---N)选择更合适的数据库检索3.3.1搜索引擎概述搜索引擎(SearchEngine)以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。现在搜索引擎之间开始出现了分工协作,并有了专业的搜索引擎技术和搜索数据库服务提供商。它本身可能并不是直接面向用户的搜索引擎,但向其他搜索引擎提供全文网页搜索服务。从这个意义上来说,它们是搜索引擎的搜索引擎。据专家估计,最好的搜索引擎也只能搜索到1/3的网页信息,大部分的网页很难找到。而且,网络信息资源数量庞大、增长迅速。随着网页的迅速增加、搜索引擎数量的增长、各种搜索引擎使用的检索方式日益复杂,如何准确选择使用搜索引擎、如何全面有效地利用各种搜索引擎的集成资源已成为检索者的主要问题。搜索引擎的工作原理搜索引擎主要由4部分组成:搜索器、索引器、检索器、用户接口。搜索器的功能是在因特网中发现和搜集信息。索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表,建立起自己的物理索引数据库。检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。用户接口的作用是输入用户查询、显示查询结果,提供用户相关性反馈机制。工作原理—示意图搜索器索引器检索器用户界面在因特网中发现和搜集信息理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表,建立起自己的物理索引数据库。根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。输入用户查询、显示查询结果,提供用户相关性反馈机制。搜索引擎的分类按索引方式的不同,可分为目录式搜索引擎、机器人搜索引擎、元搜索引擎。3.3.2常用的搜索引擎目录式搜索引擎以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站。提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高。缺点是需要人工介入(维护工作量大)、信息量少、信息更新不及时。这类搜索引擎的代表是:国内:中文Yahoo!、网易、sohu、sina等;国外:Yahoo!、Galaxy、LookSmart、OpenDirertory、GoGuide等常用的目录式搜索引擎名称分类检索途径检索方法与技巧中文雅虎14大类分类检索关键词检索支持布尔:“AND”和“NOT”检索,使用引号保持检索词的完整性。检索词前面加“+”,结果一定出现检索词;检索词前面加“-”,结果一定不出现检索词;检索词前面加