搜索引擎优化信息检索技术

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

信息检索技术、方法及搜索引擎徐淑慧xushuhui@hrbeu.edu.cn哈尔滨工程大学图书馆信息服务部82519545第一节:信息检索技术数字资源的检索技术布尔逻辑检索技术1截词检索技术2邻近检索技术3字段检索技术4布尔逻辑检索是指通过标准的布尔逻辑关系算符来表达检索词与检索词间的逻辑关系的检索方法。主要的布尔逻辑关系词有:逻辑与(AND)、逻辑或(OR)、逻辑非(NOT)1布尔逻辑检索技术逻辑与逻辑乘:“and”或“*”表示组配方式:A*B或者AandB表示两个概念的交叉和限定关系,只有同时含有这两个概念的记录才算命中信息作用:增加限制条件,即增加检索的专指性,以缩小提问范围,减少文献输出量,提高查准率。逻辑或又称逻辑和:“or”、“+”组配方式:AORB或者A+B,表示检索含有A词,或含有B词,或同时包含A、B两词的文章。作用:放宽提问范围,增加检索结果,起扩检作用,提高查全率。逻辑非又称逻辑差:“not”“-”组配方式:A-B,表示检索出含有A词而不含有B词的文章。作用:逻辑非用于排除不希望出现的检索词,它和“*”的作用相似,能够缩小命中文献范围,增强检索的准确性。例如检索:“打印机驱动程序”查询关键词:打印机、驱动程序检索表达式:打印机AND驱动程序例如检索:“微型计算机”方面的有关信息查询关键词:微型计算机、微机检索表达式:微型计算机OR微机布尔逻辑检索举例布尔运算符优先级比较有括号时:括号内的先执行;无括号时:NOTANDOR例:检索“唐宋诗歌”的有关信息。关键词:唐、宋、诗歌;检索表达式:(唐OR宋)AND诗歌;唐AND诗歌OR宋AND诗歌;错误表达式:唐OR宋AND诗歌;唐AND宋AND诗歌;唐OR宋OR诗歌;唐AND宋OR诗歌;布尔逻辑运算符优先级请注意在不同的数据库中,所使用的逻辑符号可能是不同的,有的用“and、or、not”有的用“*、+、-”。一些检索工具会完全省略任何符号和关系,直接把布尔逻辑关系隐含在菜单中。一些网络检索工具如搜索引擎甚至用“︺、,、-”(即空格、逗号、减号)来表示。主要应用于西文数字资源的检索定义:是指在检索式中用专门的符号(截词符号)表示检索词的某一部分允许有一定的词形变化。作用:主要是提高查全率截词符一般用“?”或“*”表示2截词检索技术截词位置按截词位置可分为前截词、后截词、前后截词和中间截词;按截断字符数的不同,可分为有限截断和无限截断。右截词,又称后截词、前方一致。允许检索词尾有若干变化。例如comput*将检索出computer、computing、computerised、computerized、computerization等结果。中间截词,又称前后方一致。允许检索词中间有若干变化。例如wom*n,检索到woman、women的结果。英美的不同拼法,defen*e可同时检出defence和defense的结果。左截词,又称前截词、后方一致,允许检索词前有若干变化,例如*physics就可检索到physics、astrophysics、biophysics、chemophysics、geophysics等词的结果。前后截词:词干的前后各有一个截词符,允许检索词的前端和尾部各有若干变化形式。如?computer?可检索computer、computers、computerize、computerized、computerization、minicomputer、minicomputers、microcomputer、microcomputers等结果。请注意在不同的数据库和联机检索系统中,所使用的截词符号没有统一的标准,有的用“?”,有的用“*”,有的用“#”,用的用“$”等。即便常用的“?”和“*”在不同的数据库中其用法也是不一定相同的。在允许截词的检索工具中,一般是指右截词,部分支持中间截词,左截词比较少见。我们将要使用的一些数据库,一般用“*”代表一个字符串,用“?”代表任意一个字符。邻近检索又称位置检索,主要是通过检索式中的专门符号来规定检索词在结果中的相对位置。例如检索“生物防治”的文献,若用检索式“biological*control”检索,则会将“抑制生物”(controlbiological)的文献也查出来,这显然不是所需文献。主要有相邻位置算符(W)、(nW)、(N),(nN),句子位置算符(S),字段算符(F)。3邻近检索技术(W)算符(W)是with(word)的缩写,表示此算符两侧的检索词必须按此前后顺序相邻排列,词序不可变,且两词之间不许有其他的词或字母,但允许有一空格或标点符号。如biological(W)control相当于检索biologicalcontrolCD(W)ROM相当于检索CDROM或CD-ROM。(nW)算符(nW)是nwords的缩写,表示此算符两侧的检索词之间允许插入最多n个词,且词序不可变。如wear(1W)material相当于检索wearmaterials、wearofmaterials等。(N)算符(N)是near的缩写,表示此算符两侧的检索词必须紧密相连,词序可变,词间不允许插入其他词或字母,但允许有一空格或标点符号。information(N)retrieval可检出:informationretrievalretrievalinformation(nN)算符(nN)表示两词间可插入最多n个词,词序可变。如检索式environment(2N)protection就可检索出包含“environmentprotection”、“environmentoftheprotection”、“environmentofwaterprotection”、“protectionofforestenvironment”(S)、(F)算符(S)是sentence的缩写,表示两个检索词须同时出现在文献记录的同一子字段中,两词的词序不限,两词间插入词的数量不限。(F)算符:在联机检索中还有对同字段进行检索的(F)算符。(F)表示此算符两侧的检索词必须同时出现在信息记录的同一个字段内,两词的词序不限,两词间插入词的数量不限。用此算符时须指定所要查找的字段,如题名字段、文摘字段、叙词字段等。例如digital(F)computer/TI表示在题名字段(TI)中同时出现这两个检索词的才算命中信息。字段检索是限定检索词在记录中出现的字段范围,检索时,计算机只对限定字段进行查找。3字段检索技术TI(题名)、AB(摘要)、DE(主题词)、ID(标识词)、SU(主题词)、KW(关键词)AU(著者)、BN(国际标准书号)、SN(国际标准刊号)、CC(分类类目)、CS(机构)、DT(文献类型)或PT(出版物类型)、JN(刊名)或JA(刊号)、LA(语种)、PY(出版年)、SO(来源出版物)注意:不同的数据库其字段代码可能不同。数据库中的字段包括举例在EBSCO数据库检索中,某一用户需检索有关“数字图书馆与信息检索、参考咨询”方面的文献信息,检索要求:题名或文摘中包含数字图书馆digitallibrary,数字图书馆要求考虑单复数,主题为信息检索informationretrieval或参考咨询reference,请编制其检索策略(检索式)。(ti:digitallibrar*orab:digitallibrar*)andsu:(referenceorinformationn2retrieval)第二节:信息检索方法信息需求分析选择信息资源选定检索词构造检索表达式确定检索途径对检索策略进行调整实施并输出检索结果1信息需求分析分析信息检索目的,制定检索目标。分析所需信息涉及的学科,确定检索的学科范围。分析所需信息的类型、年代,确定检索的信息类型和年代范围。2选择信息资源(数据库的选择)数据库的类型学科范围时间范围3选定检索词分析主题,找出课题所包含的显性概念和隐含概念。找出核心概念,排除无关概念和重复概念。从待检数据库和检索工具的词表中选取规范化的词或词组。选用上位词、近义词或下位词作为检索词。4构造检索表达式分析检索提问式是数字资源检索中用来表达用户检索提问的逻辑表达式。找出在编制检索提问式时,准确、合理地运用位置逻辑算符、截词符、字段符等技术是编制检索式的基本要求。5确定检索途径第一类是表示主题概念的检索词---主题词,包括标题词、单元词、叙词、关键词。第二类是表示学科分类的检索词,如分类号。第三类是表示作者的检索词,如作者姓名、机构名称等。第四类是表示特殊意义的检索词,如专利号、国际标准书号、分子式等举例一个研究生在做论文题:“数字图书馆中的元数据体系与互操作研究”,这是一个计算机科学、信息科学方面的课题,请你帮助他在维普数据库中找到最新的参考文献。第三节:搜索引擎SearchEngine搜索引擎的概念和作用搜索引擎的工作原理搜索引擎的分类搜索引擎的一般检索技术搜索引擎利用技巧主要搜索引擎目录搜索引擎是一个用来搜索世界各地Internet网络资源的WEB服务器。它像一本书的目录,Internet各个站点的网址就像是页码,可以通过关键词或主题分类的方式来查找感兴趣的信息所在的WEB页面。搜索引擎提供的导航服务(搜索引擎就是网络的指南针)已经成为互联网上非常重要的网络服务,成为和电子邮件并列的最重要的互联网应用。搜索引擎的概念和作用(1)信息搜集(2)信息索引(3)信息查询(4)检索结果的相关性处理搜索引擎的工作原理(1)信息搜集各个搜索引擎都派出绰号为蜘蛛(Spider)或机器人(Robots)的“网页搜索软件”,在互联网中漫游,发现和搜集信息。访问网络中公开区域的每一个站点并记录其网址,将它们带回搜索引擎,要尽可能多、尽可能快地搜集各种类型的新信息。因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死链接和无效链接。(2)信息索引将“网页搜索软件”带回的信息进行分类整理,建立搜索引擎数据库,并定时更新数据库内容。有的搜索引擎把“网页搜索软件”发往每一个站点,记录下每一页的所有文本内容,并收入到数据库中从而形成全文搜索引擎;而另一些搜索引擎只记录网页的地址、篇名、特点的段落和重要的词。(3)信息查询根据用户的查询需求在索引库中快速检出相关网页,并反馈检索结果。一般包括分类目录及关键词两种信息查询方式。(4)检索结果排序概率法是根据关键词在文中出现的频率来判定的,出现的次数越多,认定其与查询的相关程度越高;位置法是根据关键词在文中出现的位置来判定,位置越靠前,文件的相关程度越高;分类或聚类方法是指搜索引擎采用分类或聚类技术,自动把查询结果归入到不同的类别中。(1)关键词搜索引擎(2)主题分类搜索引擎(3)综合搜索引擎搜索引擎的分类(1)关键词搜索引擎界面提供输入框,用户通过输入框提交查询请求(关键词),搜索引擎将检索结果反馈给用户。适用于查找目的明确,并具备一定检索知识的用户。(2)主题分类搜索引擎依据某种分类方式(如学科分类),建立主题树状层浏览体系;搜索程序搜索来的信息被标引后放入浏览体系的个大类或子类下面,呈现错落有致的上下位关系。查准率高,但查全率低。(3)综合搜索引擎此类搜索引擎既可以搜索网站也可搜索全文,用户输入关键词后,可以选择是搜索网站还是网页,不同的选择返回不同的结果,国内的搜狐(Sohu)就是此类搜索引擎查全率高,但查准率低。主要搜索引擎百度://www.baidu.com李彦宏徐勇百度,2000年1月创立于北京中关村,是全球最大的中文搜索引擎。2000年1月1日,公司创始人李彦宏、徐勇携120万美元风险投资,从美国硅谷回国,创建了百度公司。2000年5月,百度首次为门户网站——硅谷动力提供搜索

1 / 109
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功