《信息检索与利用》系列课件第6章Internet的信息检索与学术信息的开放获取2020年10月29日星期四北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件6-11互联网搜索引擎搜索引擎(SearchEngine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,经过组织和处理后为用户提供检索服务的系统。1990年大学生AlanEmtage、PeterDeutsch等发明了Archie1993年JumpStation、TheWorldWideWebWorm(Goto的前身,也就是今天的Overture)和Repository-BasedSoftwareEngineering(RBSE)spider成功检索整个因特网各种信息。JumpStation和只是以命中信息的先后顺序为结果排序,而RBSE是第一个索引Html文件正文的搜索引擎,也就是第一个在结果排列中引入关键字串匹配程度概念的引擎。1994年MichaelMauldin将JohnLeavitt的Spider程序接入到其索引程序中,创建了Lycos。同年4月DavidFilo和美籍华人杨致远共同创办了Yahoo。1995年元搜索引擎出现。2020年10月29日星期四北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件6-2搜索引擎的工作原理搜索器也称为蜘蛛系统(Spider)或爬虫系统(Crawler),其功能是遵循一定的协议,在互联网中及时搜索和发现新的网页信息,并更新索引数据库,避免死链接。分析器借助词频统计、词语位置认定和一些特殊算法,对搜索器抓回的网页进行标引,并对其中的网页超链接进行关联。索引器根据分析器生成的关键词,建立从关键词到网页URL的关系索引倒排文档,即建立索引数据库。检索器根据用户输入的提问词,在索引数据库中进行匹配运算,然后将查询结果按相关程度排序。用户接口接收并解释用户输入的检索提问,最后将检索器查询的结果输出。搜索引擎实际上是一个检索服务器,由搜索器、分析器、索引器、检索器和用户接口等部分组成。2020年10月29日星期四北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件6-3搜索引擎的检索功能搜索引擎的检索功能非常强大,通常包括布尔逻辑检索、字符串(词组)检索、截词检索、字段检索、限制检索和位置检索,有些搜索引擎还包括自然语言检索、多语种检索、区分大小写等特殊功能,但并非每个搜索引擎都提供上述所有检索功能,也并非每种检索功能在各个搜索引擎中都有完全相同的表现。按受到搜索引擎支持的程度划分,各种检索功能的位次排列如下:布尔逻辑检索和字符串检索截词检索、字段检索和限制检索位置检索2020年10月29日星期四北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件6-4通用搜索引擎——百度2001年10月22日正式发布,是国内最大的商业化全文搜索引擎,其功能完备,搜索精度高,除数据库的规模及部分特殊搜索功能外,其他方面可与当前的搜索引擎业界领军人物Google相媲美,在中文搜索的支持方面有些地方甚至超过了Google,是目前国内技术水平最高的搜索引擎,其独创的核心技术“超链分析”是新一代搜索引擎的关键技术,已为世界各大搜索引擎普遍采用。网址:年10月29日星期四北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件6-5基本检索逻辑算符:空格=“与”;符号“|”=“或”;符号“-”=“非”2020年10月29日星期四北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件6-6高级搜索语法语法字符含义及用法intitle:限定在网页标题中搜索site:限定在特定站点搜索inurl:限定在URL链接中搜索filetype:文档类型(如:doc、jpg、mpeg、…)限定例:“信息检索filetype:all”表示结果中含有“信息检索”的所有文档类型的文件双引号(“”)或书名号(《》)检索结果的精确匹配2020年10月29日星期四北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件6-7调整搜索结果相关搜索在搜索结果页面下方提示若干与输入的关键词很相似的查询词,供用户从中选择结果中找相当于“二次检索”,可以帮助用户逐步缩小查找的范围,直至得到最佳结果2020年10月29日星期四北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件6-8百度快照百度收录的网页都会自动生成临时缓存,可供用户快速浏览2020年10月29日星期四北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件6-9通用搜索引擎——Google1998年9月发布测试版,一年后正式商业运营。2005年Google中文推出,2006年4月命名为“谷歌”,包含2400万个中文页面以及超过13亿的Web文件。网址:是第二代搜索引擎的代表,目前被公认为全球最大的搜索引擎,并由于对搜索引擎技术的创新而获奖无数。Google所擅长的是易用性和高相关性,其先进的PageRank排序技术可以保证将重要的搜索结果排列在结果列表的前面。2020年10月29日星期四北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件6-10检索界面逻辑算符:空格=“与”;符号“+”=“或”;符号“-”=“非”2020年10月29日星期四北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件6-11高级搜索语法语法字符含义及用法intitle:在特定的网页标题中搜索site:在特定的域或站点中搜索inurl:在特定的URL链接中搜索link:显示所有指向特定网址的网页info:显示特定网页的信息filetype:在某一种格式类型的文件中查找“”精确短语define查看字词或词组的定义..数字范围搜索(如:¥50..¥100;2000..2008)2020年10月29日星期四北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件6-122020年10月29日星期四北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件6-13“手气不错”直接指向查询后所找到的相关性最高的网站清华大学2020年10月29日星期四北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件6-14调整搜索结果相关搜索在搜索结果页面下方提示若干与输入的关键词很相似的查询词,供用户从中选择在结果中搜索相当于“二次检索”,可以帮助用户逐步缩小查找的范围,直至得到最佳结果类似网页显示与当前网页相关的网页2020年10月29日星期四北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件6-15网页快照供用户查看Google最近一次编制索引时的相关网页内容2020年10月29日星期四北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件6-162020年10月29日星期四北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件6-172020年10月29日星期四北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件6-18Google学术搜索提供众多学科和资料来源,包括:学术著作出版商(如“万方”、CNKI、维普中的部分内容)大学等学术团体的作品公开的学术刊物专业类报纸的电子版其他网络上可以搜索到的学术文章输入加引号的论文标题来查找特定论文和提及此论文的其他论文输入“作者:”以查找特定作者的文章使用方法与Google中文基本相同,但为适应学术文献检索的需要而设计了一些新功能,例如:2020年10月29日星期四北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件6-19学术搜索结果☺结果排序综合考虑每篇文章的内容、作者、发表的刊物以及被其他学术文章引用的次数等要素,相关度越高的文章在结果列表中的位置越靠前,如果点击结果列表上方的“最新文章”则按文章的发表时间排序☺每条记录中显示的项目充分考虑到使用者的需要,包括:标题、被引用次数、相关文章、图书馆搜索、网页搜索等2020年10月29日星期四北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件6-20•通用搜索引擎--MSN•由微软编制,大部分数据来源于搜索提供商Inktomi的数据库以及Looksmart的人工分类体系,微软的电子百科全书和广告合作商提供的信息也在其中。其资源类型包括网页、黄页白页信息、新闻、地图、音乐、星座和求职信息等。2020年10月29日星期四北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件6-21•检索功能•基本检索:•基本同Google。不同的是:支持完全布尔检索、不支持截断检索、区分大小写。•网页特色检索:•特殊文档检索比如能检索微软Office文档,高级检索中更多的文档限定,或者使用feature:***•字段检索和各种限定检索(高级检索界面)•特色:•高级检索中能为用户提供多媒体信息参考源,区分大小写,检索人名、地名和专业词汇优于其他引擎2020年10月29日星期四北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件6-22通用搜索引擎——AltaVista1995年12月推出,曾经是互联网上名噪一时的全文搜索引擎,至今仍被认为是功能最完善、搜索精度较高的全文搜索引擎之一。目前它的优势主要是它拥有很强的图形检索和音频、视频检索功能。网址:年10月29日星期四北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件6-23检索功能支持自然语言搜索,检索提问可以是单词、词组或短语以及完整的问题,词组或短语应置于双引号中检索词前面加“+”表示该词一定要出现在搜索结果中,加“-”则表示该词一定不要出现在搜索结果中检索时区分大小写:当以大写字母查询时默认为精确匹配,而输入小写字母则同时查询大、小写采用“*”作为通配符,1个“*”号最多可以代替5个小写字母支持布尔逻辑算符,并以“NEAR”表示靠近关系,即两个关键词间的单词数少于10个2020年10月29日星期四北京交通大学出版社《信息检索教程》(InformationRetrievalTextbook)系列课件6-24•2、中国搜索•资源包括2亿网页、分类目录、新闻、区域、网站、多万首70mp3歌曲、2亿多张图片、商品搜索、游戏、和行业数据库等•检索功能:•基本同百度、用“/”表示OR、仅对site字段做检索,即在网址前加site:搜索具体网站内的网页•网页目录•分类主题一体化查询•行业搜索开创了搜索引擎行业特性分类、关键字分类搜索的先河。2020年10月29日星期四北京交通大学出版社《信息检索教程》(InformationRetri