1第3章搜索引擎及网络信息检索3.1基本知识3.2典型的搜索引擎3.3搜索引擎的检索技巧3.4免费学术资源检索与利用23.1基本知识3.1.1基本概念3.1.2Internet的主要信息服务类型3.1.3搜索引擎的类型33.1.1基本概念1.搜索引擎搜索引擎是Internet上的一种网站,它的主要任务是在Internet上主动搜索Web服务器信息并将其自动索引,其索引内容存储于可供查询的大型数据库中。一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。搜索器索引器检索器用户接口43.1.1基本概念2.域名域名在整个Internet中必须是唯一的;一台计算机可以有多个域名,但只能有一个IP地址。若系统没有域名服务器,则只能使用IP地址。注意:域名、IP地址、域名服务器三者之间的关系53.1.2Internet的主要信息服务类型URL是一种统一格式的Internet信息资源地址表达方法,是UniformResourceLocator的缩写,全称为“统一资源定位器”。简单地说,就是地址栏里的域名等。它将Internet提供的各类服务统一编址,以便用户通过Web客户程序进行查询。在格式上URL可以分成以下三个基本部分:信息服务类型://信息资源地址/文件路径63.1.2Internet的主要信息服务类型目前编入URL中的信息服务类型有以下几种:服务器。这是主要用于提供超文本信息服务的Web服务器。telnet://Telnet服务器。供用户远程登录使用的计算机。服务器。用于提供各种普通文件和二进制代码文件的服务器。gopher://Gopher服务器。news://网络新闻USENET服务器。7举例代表使用超文本传输协议HTTP提供超文本信息服务的资源。其计算机域名为,超文本文件(文件类型为.htm)是在目录/。8举例telnet://odysseus.circe.com:70代表使用远程登录服务协议Telnet提供信息服务的资源。其计算机域名为odysseus.circe.com。使用的端口号是70。9举例代表使用文件传输协议FTP发布文件的资源。其计算机域名为ftp.w3.org,存放对外发送文件的目录是/pub/。使用FTP几乎可以传送任何类型的文件,文本文件、二进制文件、图像文件、声音文件、数据压缩文件等103.1.3搜索引擎的类型1.根据搜索引擎的数据检索机制划分2.按检索内容划分3.按搜索引擎数据来源划分113.1.3搜索引擎的类型1.根据搜索引擎的数据检索机制划分1)主题型搜索引擎2)分类型搜索引擎3)混合型搜索引擎12主题型搜索引擎•主题型搜索引擎将不断收集到的网上页面及地址信息以数据库的形式组织存贮。•查询时用户向其提问框中输入关键词,搜索引擎便会从数据库中检索与之相匹配的相关记录,按一定的排序返回给用户。•代表:Google、百度网站。3.1.3搜索引擎的类型-根据搜索引擎的数据检索机制划分13主题型搜索引擎14主题型搜索引擎优点:查询全面、充分,用户能够对各网站的每篇文章中的每个词进行搜索,检索直接、方便,而且可使用布尔逻辑检索、短语检索等高级功能。缺点:繁多而杂乱,没有清晰的层次结构。15分类型搜索引擎通过用户浏览层次类型目录来寻找所需信息。分类一般按主题分类,并辅之以年代、地区等分类。代表:Yahoo、搜狐、新浪网站例如:新浪分类目录计算机与互联网硬件行情报价。3.1.3搜索引擎的类型-根据搜索引擎的数据检索机制划分16分类型搜索引擎17分类型搜索引擎优点:使用户清晰方便地查找到某一大类信息,尤其适合那些希望了解某一范围内信息,并不严格限于查询关键字的用户。缺点:搜索范围较全文搜索引擎要小许多,尤其是当用户选择类型不当时,可能遗漏某些重要的信息源。18混合型搜索引擎例:雅虎,既有搜索框,又有分类浏览目录3.1.3搜索引擎的类型-根据搜索引擎的数据检索机制划分193.1.3搜索引擎的类型•综合型•专题型•特殊型2.按检索内容划分20综合型搜索引擎综合型搜索引擎在采集标引信息资源时不限制资源的主题范围和数据类型,又称为通用型检索工具。如:Google、百度、新浪、搜狐、网易、Yahoo等。3.1.3搜索引擎的类型-按检索内容划分21专题型搜索引擎专题型搜索引擎专门采集某一主题范围的信息资源,并用更为详细和专业的方法对信息资源进行标引描述。例如:科技信息搜索引擎、重点学科导航系统、学科信息门户等。3.1.3搜索引擎的类型-按检索内容划分22特殊型检索工具特殊型检索工具指那些专门用来检索某一类型信息和数据的检索工具,如查询地图的检索工具“MapBlast”、查询图像的检索工具“WebSEEK”等。3.1.3搜索引擎的类型-按检索内容划分233.按搜索引擎数据来源划分•单独型搜索引擎拥有独立的采集标引机制和独立的数据库,例搜狐•集中型搜索引擎没有自己的数据库,它利用一个统一的界面,查询其他单独型搜索引擎的数据库,例3721。3.1.3搜索引擎的类型243.1.4主题搜索引擎的关键词语法规则1)自动将关键词拆分进行模糊查询此类搜索引擎有Google、百度、雅虎、3721、首都在线等。例:输入“西南大学”。优点:信息覆盖面大。2)按关键词进行精确查询此类搜索引擎有新浪、搜狐、网易、找到啦、中华网和常青藤等。优点:准确性高。253.1.4主题搜索引擎的关键词语法规则3)检索式的运算符号(1)使用逻辑运算算符(2)使用位置算符(3)使用字段限定26(1)使用逻辑运算算符搜索引擎基本上都支持“与”、“或”、“非”、括号或引号等逻辑运算符号,不同的搜索引擎使用的逻辑符不完全相同。“AND”在中文搜索引擎都可以用空格代替;“NOT”有时可以用减号代替,格式如“关键词A-关键词B”,减号前面要有空格。“OR”有时用“|”表示,例如在百度搜索引擎的格式是“关键词A|关键词B”。Google直接用“OR”表示,格式是“关键词AOR关键词B”。27(2)使用位置算符AltaVista使用位置算符“NEAR/n”,n是两个词之间的单词的数目。如:“MicrosoftNEAR/5Internet”表示在“Microsoft”和“Internet”这两个关键字之间的单词数目不得超过5个。如果不输入n,表示两个词挨在一起。为了控制挨在一起的两个词之间的顺序,可以使用“ADJ”(adjacent)操作符,如:“MicrosoftADJInternet”,表示“Microsoft”必须在“Internet”之前。28(3)使用字段限定①intitle限定网页标题。intitleA指所有搜索结果的网页标题中都要包含“A”。例:检索清华大学主页,输入intitle清华大学。②site限定在某类站点或某个网站内搜索。例:在新浪网上查找金庸,•金庸site:sina.com.cn•注意:“site:”后面跟的站点域名不要带“http://”;site:和站点名之间,不要带空格。例:keywordssite:edu,搜索教育站点的资源;•site:cn,定位于国家或地区;•site:edu.cn,定位于这些国家或地区的教育站点。29(3)使用字段限定③filetype限定文件类型。用法是“关键词Afiletype:文件格式后缀名”。如“个人年终总结filetype:doc”,搜索结果全都是word文件的个人年终总结。•注意:“filetype:”和“后缀名”之间不能有空格。④inurl限定域名。常见使用方式“关键词Ainurl:英文字符B”。例如“搜索引擎inurl:ssyq”,检索在url中含有ssyq的网页中关于“搜索引擎”的信息。303.2典型的搜索引擎1.Google2.百度3.搜狐4.新浪网5.其他中文搜索引擎6.其他英文搜索引擎7.特殊型搜索引擎313.3搜索引擎的检索技巧•3.3.1常规的检索技巧•3.3.2Google和百度的高级检索技巧323.3.1常规的检索技巧1.分类查询2.关键词查询3.多次查找4.按照地域查询5.查询最新信息333.3.2Google和百度的检索技巧1.Google高级检索技巧1)短语检索使用“”对词组精确限定。2)字段限定检索(1)限定网站【例】“金庸site:edu.cn”搜索中文教育科研网站上所有包含“金庸”的页面。【例】Link:(2)限定网页【实例】输入“inurl:midi沧海一声笑”查找MIDI曲“沧海一声笑”。343.3.2Google和百度的检索技巧(3)限定标题【实例】输入intitle:“BrowserLaunchPage”,搜索网络摄像头。(4)限定文件类型【实例】利用后缀名来搜索电子书,例如输入“存在与虚无chm”、“水煮三国chm”,检索相应格式的这些电子图书。352.百度的高级搜索技巧【实例】输入“问情inurl:mp3”,搜索《戏说乾隆》的主题曲。【实例】输入“小说intitle:bookmarks”查找小说的精彩站点。【实例】输入“摄影site:hao123.com”检索摄影网站hao123的摄影信息。363.4免费学术资源检索与利用随着网络技术的发展,OpenAccess(简称OA)资源得到了空前的发展。但是,许多OA资源分散存放在世界各地不同的服务器和网站上,用户很难直接全面地检索到这些资源。目前在OA资源揭示方面,主要有DOAJ和OpenDOAR两个项目,分别在进行OA期刊和OA仓贮的整理工作。除此之外,国际国内一些高等院校、机构和个人也对OA期刊和OA仓贮在不同层面上做了类似的整理和揭示。37OpenAccess:任何经由同行评论的电子期刊,以免费的方式提供给读者或机构取用、下载、复制、打印、发行或检索文章。作者可保有著作权,但在出版前需付500至1500美元予出版社。38TheNationalAcademiesPress(NAP)免费电子图书TheNationalAcademiesPress是美国国家科学院下属的学术出版机构,目前通过其主站点可以免费在线浏览3000多种电子图书,图书内容覆盖环境科学、生物学、医学、计算机科学、地球科学,数学和统计学,物理、化学、教育等诸多领域。39DOAJ开放获取期刊目录DOAJ(DirectoryofOpenAccessJournals)是由瑞典隆德大学图书馆2003年5月推出的开放获取期刊的检索系统。DOAJ按期刊的学科主题分为17类,包括AgricultureandFoodSciences,ArtsandArchitecture,BiologyandLifeSciences,BusinessandEconomics,Chemistry,EarthandEnvironmentalSciences,GeneralWorks,HealthSciences,HistoryandArchaeology,LanguagesandLiteratures,LawandPoliticalScience,MathematicsandStatistics,PhilosophyandReligion,PhysicsandAstronomy,ScienceGeneral,SocialSciences,TechnologyandEngineering。免费期刊科学公共图书馆(ThePublicLibraryofScience,简称PLoS)成立于2000年,是一家致力于推动全球科技和医学领域文献的公开获取的非盈利性组织。免费电子期刊HighWire出版社是1995年由美国斯坦福大学创立