第五章网络信息检索图书馆参考咨询部2011.10QQ:516338407微博:本章主要教学内容•网络信息检索概述•网络信息检索工具——搜索引擎•常用搜索引擎介绍5.1网络信息检索概述未来生活也许网络不会“杀了”我们的身体但它已经“杀了”我们现有的生活方式网络信息检索概述网络信息资源网络信息资源的定义,并没有一个统一的说法,目前的一般理解为“通过计算机网络可以利用的各种信息资源的总和”。中国互联网络信息中心(CNNIC)统计,截至2011年6月底,中国的网民已经达到4.85亿人,手机网民民规模更达3.18亿。网络信息资源的特点(1)信息数量巨大而庞杂(2)信息类型多、范围广(3)信息动态性高(4)信息质量参差不齐(5)信息有序与无序并存(6)分布式、非线性(7)信息共享程度高(8)信息使用成本低网络信息资源类型1.用户服务组信息资源按网络传输协议划分:网络信息资源类型(WorldWideWeb的缩写形式,简称Web)被称作万维网或环球网,是以超文本标注语言(HyperTextMark-upLanguage,HTML)与超文本传输协议(HyperTextTransferProtocol,HTTP)为基础,采用超文本和超媒体的信息组织方式的一种多媒体信息服务系统。客户端和服务器端之间传输,建立在超文本、超媒体等技术的基础之上,集文本、图像、图形、声音等为一体,以网页的形式存在于Internet上。信息资源:网络信息资源类型信息资源:网络信息资源类型FTP信息资源是借助于文件传输协议(FileTransferProtocol,FTP),以文件方式在互联网计算机之间传输的信息资源。FTP协议的主要功能是实现文件从一个系统到另一个系统的完整拷贝,通过FTP服务,用户可免费从网上获取别人的资源,达到信息共享的目的。FTP信息资源FTP信息资源网络信息资源类型Telnet(TelecommunicationNetworkProtocol)是远程登陆协议。Telnet信息资源是指在远程登录协议的支持下,用户计算机经由Internet与远程计算机连接,并在权限允许的范围内检索和使用远程计算机系统中的各种硬、软件资源,分享该主机的数据、文件等信息资源。Telnet信息资源网络信息资源类型用户服务组包括新闻组(Usenet/Newsgroup),邮件列表(MailingList)、专题讨论组(DiscussionGroup)等。它们都是由一组对某一特定主题有共同兴趣的网络用户组成的电子论坛,用户以邮件形式进行网上交流和讨论。用户服务组信息资源网络信息检索的一般方法•网址查询:如果用户要访问已知地址的信息资源,可以在浏览器地址栏中输入已知的网站或网页地址,直接进行浏览,这是一种最常见最有效的信息资源的获取方式。•偶然发现:这是在网络上发现、检索信息的原始方法。即在日常的网络阅读、漫游过程中、意外发现一些有用信息。•顺“链”而行:指用户在阅读超文本文档时,利用文档中的链接从一网页转向另一相关网页。有些类似传统文献检索中的“追溯检索”。1、直接浏览:网络信息检索的一般方法专业人员利用自身对网络信息资源的产生、传递和利用机制的广泛了解和对网络信息资源分布状况的熟悉,以及对各种网络信息资源的采集、组织、评价、过滤、控制、检索等手段的全面把握开发了可供浏览和检索的网络资源主题指南。几乎每一个学科专业、重要课题、研究领域的网络资源指南都可以在因特网上找到。2、通过网络资源指南来查找信息:网络信息检索的一般方法这是一种较为常规的、普遍的网络信息检索方式。搜索引擎是提供给用户进行关键词、词组或自然语言检索的工具。用户提出检索要求,搜索引擎代替用户在数据库中进行检索,并将检索结果提供给用户。3、利用搜索引擎进行信息检索:网络信息检索技术布尔逻辑检索是利用布尔逻辑算符进行检索词语或代码的逻辑组配,指定文献的命中条件和组配次序,凡符合逻辑组配所规定条件的为命中文献,否则为非命中文献。1、布尔逻辑检索:布尔逻辑算符:逻辑“与”:*、AND逻辑“或”:+、OR逻辑“非”:-、NOT1、布尔逻辑检索:逻辑“与”逻辑“或”逻辑“非”网络信息检索技术是指在检索词的合适位置进行截断,然后使用截词符进行处理。截词符多采用通配符“?”或者“﹡”。截词检索一般有以下几种:①后截词:又称右截词、前方一致②中截词:也称屏蔽词③前截词:又称左截词、后方一致2、截词检索:如:compu*,com??ter网络信息检索技术限制检索是通过限制检索范围,达到优化检索结果的方法。限制检索的方式有很多,如进行字段限制、使用限制符、使用限制检索命令等。在检索系统中,主要和常用的是字段限制。字段检索是一种用于限定提问关键词在数据库记录中出现的区域,控制检索结果的相关性,提高检索效果的检索方法,3、限制检索:网络检索中常用的字段有:title/t:题名字段,表示查找标题中包含检索提问式的页面;subject:主题字段,表示查找主题中包含检索提问式的页面;text:文本字段,表示文本中包含检索提问式的页面;author:作者字段,表示查找作者中包含检索提问式的页面;keywords:关键词字段,表示查找关键词中包含检索提问式的页面。此外,搜索引擎还提供了带有典型网络检索特征的字段限制类型,如主机名限制(host),URL限制(url),E-mail限制(from),新闻组限制(newsgroups),Link限制(link),网址限制(site)等。这些字段限定了检索词在记录中出现的位置,用来控制检索结果的相关性。3、限制检索:网络信息检索技术①空格:其作用与逻辑“与”相同。例如:用户要查找“飞机”这个关键词,但输入了“飞机”,由于“飞”和“机”两字之间插入了空格,而被处理为“与”的关系,查出所有同时含有“飞”和“机”两个字的页面。这个检索结果的范围要比“飞机”作关键词的结果扩大了许多,但很多结果中已不含有与“飞机”相关的信息。②逗号:其作用类似逻辑“或”。也是查找那些至少含有一个指定关键词的页面,区别是,检索结果输出时,包含指定关键词越多的页面,其排列的位置越靠前。4、空格、逗号、括号、引号的作用:③括号:其作用是使括在其中的运算符优先执行,用于改变复杂检索式中固有逻辑运算符优先级的次序。例如,检索式“多媒体and(计算机or网络)”,表示要求先执行括号中的“or”运算,再执行括号外的“and”运算。④引号:其作用是括在其中的多个词被当作一个短语来检索。例如,检索式“electronicmagazine”,表示把electronicmagazine当作一个短语来搜索。如果不加引号,搜索引擎就会把两词之间的空格按“与”处理,查出包含electronic和magazine的页面,结果会与用户要求的主题内容相差甚远。5.2网络信息检索工具——搜索引擎搜索引擎趣闻新华社10月19电澳大利亚SBS公司执行制片人迈克·卡雷19日说,该公司记者约翰·马丁库斯16日在伊拉克遭到绑架,并在24小时后获释,而救了他一命的,很可能就是风靡全球的网络搜索引擎——Google。马丁库斯在约旦接受澳大利亚广播公司采访时说,他16日早晨在巴格达澳大利亚大使馆附近的饭店被持枪的武装分子劫持,这些武装分子最初威胁要杀了他。马丁库斯说,当他告诉绑架者他是一个独立记者,与美国领导的联军没有关系后,绑架者对他的态度就变得很好。•卡雷说:“绑架者检查了他(马丁库斯)的身份,以确定他所说的是否属实。他们使用Google搜索了他的名字,并通过链接登录了他或他图书出版商的网站。”最后,绑架者们相信了他说的话。•马丁库斯是第一名被确认在伊拉克遭到绑架的澳大利亚人。他已经于18日到达约旦,并在19日启程回国。来源:北京青年报(2004/10/20)澳大利亚记者遭绑Google搜索救了命搜索引擎概述“我们若能更妥善地搜寻资料,实在已经改变世界。”——Google创始人语“在这个星球的历史上,从来没有这么多的人--依靠自身--有能力去找到这么多的东西和这么多关于其他人的信息。”——《世上的一切问题你去问Google》(ThomasFriedman)全球搜索引擎用户搜索数据美国互联网流量监测机构comScore近日公布的统计数据显示,2009年7月份全球用户搜索数已达1137亿次,同比增长41%。所谓搜索引擎(searchengine),是指环境中能够进行网络信息的搜集、组织并能提供查询服务的一种信息服务系统。搜索引擎是通过自己的算法规则对互联网上的信息资源进行采集,组织,管理,存储,然后提供一种直接面向信息查询使用者的服务,并且它能通过对用户查询字串的理解分析,给用户最想要的或最相关信息,帮助人们在茫茫网海中搜寻到所需要的资料。搜索引擎的概念围绕网络信息检索服务,先后出现过以FTP服务器中特定文档为查询对象的Archie检索服务、基于菜单的Gopher信息检索、基于关键词的Wais文档检索,直到1994年作为世界上第一个基于服务器的搜索引擎——WebCrawler的问世。自此,搜素引擎成为了主流的信息检索服务系统和检索工具。搜索引擎的发展简史•搜索引擎的雏形蒙特利尔大学学生AlanEmtage等人在1990年发明的Archie算是现代搜索引擎的雏形。•蜘蛛程序的由来机器人(Robot)指某个能以人类无法达到的速度不断重复执行某项任务的自动程序,由于专门用于检索网络信息的“机器人”程序像蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎中的“机器人”程序就被称为“蜘蛛”程序。•1994年第一代搜索引擎出现美国斯坦福大学的DavidFilo和美籍华人杨致远共同创办了大家熟知的超级目录索引Yahoo。同年4月,UniversityofWashington的学生BrianPinkerton开发出WebCrawler,它是互联网上第一个支持搜索文件全部文字的全文搜索引擎。搜索引擎的分类•全文搜索引擎(FullTextSearchEngine)•目录式搜索引擎(SearchIndex/Directory)•元搜索引擎(MetaSearchEngine)按工作方式主要可分为三种:全文搜索引擎,也有人称为索引式搜索引擎,它是我们使用的最为广泛的搜索引擎,是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。这类搜索引擎的服务方式是面向网页的全文检索服务。1.全文搜索引擎(FullTextSearchEngine)目录式搜索引擎主要通过人工发现信息,并依靠标引人员的知识进行甄别和分类,由专业人员手工建立关键字索引,建立目录分类体系。用户在利用目录式搜索引擎时,可进行浏览查询,从最高层目录开始,逐层深入,直到找到所需的信息为止;也可进行关键词检索。国内的搜狐、新浪、网易搜索也都属于这一类。2.目录式搜索引擎(SearchIndex/Directory)元搜索引擎又称为集合式搜索引擎,是一种调用其它独立搜索引擎的引擎,亦称“搜索引擎之母(Themotherofsearchengines)”。它是一种要调用其它搜索引擎的搜索引擎。它接收一个查询请求后,转交给其他若干个独立的搜索引擎处理,最后将多个搜索引擎的搜索结果进行整合后返给查询者。3.元搜索引擎(MetaSearchEngine)搜索引擎的使用技巧搜索技巧,最基本同时也是最有效的,就是选择合适的查询词。选择查询词是一种经验积累,在一定程度上也有章可循。1.表述准确•一类常见的表述不准确情况是,脑袋里想着一回事,搜索框里输入的是另一回事。•另一类典型的表述不准确,是查询词中包含错别字。查询词的主题关联与简练1.某三年级小学生,想查一些关于时间的名人名言,他的查询词是“小学三年级关于时间的名人名言”。•这个查询词很完整的体现了搜索者的搜索意图,但效果并不好。“小学三年级”事