第七章Internet网络信息资源检索中国民航大学图书馆1.网络信息资源概括而言,网络信息资源具有如下特点:来源的广泛性和信息的跨时空性形式和种类的多样化不断增长的巨大信息量信息的新颖性和及时性信息的共享性信息的随机性和不稳定性内容的自由化信息的杂乱无章2.搜索引擎2.1概述搜索引擎是一种能够通过Internet接受用户的查询指令,并向用户提供符合查询要求的信息资源网址的系统。所以,搜索引擎也可以成为Internet上具有检索功能的网页。搜索引擎由网上机器人(Spider或Robot)自动在网页上按某种策略进行远程数据的搜索与获取,并生成本地索引。Spider或Robot是一种软件,它沿着文件的连接在网上漫游,记录URL、文件的简明摘要、关键字或索引,形成一个很大的数据库,这种数据库包括标题、摘要、关键词和URL、文件的大小、语种以及词出现的频率。搜索引擎的信息组织与标引缺乏控制,并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。搜索引擎不能真正理解网页上的内容,它只能机械的匹配网页上的文字。因此信息查询的命中率、查准率差强人意,往往是输入一个检索式,得到一大堆网页地址,且其中大部分是冗余信息。2.2搜索引擎的主要任务(1)信息搜集各搜索引擎利用网络搜索软件,访问网络中公开区域的每一个站点并记录其网址,将它们带回搜索引擎,从而创建出一个详尽的网络目。由于网络文档的不断变化,机器人也不断的把以前已经分类组织的目录更新。(2)信息处理将“网页搜索软件”带回的信息进行分类整理,建立搜索引擎数据库,并定时更新数据库内容。在进行信息分类整理阶段,不同的搜索引擎会在搜索结果的数量和质量上产生明显的差异。有的搜索引擎把“网页搜索软件”发往每一个站点,记录下每一页的所有文本内容,并收入到数据库中从而形成全文搜索引擎;而另一些搜索引擎之记录网页的地址、篇名、特点的段落和重要的词。所以有的搜索引擎数据库很大,有的则较小。(3)信息查询每个搜索引擎都向用户提供良好的信息查询界面,一般包括分类目录和关键词两种信息查询途径。分类目录查询以资源结构为线索,将网上的信息资源按内容进行层次分类,使用户能依线性结构逐类检索信息。关键词查询利用建立的网络资源索引数据库向网上用户提供查询“引擎”。需要把欲查找的关键词或短语输入查询框中,并按“Search”按钮,搜索引擎就会根据输入的提问,在索引数据库中查找相应的词语,并进行必要的逻辑运算,最后给出查询的命中结果(均为超文本链接形式)。通过搜索引擎提供的链接,可访问到相关信息。2.3搜索引擎分类搜索引擎根据工作方式,主要可以分为三种:机器人搜索引擎、目录索引类搜索引擎和元搜索引擎。全文搜索引擎如谷歌、百度、AltaVista等,它们都是通过互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。全文搜索引擎是名副其实的搜索引擎。目录索引目录索引虽然有搜索功能,但在严格意义上讲,并不是真正的搜索引擎,仅仅是按目录分类的网站链接表而已。用户完全可以不用任何关键词查询,仅依靠分类目录也可找到需要的信息。目录索引中最具代表性的是雅虎,其他的还有OpenDirectoryProject、About、搜狐、新浪等。元搜索引擎元搜索引擎,也称集搜索引擎,是在同一的用户查询界面与信息反馈的形式下,共享多个搜索引擎的资源库为用户提供信息服务的系统。元搜索引擎是对搜索引擎进行搜索的搜索引擎。元搜索引擎与一般搜索引擎的最大不同在于它没有自己的资源库和机器人,仅充当一个中间代理的角色,接受用户的查询请求,将请求翻译成相应搜索引擎的查询语法。在向各个搜索引擎发送查询请求并获得反馈之后,首先进行综合相关度排序,然后将整理抽取之后的查询结果返回给用户。元搜索引擎查全率高、搜索范围更多更大,查准率高,Dogpile、Vivisimo、搜星等都是元搜索引擎。2.4搜索引擎的检索功能(1)布尔逻辑检索:常用的布尔逻辑包括逻辑“与”、逻辑“或”、逻辑“非”,算符分别为:and、or、not。几乎所有的搜索引擎都具有布尔逻辑功能。(2)词语检索在检索词的前后加双引号(“”)限定检索结果中的词语必须以同样的顺序出现,且相邻。(3)截词检索如:检索式“comput*”可以检索出:computer、computing、computerization(4)限定词检索(+,-)+:放在检索词前,表示在检索结果中必须包含该词。-:放在检索词前,表示在检索结果中必须不包含该词。大多数系统都具有该项功能。2.5常用搜索引擎(1)百度()百度于1999年底成立于美国硅谷,它的创建者是李彦宏与徐勇。前者是资深信息检索技术专家、超链分析专利的唯一持有人,后者在硅谷有多年的商界成功经验。百度是目前全球最大的中文信息检索与传递技术供应商。中国所有提供搜索引擎的门户网站中,超过80%以上都由百度提供搜索引擎技术支持,现有客户包括新浪、腾讯、263、21cn、上海热线、广州视窗、新华网、北方时空、西部时空、重庆热线等。其搜索范围涵盖了中国大陆、香港、台湾、澳门、新加坡等华语地区以及北美、欧洲的部分站点。一般功能:检索:直接输入检索词,按回车键(Enter)或“百度一下”按钮即可。逻辑运算:逻辑“与”:空格即可逻辑“或”:用“|”表示,“|”前后必须同时有空格逻辑“非”:用“-”表示,“-”前必须有空格词语检索:使用双引号(“”),可进行精确搜索,不区分大小写查询某一类文档:“关键词filetype:文档类型”如:“基因filetype:ppt”其他类型:doc、xls、pdf等对搜索的网站进行限制:“site:”、“intitle:”、“link:”等百度国学:定位:针对中国传统文化方面的专业搜索内容:提供上起先秦,下至清末历代文化典籍的检索和阅读特殊功能:(2)Google谷歌()两位斯坦福大学的博士生LarryPage和SergeyBrin在1998年创立了Google,这个词也代表他们想征服网上无穷无尽资料的雄心。Google提供了便捷的网上信息查询方法,通过对30多亿网页进行整理,可为世界各地的用户提供适需的搜索结果,搜索时间通常不到半秒。目前,Google每天需要提供2亿次查询服务。Google1998年9月发布测试版,1999年投入商业运营,是目前全球最大的搜索引擎之一。一般功能:直接输入检索词,按回车键(Enter)或“Google搜索”按钮即可。逻辑运算:逻辑“与”:空格即可逻辑“或”:大写“OR”表示逻辑“非”:用“-”表示,“-”前必须有空格词语检索:常用双引号(“”)进行专业词语的检索,不区分大小写特殊功能:查询某一类文档:“关键词filetype:文档类型”如:“教育技术filetype:ppt”“祝福filetype:swf”常用查询类型包括:MicrosoftExcel(xls)MicrosoftWord(doc)AdobePortableDocumentFormat(pdf)教育技术filetype:ppt对搜索的网站进行限制:“site:”表示检索结果局限于某个具体网站或某个域名。如:搜索中国教育科研网站(edu.cn)上所有包含“教育家”的网页检索提问为:“教育家site:edu.cn”GoogleScholar:专门面向学术资源的免费搜索工具推出时间:2006年网址:搜索结果:中文学术文献领域的论文、图书、预印本、摘要、技术报告等。信息来源:合作伙伴(IEEE、Nature、OCLC等);互联网L.C.Spears2004Google其它特色示例1美元=?人民币检索出可能最符合要求的网站与的区别:执行的检索结果界面执行后的检索结果界面(3)百google度()国内搜索用户的首选调查:(4)雅虎()Yahoo!是美国大型的信息检索服务公司之一,它是美国斯坦福大学电机工程系的两位博士生大卫∙费罗和杨致远于1994年创立的。它是全球第一家提供互联网导航服务的网站,也是目前最流行和通用的网络信息搜索引擎之一。雅虎提供分类目录浏览检索和关键词检索两种网络信息资源检索方式。(5)AskJeeves()该引擎是AskJeeves公司提供的一个互联网络信息资源检索系统。该公司1996年创立,1998年至1999年以自然语言搜索引擎开始闻名。AskJeeves检索式可以是一个问话、一个短语或者是一个单词,它都能为用户提供理想的信息,即使用户拼写有误,系统也可以自动更正。使用AskJeeves检索时应注意:一次只提一个问题;单词之间用空格隔开;利用同义词提高检索质量;用多个检索词以限定检索信息的类别与范围。(6)其他搜索引擎①门户网站搜索引擎://②热门主题搜索:新闻搜索网:新浪、网易、搜狐、Tom、新华网、人民网、中国政府网、CCTV、中国新闻网常用MP3搜索引擎:搜刮网(sogua)、百度(baidu)、音乐极限网(chinamp3)、MP3.com(英文网站)③学术信息搜索引擎(http://)搜索网页以及大量同行评议期刊论文、预印本、报告、科学数据、发明专利等文献信息3.搜索引擎的使用注意事项:3.1了解搜索引擎的检索功能:布尔逻辑检索(and、or、not)词语检索(“”)截词检索“*”限定词检索(+,-)特殊文档搜索:filetype:ppt、pdf、doc、excel等3.2了解构造检索策略的步骤:分析信息需求,明确检索要求选择合适的检索系统确定检索词或检索式实施信息检索修改检索策略,进行二次检索获取所需信息3.3准确构造检索式:减少不确定因素,正确表达信息需求如:想了解樱花相关信息检索式第一页检索结果樱花樱花热水器、低价销售樱花……樱花节日本樱花节、广州、武汉樱花节……樱花*玉渊潭玉渊潭公园、玉渊潭樱花……(年度宽泛)2009*樱花*玉渊潭2009年樱花节3月24日开幕,4月10日左右最盛及其他相关信息……思考:1搜不到需要的信息的原因有哪些?2搜索引擎的优缺点?