搜索引擎

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

信息检索与分析利用第3章搜索引擎1第3章搜索引擎3.1概述3.2典型的搜索引擎3.3搜索引擎的检索技巧信息检索与分析利用第3章搜索引擎23.1概述3.1.1基本概念3.1.2Internet的主要信息服务类型3.1.3搜索引擎的类型信息检索与分析利用第3章搜索引擎33.1.1基本概念1.搜索引擎搜索引擎是Internet上的一种网站,它的主要任务是在Internet上主动搜索Web服务器信息并将其自动索引,其索引内容存储于可供查询的大型数据库中。一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。2.域名从字面上讲,域名就是Internet上某个区域的名字。可以简单将域名理解为任何一个想要和Internet连接的公司或机构在Internet上的注册地址。完整的域名包括三段,例如“”指的是ibm.com域内的一台名叫的主机。信息检索与分析利用第3章搜索引擎43.1.2Internet的主要信息服务类型URL是一种统一格式的Internet信息资源地址表达方法,是UniformResourceLocator的缩写,全称为“统一资源定位器”。简单地说,就是地址栏里的域名等。它将Internet提供的各类服务统一编址,以便用户通过Web客户程序进行查询。在格式上URL可以分成以下三个基本部分:信息服务类型://信息资源地址/文件路径信息检索与分析利用第3章搜索引擎53.1.2Internet的主要信息服务类型目前编入URL中的信息服务类型有以下几种:服务器。这是主要用于提供超文本信息服务的Web服务器。telnet://Telnet服务器。供用户远程登录使用的计算机。服务器。用于提供各种普通文件和二进制代码文件的服务器。gopher://Gopher服务器。wais://WAIS服务器。news://网络新闻USENET服务器。双斜线“//”表示跟在后面的字符串是网络上的计算机名称,即信息资源地址,以示和跟在单斜线“/”后面的文件路径相区别信息检索与分析利用第3章搜索引擎6举例代表使用超级文本传输协议HTTP提供超级文本信息服务的资源。其计算机域名为,超级文本文件(文件类型为.htm)是在目录/。从域名上可以看出,这是中国教育网络的一台计算机。telnet://odysseus.circe.com:70代表使用远程登录服务协议Telnet提供信息服务的资源。其计算机域名为odysseus.circe.com。使用的端口号是70。这是一家商业公司。代表使用文件传输协议FTP发布文件的资源。其计算机域名为ftp.w3.org,存放对外发送文件的目录是/pub/。使用FTP几乎可以传送任何类型的文件,文本文件、二进制文件、图像文件、声音文件、数据压缩文件等信息检索与分析利用第3章搜索引擎73.1.3搜索引擎的类型•1.根据搜索引擎的数据检索机制划分•2.按检索内容划分•3.按搜索引擎数据来源划分•4.主题搜索引擎的关键词语法规则信息检索与分析利用第3章搜索引擎83.1.3搜索引擎的类型1.根据搜索引擎的数据检索机制划分1)主题型搜索引擎2)分类型搜索引擎3)混合型搜索引擎信息检索与分析利用第3章搜索引擎91主题型搜索引擎•主题型搜索引擎将不断收集到的网上页面及地址信息以数据库的形式组织存贮。•查询时用户向其提问框中输入关键词,搜索引擎便会从数据库中检索与之相匹配的相关记录,按一定的排序返回给用户。•优点:是查询全面、充分,用户能够对各网站的每篇文章中的每个词进行搜索,检索直接、方便,而且可使用布尔逻辑检索、短语检索等高级功能。•缺点:繁多而杂乱的感觉。•代表性的主题型搜索引擎是Google、百度(Baidu)网站。图3-1Google的界面信息检索与分析利用第3章搜索引擎102分类型搜索引擎通过用户浏览层次类型目录来寻找所需信息。分类一般按主题分类,并辅之以年代、地区等分类。网站多以此方式组织。例如:新浪分类目录计算机与互联网硬件行情报价。优点:使用户清晰方便地查找到某一大类信息,尤其适合那些希望了解某一范围内信息,并不严格限于查询关键字的用户。缺点:搜索范围较全文搜索引擎要小许多,尤其是当用户选择类型不当时,可能遗漏某些重要的信息源。代表性的目录式分类搜索引擎是Yahoo、搜狐、新浪网站图3-2Yahoo的目录界面信息检索与分析利用第3章搜索引擎113.1.3搜索引擎的类型2.按检索内容划分•综合型•专题型专门采集某一主题范围的信息资源,并用更为详细和专业的方法对信息资源进行标引描述。•特殊型信息检索与分析利用第3章搜索引擎12综合型搜索引擎综合型搜索引擎在采集标引信息资源时不限制资源的主题范围和数据类型,又称为通用型检索工具。如:Google、百度(Baidu)、AltaVista、Excite、Yahoo等也有这种混合功能。图3-4是Yahoo的检索界面,既有检索窗口,也有分类浏览目录。图3-4Yahoo的检索界面信息检索与分析利用第3章搜索引擎13特殊型检索工具特殊型检索工具指那些专门用来检索某一类型信息和数据的检索工具,如查询地图的检索工具“MapBlast”、查询图像的检索工具“WebSEEK”等。图3-5是地图搜索引擎的界面。图3-5Go2map.com的界面信息检索与分析利用第3章搜索引擎143.按搜索引擎数据来源划分•单独型搜索引擎拥有独立的采集标引机制和独立的数据库•集中型搜索引擎没有自己的数据库,它利用一个统一的界面,查询其他独立的搜索引擎。信息检索与分析利用第3章搜索引擎154.主题搜索引擎的关键词语法规则1)自动将关键词拆分进行模糊查询目前自动将关键词拆分进行模糊查询的搜索引擎有Google、百度(Baidu)、中文雅虎、3721、首都在线等。2)按关键词进行精确查询按关键词进行精确查询的有新浪、搜狐、网易、找到啦、中华网和常青藤等。3)检索式的运算符号(1)使用逻辑运算算符(2)使用位置算符(3)使用字段限定信息检索与分析利用第3章搜索引擎16(1)使用逻辑运算算符搜索引擎基本上都支持“与”、“或”、“非”、括号或引号等逻辑运算符号,不同的搜索引擎使用的逻辑符不完全相同,常见的有“AND”、“OR”、“NOT”以及“+”、“-”、“&”、“^”等逻辑符号“AND”在中文搜索引擎都可以用空格代替;“NOT”有时可以用减号代替,格式如“关键词A-关键词B”,减号前面要有空格。“OR”有时用“|”表示,例如在百度搜索引擎的格式是“关键词A|关键词B”。Google直接用“OR”表示,格式是“关键词AOR关键词B”。信息检索与分析利用第3章搜索引擎17(2)使用位置算符AltaVista使用位置算符“NEAR/n”,n是两个词之间的单词的数目如:“MicrosoftNEAR/5Internet”表示在“Microsoft”和“Internet”这两个关键字之间的单词数目不得超过5个。如果不输入n,表示两个词挨在一起。为了控制挨在一起的两个词之间的顺序,可以使用“ADJ”(adjacent)操作符如:“MicrosoftADJInternet”,表示“Microsoft”必须在“Internet”之前。信息检索与分析利用第3章搜索引擎18(3)使用字段限定搜索引擎的字段限定方法俗称高级搜索。①intitletitle是网页的标题,intitle:A指所有搜索结果的title中都要包含“关键词A”。②sitesite是限定在某类站点或某个网站内搜索。例如“论坛搜索引擎site:sowang.com”,是在sowang这个网站内搜索“论坛搜索引擎”的网页。③filetypefiletype是限定文件类型。用法是“关键词Afiletype:文件格式后缀名”。如“个人年终总结filetype:doc”,搜索结果全都是word文件的个人年终总结。返回目次3.1信息检索与分析利用第3章搜索引擎193.2典型的搜索引擎1.Google2.百度3.搜狐4.新浪网5.其他搜索引擎6.特殊型搜索引擎返回目次信息检索与分析利用第3章搜索引擎203.3搜索引擎的检索技巧•3.3.1常规的检索技巧•3.3.2Google和百度的高级检索技巧信息检索与分析利用第3章搜索引擎213.3.1常规的检索技巧1.分类查询-利用分类搜索引擎2.关键词查询首次检索时不要把条件限制得过于严格,最好是检索出一些结果后再使用其他限定条件,进行二次搜索。初学者搜索时容易犯得错误:混淆单词与词组、关键词太常见,没有检索意义、滥用多义词。3.多次查找4.按照地域查询5.查询最新信息6.其它搜索技巧信息检索与分析利用第3章搜索引擎221.Google高级检索技巧1)短语检索利用“引号”,“iloveyou”德语“我爱你”,查找德语的“我爱你”2)字段限定检索(1)限定网站【实例】输入“金庸site:edu.cn”搜索中文教育科研网站(edu.cn)上所有包含“金庸”的页面。(2)限定网页【实例】输入“inurl:midi沧海一声笑”查找MIDI曲“沧海一声笑”。(3)限定标题【实例】输入intitle:张娜拉写真,搜索张娜拉照片集。(4)限定文件类型【实例】输入“水煮三国chm”,检索chm格式的电子书。

1 / 22
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功