Internet信息检索工具—搜索引擎简单地说,所谓搜索引擎,就是采用信息自动跟踪标引等技术、建立在因特网上专门提供网络信息资源导航服务检索工具。它能够通过Internet接受用户的查询指令,并向用户提供符合其查询要求的信息资源网址。1、什么是搜索引擎?它是一些在Web中主动搜索信息(网页上的单词和特定的描述内容)并将其自动索引的Web网站,其索引内容存储在可供检索的大型数据库中,建立索引和目录服务。一些搜索引擎搜索网页的每一个单词,而另一些搜索引擎则只搜索网页的前二百至五百个单词。当用户输入关键词(Keyword)查询时,该搜索引擎会告诉用户包含该关键词信息的所有网址,并提供通向该网络的链接。搜索引擎既是用于检索的软件又是提供查询、检索的网站。所以,搜索引擎也可称为Internet上具有检索功能的网页。2、搜索引擎的工作原理搜索引擎由网上机器人(Spider或Robot)自动在网页上按某种策略进行远程数据的搜索与获取,并生成本地索引。Spider或Robot是一种软件,它沿着文件的链接在网上漫游,记录URL、文件的简明摘要、关键字或索引,形成一个很大的数据库,这种数据库包括标题、摘要、关键词和URL、文件的大小、语种以及词出现的频率。Internet网页自动分类子系统网页搜集子系统信息检索子系统资源索引数据库管理子系统搜索界面通用搜索引擎系统结构3.搜索引擎的构成一个搜索引擎由搜索器、索引器、检索器和用户接口4个部分组成。(1)搜索器即通常所说的蜘蛛(Spider)、机器人(Robot)、爬行者(Webcrawler)等,搜索器的功能是在Internet中漫游,发现和搜集信息。还要定期更新已经搜集过的旧信息,避免死链接和无效链接。(2)索引器即索引软件,主要是用于对网络搜索软件采集到的网页信息进行自动标引,建立可供检索的Web索引数据库。(3)检索器检索器作为用户提问与数据库的接口,负责接收用户查询请求和对该请求进行检索,对将要输出的结果进行排序,并将检索结果返回用户界面。搜索引擎的数据检索方式主要是关键字的匹配方式,如泛匹配、模糊匹配、正则匹配以及多关键字的处理方式等。并对查询结果根据某种算法和规则评分和排序。(4)用户接口供用户输入查询,显示匹配结果。用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。4、搜索引擎的主要任务(1)信息搜集各个搜索引擎都派出绰号为蜘蛛(Spider)或机器人(Robots)的“网页搜索软件”,在各网页中爬行,访问网络中公开区域的每一个站点并记录其网址,将它们带回搜索引擎,从而创建出一个详尽的网络目录。由于网络文档的不断变化,机器人也不断地把以前已经分类组织的目录更新。(2)信息处理将“网页搜索软件”带回的信息进行分类整理,建立搜索引擎数据库,并定时更新数据库内容。在进行信息分类整理阶段,不同的搜索引擎会在搜索结果的数量和质量上产生明显的差异。有的搜索引擎把“网页搜索软件”发往每一个站点,记录下每一页的所有文本内容,并收入到数据库中从而形成全文搜索引擎;而另一些搜索引擎只记录网页的地址、篇名、特点的段落和重要的词。故有的搜索引擎数据库很大,而有的则较小。当然,最重要的是数据库的内容必须经常更新、重建,以保持与信息世界的同步发展。(3)信息查询每个搜索引擎都必须向用户提供一个良好的信息查询界面,一般包括分类目录及关键词两种信息查询途径。分类目录查询是以资源结构为线索,将网上的信息资源按内容进行层次分类,使用户能依线性结构逐层逐类检索信息。关键词查询是利用建立的网络资源索引数据库向网上用户提供查询“引擎”。用户只要把想要查找的关键词或短语输入查询框中,并按“Search”按钮,搜索引擎就会根据输入的提问,在索引数据库中查找相应的词语,并进行必要的逻辑运算,最后给出查询的命中结果(均为超文本链接形式)。用户只要通过搜索引擎提供的链接,就可以立刻访问到相关信息。5、搜索引擎的种类检索型搜索引擎:它使用自动索引软件来发现、收集并标引网页,建立数据库,并以Web形式让用户找到所需信息资源。比较著名的有:AltaVista、Google、天网、百度、悠游等。目录型搜索引擎:这类引擎将信息系统地分门归类,经过人工整理后形成庞大而有序的分类目录体系,用户可以在目录体系的导引下通过逐级浏览,发现、检索到有关的信息。雅虎就是以卓越的分类目录型导航服务而称誉全球,典型的分类目录搜索引擎如Yahoo()混合型搜索引擎:它兼有检索型和目录型两种方式。如:新浪、搜狐、网易、中华等门户网站。多元搜索引擎:也称为集合型搜索引擎。它是将多个搜索引擎集成在一起,通过统一的检索界面进行网络信息多元搜索的检索工具。按照工作方式的不同可分为并行处理式和串行处理式两大类。著名的有:Metacrawler、Dogpile、Mamma和万维搜索(Http:///)等。6.搜索引擎的一般搜索规则利用搜索引擎既可以检索出Internet上的文献信息,还可以查找到公司和个人的信息;既可以通过输入单词、词组或短语进行检索,还可以使用逻辑算符及位置算符等对多个词进行组合检索;既可以以词语查询有关主题的页面信息,也可以以特定的域名、主机名、URL等查找有关的网站信息。搜索引擎是基于一些基本的查询规则来实现这些查询条件的,但各个搜索引擎所采用的查询规则又不尽相同。下面介绍的是常用的一般查询规则。(1)布尔逻辑算符逻辑“与”逻辑“与”一般用“AND”表示,有的搜索引擎还可以用“&”表示。使用逻辑“与”是为了要求检索结果的Web页面中同时出现所有输入的检索词,提高查准率。逻辑“或”逻辑“或”一般用“OR”表示,有的搜索引擎还可以用“|”表示。使用逻辑“或”是为了允许检索结果的Web页面中出现输入检索词的任何一个,提高查全率。逻辑“非”逻辑“非”一般用“NOT”表示,有的搜索引擎还可用“!”表示。使用逻辑“非”是为了要求检索结果的Web页面中出现NOT前的检索词,但排除含有NOT后的检索词的页面信息,以缩小检索范围。(2)空格、逗号、括号、引号的作用空格空格的作用与逻辑“与”(AND)相同。例如:检索式“aircraftengine”,表示可查出含有“aircraft”及“engine”的页面。在汉字作为关键词输入时,切记不要在构成关键词的两个字之间插入空格,否则,就会发生两个字之间进行逻辑“与”的检索错误。例如:用户要查找“飞机”这个关键词,但却输入了“飞机”,由于“飞”和“机”两字之间插入了空格,而被处理为“与”的关系,查出所有同时含有“飞”和“机”两个字的页面。这个检索结果的范围要比“飞机”作关键词的结果扩大了很多,许多结果中已不含有与“飞机”相关的信息。逗号逗号(,)的作用类似于逻辑“或”(OR),也是查找那些至少含有一个指定关键词的页面,区别是,检索结果输出时,包含指定关键词越多的页面,其排列的位置越靠前。例如,检索式“计算机,网络,多媒体”,可查出包含三个关键词中的任何一个或几个的页面,而同时含有“计算机”、“网络”和“多媒体”的页面输出时排在前面。括号括号“()”的作用是使括在其中的运算符优先执行,用于改变复杂检索式中固有逻辑运算符优先级的次序。例如,检索式“多媒体and(计算机or网络)”,表示要求先执行括号中的“OR”运算,再执行括号外的“AND”运算。引号引号(“”)的作用是,括在其中的多个词被当作一个短语来检索。绝大部分主要搜索引擎都支持短语检索,找到含有与短语词序和意义完全相同的页面。例如,检索式“electronicmagazine”,表示把electronicmagazine当作一个短语来搜索。如果不加引号,搜索引擎就会把两词之间的空格按“与”处理,查出包含electronic和magazine的页面,结果应与用户要求的主题内容相去甚远。(3)截词符、连接符、邻近符截词符截词符一般用星号(*)表示。当“*”置于一个词的未尾时,表示将相同词干的词全部检索出来。例如;检索式“compu*”,则表示可以检索到computer、computing、compulsion等词。有一些搜索引擎支持自动截词,用户不需要专门输入截词符,系统自动将相同词干的词全部找出来。注意:“*”不能用在检索词的开始和中间。连接符连接符有加号(+)和减号(-)。在检索词前使用“+”时,表示所有检索结果的页面中都必须包含该词。例如:检索式“+A+B”,表示查得的页面中应出现“A”和“B”方面的信息;而检索式“A+B”,则表示在检索结果页面中一定含有“B”,但不一定有“A”的信息。检索词前使用“-”时,表示任何检索结果的页面中都不能包含该词。例如:检索式“microwave-ceramic”,则表示查找关于microwave的页面,但排除那些和ceramic有关的页面。邻近符邻近符(NEAR)用于检索在一定区域范围内同时出现的检索词的文献,它指定了检索词之间的距离。用NEAR/n(n为1,2,3…)精确控制检索词之间的距离,表示检索词的间距最大不超过n个单词。例如:检索式“Computernear/10Network”,可查找出computer和Network两词之间插入不大于10个单词的文献,检索结果输出时,间隔越小的排列位置越靠前。(4)限定字段检索限定字段检索,即限定检索词在搜索引擎数据库中某个字段范围进行查找,如网页标题、站点、网址、链接等。①标题检索网页标题通常是对网页内容提纲挈领式的归纳。把查询内容范围限定在网页标题中,有时能获得良好的效果。标题检索就是在网页的标题中查找输入的检索词,使用的命令一般是“title”,其格式为:intitle:检索式例如:intitle:marsintitle:“marslandings”②站点检索站点检索就是在网站地址域名中检索输入的词,以查找用户指定站点上的所有页面。使用的命令一般是“site”,其格式为:site:域名中的词例如,检索式“site:digital.com”,表示可以检索出服务器中主机名为“digital.com”的网页。假如想要查找关于火星着陆方面的资料,并且只想在教育网站(后缀为.edu)中查找,可以输入这样的检索式:“marslandings”+site:edu注意:网站地址前不能带“http://”site:是错误写法。site:和站点名之间,不要带空格。③在网址中搜索网页url中的某些信息,常常有某种有价值的含义。于是,如果对搜索结果的url做某种限定,就可以获得良好的效果。有些搜索引擎提供在URL的文本中进行检索的功能,这和站点检索非常相似。使用的命令一般是“inurl”,其格式为:inurl:URL中的词例如,找关于photoshop的使用技巧,可以这样查询:photoshopinurl:jiqiao上面这个查询串中的“photoshop”,是可以出现在网页的任何位置,而“jiqiao”则必须出现在网页url中。再如,检索式“inurl:home.html”可以检索出在网页地址中含有“home.html”的页面。注意,inurl:语法和后面所跟的关键词,不要有空格。④链接检索链接检索就是在与特定网页或网域有链接的所有网页中进行检索。使用的命令一般是“link”,其格式为:link:特定网页或域中的词例如,“link:”将找出所有指向Google主页的网页。不能将link:搜索与普通关键词搜索结合使用。⑤专业文档搜索很多有价值的资料,在互联网上并非是普通的网页,而是以Word、PowerPoint、PDF等格式存在。要搜索这类文档,很简单,在普通的查询词后面,加一个“filetype:”文档类型限定。百度支持对Office文档(包括Word、Excel、Powerpoint)、AdobePDF文档、RTF文档进行了全文搜索。Google已经可以支持13种非HTML文件的搜索。除了PDF文档,G