浅析互联网环境下搜索引擎怎么使用随着网络信息时代的到来,信息检索处于一个互联的网络系统之中,用户、信息检索技术、信息资源构成信息检索三个基本要素。本文首先研究分析了日前网络搜索引擎的发展现状、工作原理、再在此基础上剖析了搜索引擎在检索技术中的各类技巧。关键词:网络工作原理使用方法搜索引擎信息检索一、前言互联网的迅速发展和广泛普及导致网上信息爆炸性增长,资源内容几乎涉及所有领域,已经成为知识、信息的集合体,是人们获取信息的基本工具。在Internet网上进行浏览和检索,就好比进入了世界上最大的图书馆,而这个图书馆里的书刊、杂志、广告、新闻及各种形式的文献信息应有尽有,如果这些信息能被有效的利用,那么互联网将是一个巨大的信息宝库。但是这些信息没有规律地排放着,没有一个中心目录将这些信息组织起来。正是因为Internet资源既丰富又分散且处于无序状态,使得人们在网上查找自己所需的信息并非易事。这时为满足人众信息检索的需求,搜索引擎便应运而生。搜索引擎是指使用某些自动索引软件来发现、收集网络上的信息,然后对收集的网页进行标引,建立一个可供查询的大型数据库。Intemet提供了多种不同的检索工具,它们各自有各自的数据库、语言、检索功能和显示方式,对用户来说,最重要的就是熟悉这些工具的性能,掌握检索技巧,提高检索的命中率。二、搜索引擎的工作原理搜索引擎的工作原理可以简单概括为:1、抓取网页每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。2、处理网页搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分析超链接、计算网页的重要度。3、提供检索服务用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。三、搜索引擎的检索技巧网络信息的大量增加,用户要在如此浩瀚的信息海洋里寻找所需信息,就象大海捞针,无从下手,下面我们来谈谈通过Intemet搜索引擎来检索信息的一些技巧。1、搜索关键词提炼。无庸至疑,选择正确的关键词是一切的开始。学会从复杂搜索意图中提练出最具代表性和指示性的关键词对提高信息查询效率至关重要,这方面的技巧(或者说经验)是所有搜索技巧之母。选择搜索关键词的原则是,首先确定你所要达到的目标,在脑子里要形成一个比较清晰概念,即我要找的到底是什么?是资料性的文档?还是某种产品或服务?然后再分析这些信息都有些什么共性,以及区别于其他同类信息的特性,最后从这些方向性的概念中提炼出此类信息最具代表性的关键词。如果这一步做好了,往往就能迅速的定位你要找的东西,而且多数时候你根本不需要用到其他更复杂的搜索技巧。2、细化搜索条件搜索条件越具体,搜索引擎返回的结果就越精确,有时多输入一两个关键词效果就完全不同。比方说你想查找有关电脑冒险游戏方面的资料,输入game是无济于事的。computergame范围就小一些,当然最好是敲入computeradventuregame,返回的结果会精确得多。3、使用加号(+)、减号(一)限定查找。很多搜索引擎都支持在搜索词前冠以加号(+)限定搜索结果中必须包含的词汇,用减号(一)限定搜索结果不能包含的词汇。4、精确匹配搜索。精确匹配搜索也是缩小搜索结果范围的有力工具,此外它还可用来达到某些其他方式无法完成的搜索任务。利用双引号(英文字符)来进行精确匹配查询(也称短语搜索)。如:computeradventuregames它与+computer+adventure+games的区别是:虽然后者限定网页中要同时包含三个关键字,但其顺序和相邻位置允许是任意的。而前者不仅要求网页中必须同时包含三个关键字,关键字的顺序也要求完全相同,并且它们必须还是挨在一起的,所以带“”号的查询范围更小。此外使用号进行精确匹配查询还可用于达到我们特殊的搜索目的。比如一般情况下“who”、“i”作为停用词被搜索引擎忽略,但有时在搜索特别类型的信息时又必须包含这些停用词(如搜索影片名称“WhoAmI”),这时我们就可以将全部关键词用“”号引起来,就可以强制搜索引擎将停用词作为短语的一部分进行搜索。5、灵活运用使用通配符。很多搜索引擎支持通配符号,如“*”代表一连串字符,“?”代表单个字符。6、使用逻辑词辅助查找。比较大的搜索引擎都支持使用逻辑词进行更复杂的搜索界定,常用的有:AND(和)、OR(或)、NOT(否)及NEAR(两个单词的靠近程度),恰当应用它们可以使搜索结果非常精确。另外,也可以使用括号将搜索词分别组合,如[(新闻OR足球)AND米卢)NoT新闻”OR足球)7、尽可能将搜索范围限制在特定的领域里。比如在yahoo中文网站中,你要查找的是与电脑相关的知识,那么你没有必要让搜索引擎在休闲与运动、健康与医药、艺术与人文等其他分类中查找。你可以进入“电脑与因特网”这一类,选中“检索此目录下的网站”。然后再开始搜索。8、特殊搜索命令除一般搜索功能外,搜索引擎都提供一些特殊搜索命令,以满足高阶用户的特殊需求。比如查询指向某网站的外部链接和某网站内所有相关网页的功能等等。这些命令虽不常用,但当有这方面搜索需求时,它们就大派用场了。如:①标题搜索多数搜索引擎都支持针对网页标题的搜索,命令是“title:”,在Yahoo中是“t:”(注意冒号为英文字符且后面不跟空格)。在进行标题搜索时,前面提到的逻辑符号和精确匹配原则同样适用。请看下面的例子:·title(或t):computeradventuregames·title:+computer+adventure+games·title:+computer+games-adventure·title:computeradventuregames返回的结果都是标题中包含关键字、词的信息条目。②网站搜索此外我们还可以针对网站进行搜索,命令是“site:”(Google)、“host:”(AltaVista)、“url:”(Infoseek)或“domain:”(HotBot)。如想查找AAA游戏制作公司网站的所有网页,可以输入:·site(或host/url/domain):还可以在其中加入其他命令组成复杂的搜索条件,如:·site::computergames-adventure意思是查找AAA公司网站中所有标题里含有computergames的网页,但排除关于冒险游戏的网页。说到这里大家可能已经意识到了,运用此命令我们可以达到一个极其重要的目的,就是检查我们的网站被索引的网页有多少。因此建议大家牢记这个命令。另外运用“site/host/url/domain”等搜索命令还可实现某一网站的站内搜索。比如Google引擎由于技术的先进性,通过其“site”命令实现的网站内部搜索甚至比专门的站内搜索程序还要好。③链接搜索在Google和AltaVista中,用户均可通过“link:”命令来查找某网站的外部导入链接(inboundlinks)。如:·link:其他一些引擎也有同样的功能,只不过命令格式稍有区别。你可以用这个命令来查看是谁以及有多少网站与你做了链接。9、附加搜索功能为方便查询信息,各搜索引擎还提供了其他一些附加搜索功能。比如:■单词衍生形态查询当输入“thought”时,如果选择了此功能,搜索引擎除以“thought”为条件搜索外,还会以“think”、“thinking”等同词根的词进行查询。■网页快照(SnapShot)直接从引擎数据库缓存(Cache)中调出该网页的存档文件,方便用户在预览网页内容后决定是否访问该网站,或是在对应网页发生变动时查看原始页面。通常缓存中保存的是网页的文字部分,图象等多媒体元素还是要实时从对应的网站上下载。与其他附加功能相比,“网页快照”还是相当实用的。与网页快照相类似的还有一种“网页预览”功能(如WiseNut引擎的“Sneek-a-Peek”),当用户选择此功能时,将在该条目下方打开一个窗口下载并显示对应的网页内容。■网站内部查询当你找到某个网页,搜索引擎提供查询该网站其他页面的功能。类似“site:”、“host:”等命令。■横向相关查询当用户找到某个感兴趣的网页,搜索引擎提供查询内容近似的其他网页的功能(不限于同一网站)。一般是在信息条目后面给出“SimilarPages”或“Moreresultslikethis”链接。■概念延伸查询以某个关键词查询时,搜索引擎列出相关领域的其他搜索条件供你选择。比如输入“furniture”,它会列出“outdoorfurniture”、“patiofurniture”、“officefurniture”等相关的信息类别供查询。10、有针对性地选择搜索引擎。用不同的搜索引擎进行查询得到的结果常常有很大的差异,这是因为它们的设计目的和发展走向存在着许多的不同,搜索引擎分几种,工作方式也不同,因而导致了信息覆盖范围方面的差异。我们平常搜索仅集中于某一家搜索引擎是不明智的,因为再好的搜索引擎也有局限性,合理的方式应该是根据具体要求选择不同的引擎。我们日常信息需求大致可分为两种,一种是寻找参考资料,另一种是查询产品或服务,那么对应的搜索引擎选择就应该是全文搜索引擎(Full-TextSearchEngine)和目录索引(SearchDirectory)。为什么?对前一种需求来说,由于目标非常具体,而目录索引中链接条目所容纳的信息量有限,无法满足我们的要求,因此全文搜索引擎便自然成了我们的选择。按照全文搜索引擎的工作原理,它从网页中提取所有的文字信息,所以匹配搜索条件的范围就大得多,也就能满足哪怕是最不着边际的信息需求。这也就是为什么现在多数目录索引都采用其他全文搜索引擎提供二级网页搜索的原因。相反,如果我们找的是某种产品或服务,那么目录索引就略占优势。因为网站在提交目录索引时都被要求提供站点标题和描述,且限制字数,所以网站所有者会用最精练的语言概括自己的业务范围,让人看来一目了然。而多数全文搜索引擎直接提取网页标题和正文作为链接的标题和描述。用过全文搜索引擎的人都有这样的体会,就是搜索结果显示的信息往往过于杂乱,让人无法一眼就判断出该网站的性质。此外,当你要搜集某一类的网站资料时,目录索引的分类目录就是你天然的宝库。四、结束语要完成一个有效的搜索,首先要确定要检索的主题,选择合适的检索工具、抽取适当的关键词。为避免可能出现搜索结果的冗余性,要尽可能限制查询范围,正确构造检索式。同时要使用逻辑条件限制及模糊或精确查询的功能保证能真正检索到我们所需的网络信息资源。总之,只要掌握一定的方法与技巧并经常实践.利用搜索引擎一定能从网上获取许多有价值的信息。由于网上信息具有动态性、多变性,今天能看到的信息也许明天便不复存在,要注意对检索到的有价值信息的进行保存。