超级实验报告—关于搜索引擎—高一九班(张国豪)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

搜索引擎分类1全文索引全文搜索引擎是广泛应用的主流搜索引擎,国外代表有Google,国内则有著名的百度、搜搜等。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。[1]根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google和百度就属于此类,百度存在竞价广告;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎在搜索引擎分类部分提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),2蜘蛛搜索引擎搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。随着搜索引擎索引规则发生很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度、出现的位置、频次、链接质量——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。这种引擎的特点是搜全率比较高。2PV与IP实际上就是每个IP浏览的页面次数,同时代表了单个IP浏览的页面深度。试想一下,一个每个IP进入只看一遍页面就退出的网站怎么能称之为好的网站?很多所谓的大流量垃圾网站纯粹是为了流量而做很多的长尾关键词,每天能来1万个IP,却只能拥有2万的PV,那些泛滥的垃圾文章虽然因为搜索引擎瞬时表现不错而吸引了大量的新用户,却因为内容没有任何吸引的地方马上关闭网页,搜索引擎必将记录在案,下次更新时降低权重。因为搜索引擎当然是为用户的角度着想,你如此的“伤害”用户,搜索引擎当然放不过你。3目录索引目录索引也称为分类检索,是因特网上最早提供资源查询的服务,主要通过搜集和整理因特网的资源,根据搜索到网页的内容,将其网址分配到相关分类主题目录的不同层次的类目之下,形成像图书馆目录一样的分类树形结构索引。目录索引无需输入任何文字,只要根据网站提供的主题分类目录,层层点击进入,便可查到所需的网络信息资源。虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo、新浪、搜狐(搜狗)分类目录搜索。与全文搜索引擎相比,目录索引有许多不同之处。首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。4元搜索元搜索引擎(METASearchEngine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。5垂直搜索垂直搜索引擎为2006年后逐步兴起的一类搜索引擎。不同于通用的网页搜索引擎,垂直搜索专注于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索等等),在其特定的搜索领域有更好的用户体验。相比通用搜索动辄数千台检索服务器,垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样。6集合式搜索集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot在2002年底推出的搜索引擎。7门户搜索门户搜索引擎:AOLSearch、MSNSearch等虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。8免费链接免费链接列表(FreeForAllLinks简称FFA):一般只简单地滚动链接条目,少部分有简单的分类目录,不过规模要比Yahoo!等目录索引小很多。10待解问题缺乏检索词汇控制自动标引有局限性缺乏检索专业信息的能力“把关人”缺失工作原理第一步:爬行搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链接,像蜘蛛在蜘蛛网上爬行一样,所以被称为“蜘蛛”也被称为“机器人”。搜索引擎蜘蛛的爬行是被输入了一定的规则的,它需要遵从一些命令或文件的内容。第二步:抓取存储搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦遇到权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不再爬行。第三步:预处理搜索引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理。⒈提取文字⒉中文分词⒊去停止词⒋消除噪音(搜索引擎需要识别并消除这些噪声,比如版权声明文字、导航条、广告等……)5.正向索引6.倒排索引7.链接关系计算8.特殊文件处理除了HTML文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如PDF、Word、WPS、XLS、PPT、TXT文件等。我们在搜索结果中也经常会看到这些文件类型。但搜索引擎还不能处理图片、视频、Flash这类非文字内容,也不能执行脚本和程序。第四步:排名用户在搜索框输入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程与用户直接互动的。但是,由于搜索引擎的数据量庞大,虽然能达到每日都有小的更新,但是一般情况搜索引擎的排名规则都是根据日、周、月阶段性不同幅度的更新。搜索技巧关键字如果想要搜索以鸟为主题的Web站点,您可以在搜索引擎中输入关键字“bird”。但是,搜索引擎会因此返回大量无关信息,如谈论羽毛球的“小鸟球(birdie)”或烹饪gamebirds不同方法的Web站点。为了避免这种问题的出现,请使用更为具体的关键字,如“ornithology”(鸟类学,动物学的一个分支)。您所提供的关键字越具体,搜索引擎返回无关Web站点的可能性就越小。如果你想在网络中搜索到相似的图片,你可以在百度的百度识图,安图搜的购物搜索引擎,Google的以图搜图等等中进行搜索。使用方法:一、上传本地图片二、输入图片URl地址用户通过上传图片或输入图片的url地址,从而搜索到互联网上与这张图片相似的其他图片资源,同时也能找到这张图片相关的信息。购物搜索引擎也是通过上传图片或输入图片的url地址,搜索到全网同款和相似的商品。3优化技巧关键字在搜索引擎中是非常重要的一项,搜索引擎对于关键字的排名是有自己的规则的,而搜索引擎优化,其中的一项主要内容就是对于关键字的建设。搜索引擎优化又称SEO,SEO的主要工作就是将目标公司的关键字在相关搜索引擎中利用现有的搜索引擎规则进行排名提升的优化,使与目标公司相关联的关键字在搜索引擎中出现高频率点击,从而带动目标公司的收益,达到对目标公司进行自我营销的优化和提升。所以,关键字与搜索引擎优化之间是有密不可分的关系的,搜索引擎优化是为了关键字的建设与提升提供了一种新的途径和工具,是在搜索引擎技巧中不可或缺的一部分。运算符许多搜索引擎都允许在搜索中使用两个不同的布逻辑运算符:AND和OR。如果您想搜索所有同时包含单词“hot”和“dog”的Web站点,只需要在搜索引擎中输入如下关键字:hotANDdog搜索将返回以热狗(hotdog)为主题的Web站点,但还会返回一些奇怪的结果,如谈论如何在一个热天(hotday)让一只狗(dog)凉快下来的Web站点。如果想要搜索所有包含单词“hot”或单词“dog”的Web站点,您只需要输入下面的关键字:hotORdog搜索会返回与这两个单词有关的Web站点,这些Web站点的主题可能是热狗(hotdog)、狗,也可能是不同的空调在热天(hotday)使您凉爽、辣酱(hotchillisauces)或狗粮等。留意引擎搜索引擎返回的Web站点顺序可能会影响人们的访问,所以,为了增加Web站点的点击率,一些Web站点会付费给搜索引擎,以在相关Web站点列表中显示在靠前的位置。好的搜索引擎会鉴别Web站点的内容,并据此安排它们的顺序,但其他搜索引擎大概不会这么做。此外,因为搜索引擎经常对最为常用的关键字进行搜索,所以许多Web站点在自己的网页中隐藏了同一关键字的多个副本。这使得搜索引擎不再去查找Internet,以返回与关键字有关的更多信息。正如读报纸、听收音机或看电视新闻一样,请留意您所获得的信息的来源。搜索引擎能够帮您找到信息,但无法验证信息的可靠性。因为任何人都可以在网上发布信息。加减号很多搜索引擎都支持在搜索词前冠以加号(+)限定搜索结果中必须包含的词汇。用减号(-)限定搜索结果不能包含的词汇。9语法查询1.把搜索范围限定在网页标题中——intitle:标题2.把搜索范围限定在特定站点中——site:站名3.把搜索范围限定在[url]url链接中——inurl:链接4.精确匹配——双引号和书名号5.要求搜索结果中同时包含或不含特定查询词——“+”、“-”(减)6.专业文档搜索——filetype:文档格式、使用技巧1、简单查询在搜索引擎中输入关键词,然后点击“搜索”就行了,系统很快会返回查询结果,这是最简单的查询方法,使用方便,但是查询的结果却不准确,可能包含着许多无用的信息。2、使用双引号用给要查询的关键词加上双引号(半角,以下要加的其它符号同此),可以实现精确的查询,这种方法要求查询结果要精确匹配,不包括演变形式。例如在搜索引擎的文字框中输入“电传”,它就会返回网页中有“电传”这个关键字的网址,而不会返回诸如“电话传真”之类网页。3、使用加号(+)在关键词的前面使用加号,也就等于告诉搜索引擎该单词必须出现在搜索结果中的网页上,例如,在搜索引擎中输入“+电脑+电话+传真”就表示要查找的内容必须要同时包含“电脑、电话、传真”这三个关键词。4、使用减号(-)在关键词的前面使用减号,也就意味着在查询结果中不能出现该关键词,例如,在搜索引擎中输入“电视台-中央电视台”,它就表示最后的查询结果中一定不包含“中央电视台”。5、使用通配符通配符包括星号(*)和问号(?),前者表示匹配的数量不受限制,后者匹配的字符数要受到限制,主要用在英文搜索引擎中。例如输入“computer*”,就可以找到“computer、computers、computerised、computerized”等单词,而输入“comp?ter”,则只能找到“computer、compater、competer”等单词。6、使用布尔检索所谓布尔检索,是指通过标准的布尔逻辑关系来表达关键词与关键词之间逻辑关系的一种查询方法,这种查询方法允许我们输入多个关键词,各个关键词之间的关系可以用逻辑关系词来表示。and,称为逻辑“与”,用and进行连接,表示它所连接的两个词必须同时出现在查询结果中,例如,输入“computerandbook”,它要求查询结果中必须同时包含computer和book。or,称为逻辑“或”,它表示所连接的两个关键词中任意一个出现在查询结果中就可以,例如,输入“computerorbook”,就要求查询结果中可以只有computer,或只有book,或同时包

1 / 6
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功