DLibExamFileUpload崔开源06-2-1搜索引擎的原理与检索技巧20110328153

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

搜索引擎——原理与搜索方法一、搜索引擎的概念和分类1、搜索引擎概念就是在Internet上执行信息搜索的专门站点,它们可以对主页进行分类与搜索。如果输入一个特定的搜索词,搜索引擎就会自动进入索引清单,将所有与搜索词相匹配的内容找出,并显示一个指向存放这些信息的连接清单。2、搜索引擎的分类搜索引擎按其工作方式主要可分为三种:全文搜索引擎(FullTextSearchEngine)如:Google、Baidu、Yahoo、Bing目录索引类搜索引擎(SearchIndex/Directory)如:搜狐、新浪、网易、Yahoo元搜索引擎(MetaSearchEngine)如:搜索引擎之上的搜索引擎。3、全文搜索引擎工作原理全文搜索引擎是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。全文搜索引擎都拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用。全文搜索引擎工作原理搜索引擎的自动信息搜集功能分两种。一种是每天24小时不间断地,搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库;另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。全文搜索引擎工作原理当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。全文搜索引擎工作原理关于网站搜索的更新频率:百度搜索可以设定网站的更新频率和时间,一般对于大网站更新频度很快,而且会专门开设独立的爬虫进行跟踪,不过百度是比较勤奋的,中小网站一般也会每天更新。因此,如果你希望自己的网站更新得更快,最好是在大型的分类目录(例如yahoosina网易)中有你的链接,或者在百度自己的相关网站中,有你网站的超链接,在或者你的网站就在一些大型网站里面,例如大型网站的blog。全文搜索引擎工作原理关于采集的深度百度搜索可以定义采集的深度,就是说不见得百度会检索你网站的全部内容,有可能只索引你的网站的首页的内容,尤其对小型网站来说。关于对时常不通网站的采集百度对于网站的通断是有专门的判断的,如果一旦发现某个网站不通,尤其是一些中小网站,百度将自动停止往这些网站派出爬虫。搜索引擎一般系统流程谷歌搜索排名技术对于搜索来说,谷歌强于百度,主要的原因就是谷歌更加公正,而百度有很多人为的因素(这也符合我国的国情),google之所以公正,源于他的排名技术PageRank。很多人知道PageRank,是网站的质量等级,越小表示网站越优秀。其实PageRank是依靠一个专门的公式计算出来的,当我们在google搜索关键词的时候,页面等级小的网页排序会越靠前,这个公式并没有人工干预,因此公正。PageRank的最初想法来自于论文档案的管理,我们知道每篇论文结尾都有参考文献,假如某篇文章被不同论文引用了多次,就可以认为这篇文章是篇优秀的文章。同理,简单的说,PageRank能够对网页的重要性做出客观的评价。PageRank并不计算直接链接的数量,而是将从网页A指向网页B的链接解释为由网页A对网页B所投的一票。这样,PageRank会根据网页B所收到的投票数量来评估该页的重要性。此外,PageRank还会评估每个投票网页的重要性,因为某些网页的投票被认为具有较高的价值,这样,它所链接的网页就能获得较高的价值。补充:谷歌搜索排名技术PageRank的公式这里省略,说说影响PageRank的主要因素1、指向你的网站的超链接数量(你的网站被别人引用),这个数值越大,表示你的网站越重要,通俗的说,就是其它网站是否友情链接,或者推荐链接到你的网站;文章来源2、超链接你的网站的重要程度,意思就是一个质量好的网站有你的网站的超链接,说明你的网站也很优秀。3、网页特定性因素:包括网页的内容、标题及URL等,也就是网页的关键词及位置。目录索引工作原理目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。目前,搜索引擎与目录索引有相互融合渗透的趋势。目录索引工作原理与全文搜索引擎相比,目录索引有许多不同之处。首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤其象Sina这样的超级索引,登录更是困难。目录索引工作原理此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录(Directory)。最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。4.1主要的中文搜索引擎中文雅虎搜狐新浪网网易天网搜索二、Altavista(http//)Altavista是由前DEC公司于1995年开发的,Internet上最大的搜索引擎,在它的搜索数据中包含了2,200万个主页、3,000万个URL和13,000个新闻组的全文信息。Altavista的搜索范围非常大,就连一些鲜为人知的偏僻站点也能找到,因此它的搜索结果十分丰富。三、Excite(http//.excite.com)Excite是Internet上的一个经典的搜索引擎,也是最受欢迎的搜索引擎之一。它收集了5000万个网页信息,其网页索引是一个全文数据库。Excite最大的特点是提供概念检索,即搜索引擎不仅查找包含关键词的主页,还查找包含与关键词有关的概念的主页。一、Yahoo!)4.2主要的英文搜索引擎四、Lycos(http://)Lycos创立于1995年,是Internet上资格最老的搜索引擎之一。它的特点是功能强大,搜索范围广。它几乎覆盖了Internet上90%的主页,可以进行包括、FTP与Gopher等多种服务的搜索。由于Lycos的学术背景,它可以搜索到其他搜索引擎找不到的偏僻站点,比如一些面向教育或非赢利组织的站点。5、检索技巧分析检索的主题选择合适的搜索引擎抽取适当的关键词正确构造检索式及时调整检索策略分析检索的主题了解查询目的和要求,确定需要的信息类型(全文、文本、图像、声音等)查询方式(浏览、分类检索、关键词检索等)查询范围(全文、网页、标题、FTP、软件、外文等)查询时间选择合适的搜索引擎要选择合适的检索工具时,就要先了解所要使用的搜索引擎GOOGLE特点:有庞大的数据库,提供全面的结果信息,例如,文章的日期,大小等等。可搜索所有网站,快速有效的搜索到自己所需内容,是一个快速、强大的搜索引擎,它具有足够的响应能力来处理任何极度复杂的搜索,用户界面相当好。并且具有一定的大写、名词识别能力的快速搜索引擎,它的数据库是最大的,能找到别的搜索引擎所不能找到的东西。选择合适的搜索引擎雅虎!是一个涵盖全球120多亿网页(其中雅虎中国为12亿)的强大数据库,拥有数十项技术专利、精准运算能力,支持38种语言,近10,000台服务器,服务全球50%以上互联网用户的搜索需求。选择合适的搜索引擎百度百度搜索引擎拥有目前世界上最大的中文搜索引擎,总量超过3亿页以上,并且还在保持快速的增长。百度搜索引擎具有高准确性、高查全率、更新快以及服务稳定的特点,在中文搜索方面,百度甚至比GOOGLE更胜一筹。选择合适的搜索引擎搜狐分类目录主题分类,500,000优选网站,人工精选分类Google网页目录=zh-CN&tab=wdGoogle的网路目录内容是依据『OpenDirectory』,经由全球各地的义务编辑人员精心挑选,再由Google著名的『网页级别』技术(专利申请中)分析,让网页依照其重要性先后排列出,并透过网页介绍里的横线长度,来标明此网页的重要程度。网易搜索分类目录一个由网上的志愿人员编辑的分类网站目录。新浪搜索分类目录由新浪搜索专业编辑挑选和分类的网站结果。抽取适当的关键词如何抽取关键词:使用名词或物体做关键词检索式中使用2-3个关键词要注意同义词、近义词、相关词或同一术语的不同表达方式。如,internet、web、、thenet对固定短语,用“”括起来进行检索,以提高检索的精确度。如,“worlewideweb”及时调整检索策略扩大检索范围:检索结果为0或太少时,就需要扩大检索范围使用同义词、近义词或相关词减少最不重要的概念词,或使用较普遍的词,或改用上位词。利用某些搜索引擎的自动扩检功能进行相关检索。使用多个搜索引擎。及时调整检索策略缩小检索范围:如果得到的检索结果太多,或检索结果不相关,则需要缩小检索范围。使用布尔逻辑使用词组检索使用高级检索语法6、搜索引擎的发展趋势一个好的搜索引擎,不仅数据库容量要大,更新频率、检索速度要快,支持对多语言的搜索,而且随着数据库容量的不断膨胀,还要能从庞大的资料库中精确地找到正确的资料搜索引擎的发展趋势⒈提高搜索引擎对用户检索提问的理解。为了提高搜索引擎对用户检索提问的理解,就必须有一个好的检索提问语言。为了克服关键词检索和目录查询的缺点,现在已经出现了自然语言智能答询。用户可以输入简单的疑问句,比如“如何能杀死计算机中的病毒”,搜索引擎在对提问进行结构和内容的分析之后,或直接给出提问的答案,或引导用户从几个可选择的问题中进行再选择。自然语言的优势在于,一是使网络交流更加人性化,二是使查询变得更加方便、直接、有效。就以上面的例子来讲,如果用关键词查询,多半人会用“病毒”这个词来检索,结果中必然会包括各类病毒的介绍,病毒是怎样产生的等等许多无用信息,而用“如何能杀死计算机中的病毒”检索,搜索引擎会将怎样杀死病毒的信息提供给用户,提高了检索效率。搜索引擎的发展趋势⒉垂直主题搜索引擎有着极大的发展空间。网上

1 / 30
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功