基于JAVA的搜索引擎的设计与实现

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

I摘要网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情。建立搜索引擎就是解决这个问题的最好方法。本文首先详细介绍了基于英特网的搜索引擎的系统结构,然后从网络机器人、索引引擎、Web服务器三个方面进行详细的说明。为了更加深刻的理解这种技术,本人还亲自实现了一个自己的搜索引擎——新闻搜索引擎。新闻搜索引擎是从指定的Web页面中按照超连接进行解析、搜索,并把搜索到的每条新闻进行索引后加入数据库。然后通过Web服务器接受客户端请求后从索引数据库中搜索出所匹配的新闻。本人在介绍搜索引擎的章节中除了详细的阐述技术核心外还结合了新闻搜索引擎的实现代码来说明,图文并茂、易于理解。关键词:搜索引擎;网络蜘蛛;搜索策略IIAbstractTheresourcesintheinternetareabundant,butitisadifficultjobtosearchsomeusefulinformation.Soasearchengineisthebestmethodtosolvethisproblem.Thisarticlefistintroducesthesystemstructureofsearchenginebasedontheinternetindetail,thengivesaminuteexplanationformSpidersearch,engineandwebserver.Inordertounderstandthetechnologymoredeeply,Ihaveprogrammedanewssearchenginebymyself.Thenewssearchengineisexplainedandsearchedaccordingtohyperlinkfromaappointedwebpage,thenindexeseverysearchedinformationandaddsittotheindexdatabase.Thenafterreceivingthecustomers'requestsfromthewebserver,itsoonsearchestherightnewsformtheindexengine,Inthechapterofintroducingsearchengine,itisnotonlyelaboratethecoretechnology,butalsocombinewiththemoderncode,picturesincluded,easytounderstand.KeyWords:Searchengine;Webspider;SearchstrategyIII目录摘要............................................................IAbstract...........................................................II引言............................................................11搜索引擎的结构....................................................21.1搜索引擎系统概述...........................................................................................21.2搜索引擎的构成...............................................................................................21.2.1网络蜘蛛.................................................................................................21.2.2索引与搜索.............................................................................................21.2.3Web服务器............................................................................................31.3搜索引擎的主要指标及分析...........................................................................32网络机器人........................................................42.1什么是网络机器人...........................................................................................42.2网络机器人的结构分析...................................................................................42.2.2Spider程序结构.....................................................................................42.2.3如何构造Spider程序............................................................................52.2.4如何提高程序性能.................................................................................72.2.5网络机器人的代码分析.........................................................................73基于lucene的索引与搜索、tomcat服务器...........................103.1什么是LUCENE全文检索..............................................................................103.2LUCENE的原理分析.......................................................................................103.2.1客户端设计...........................................................................................103.2.2全文检索的实现机制...........................................................................113.2.3Lucene的索引效率..............................................................................113.2.4中文切分词机制..................................................................................133.2.5服务端设计...........................................................................................143.3LUCENE与SPIDER的结合..............................................................................153.3.1如何解析HTML..................................................................................163.4基于TOMCAT的WEB服务器.......................................................................193.5在TOMCAT上部署项目.................................................................................194搜索引擎策略.....................................................214.1简介.................................................................................................................214.2面向主题的搜索策略.....................................................................................214.2.1导向词...................................................................................................214.2.2网页评级...............................................................................................214.2.3权威网页和中心网页...........................................................................22结论...........................................................23参考文献...........................................................24致谢...........................................................251引言面对浩瀚的网络资源,搜索引擎为所有网上冲浪的用户提供了一个入口,毫不夸张的说,所有的用户都可以从搜索出发到达自己想去的网上任何一个地方。因此它也成为除了电子邮件以外最多人使用的网上服务。搜索引擎技术伴随着的发展是引人注目的。搜索引擎大约经历了三代的更新发展:第一代搜索引擎出现于1994年前后。以Altavista,Yahoo和Infoseek为代表,注重反馈结果的数量,主要特征是“求全”。它主要依靠人工分拣的分类目录搜索,通常由网页制作人自行建立网站名称、网站内容的文字摘要,并将其加入到搜索引擎的资料库中。搜索引擎根据用户键入的信息,根据预先设定的规则进行简单的匹配、排序和显示。这种方法只能进行简单的字符串匹配,无法进行全文搜索。研究表明,搜索引擎性能并没有想象中的那么优秀,在全球11个主要的搜索引擎中,搜索引擎仅能搜索到国际互联网上全部页面的16%,甚至更低,造成这种情况的原因,主要是这些搜索引擎没有及时更新资料。第二代搜索引擎,利用超链接分析为基础的机器抓取技术,由搜索引擎使用一个

1 / 28
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功