搜索引擎关键技术研究及性能优化―基于Lucene的全文检索技术的研究与应用

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

江南大学硕士学位论文搜索引擎关键技术研究及性能优化—基于Lucene的全文检索技术的研究与应用姓名:赵旭申请学位级别:硕士专业:计算机应用技术指导教师:须文波20080801搜索引擎关键技术研究及性能优化—基于Lucene的全文检索技术的研究与应用作者:赵旭学位授予单位:江南大学相似文献(10条)1.学位论文姜华基于Lucene面向主题搜索引擎的研究与设计2007随着信息化的高速发展,信息量正以指数规律迅猛增长,互联网已经成为人类最重要的海量信源,“信息迷航”和“信息过载”已经成为日益严重的问题。基于Internet的各类搜索引擎应运而生并得到了迅速发展。Google,Yahoo等通用搜索引擎功能虽然非常强大,但是当使用它们来检索某些特定专业的信息时,通用搜索引擎系统就有些力不从心。面向主题的搜索引擎是一种分类细致精确、更新及时的搜索引擎。随着Internet信息的爆炸增长以及信息多元化的发展,主题搜索引擎正成为研究热点与发展趋势。本文就面向主题搜索引擎的关键技术进行了研究,并提出了一种基于Lucene面向主题搜索引擎解决方案,研究实现了求职帮助信息主题搜索引擎。本文的主要叙述过程如下:首先,叙述了搜索引擎的发展背景和发展现状及特点,回顾了搜索引擎的发展历史,比较了通用搜索引擎和主题搜索引擎的区别,体现了主题搜索引擎在专业搜索方面的优势。其次,对面向主题搜索引擎的关键技术分三大模块即:主题信息抓取、索引和检索进行了深入分析和研究。研究了主题机器人与普通机器人的区别和搜索策略。重点研究了基于Java的全文索引引擎工具包Lucene,分析了Lucene与传统数据库相比的不同之处,体现了利用Lucene进行索引和检索的高效性、准确性。然后,基于以上关键技术,提出了求职帮助信息主题的搜索引擎设计方案。包括系统设计思想,技术策略,结构框架,开发环境等。接着,将设计付诸实践。详细介绍了基于Lucene的应聘帮助信息主题搜索引擎的具体实现过程。并对系统运行情况和结果进行了展示。最后,对论文的各项工作进行了总结,并指出了今后发展方向和进一步的工作,以便以后不断更新和完善。基于Lucene的求职帮助信息主题搜索引擎系统,保证了对求职帮助信息的完全收录与及时更新,避免了强大的搜索噪音,提高了检索效率,能快、全、准地提供专题信息查询。本论文的主要研究内容:1.研究分析了通用搜索引擎和主题搜索引擎的关键技术。2.对ApacheLucene全文索引引擎工具包进行了深入剖析,比较了Lucene检索和传统数据库检索的异同,以及中文切分词技术。3.在分析研究了主题搜索引擎关键技术的基础上,提出了求职帮助信息主题的搜索引擎设计方案。4.深入剖析了在设计实现中运用的关键技术,并在剖析的基础上进行了扩展及二次开发,设计实现了基于Lucene的应聘帮助主题搜索引擎。2.期刊论文陶艳琳.朱敏.杨云.TAOYan-lin.ZHUMin.YANGYun一种基于Lucene搜索引擎库的本体映射方法-现代计算机(专业版)2008,(10)提出一种基于Lucene搜索引擎库的本体映射方法,该方法利用了Lucene的特点,为源本体建立一个Lucene文档形式的索引,在索引中收集了关于URlrefs的语言信息;然后利用目标本体的URIrefs来作为搜索条件,针时源本体建立的索引进行搜索,从而得到映射.性能分析结果表明,该方法与其他方法相比,在查准率和查全率上有绝对的优势.3.期刊论文王琦.张戈.何婧基于Lucene与Heritrix的图书垂直搜索引擎的研究与实现-计算机时代2010,(2)垂直搜索引擎是针对某一领域的搜索引擎,它可以帮助用户在海量数据面前进行快速、专业、精准的检索.文章研究了垂直搜索引擎的特点,对Lucene与Heritrix的架构与主要模块功能进行了分析,设计并开发了图书垂直搜索引擎系统,为用户提供快捷、专业的图书信息检索服务.4.期刊论文任惠静基于Lucene的面向主题搜索引擎的索引技术的研究-电脑知识与技术2010,6(4)该文简要介绍了搜索引擎的基本概念以及Lucene的工作原理和结构.并根据一个实例说明了Lucene中创建索引的核心过程,并对Lucene相关基础排序算法的改进算法进行讨论.5.期刊论文匡振国.倪宏.嵇智辉.刘磊.KUANGZhen-guo.NIHong.JIZhi-hui.LIULei一种基于Lucene的影片搜索引擎的研究和应用-计算机工程与应用2008,44(29)Lucene是一个优秀的开源搜索引擎框架,已经广泛应用于信息搜索领域.分析点播门户中现有的搜索引擎存在的不足,设计一种基于双字哈希算法支持中文的分词器,并利用该分词器和Lucene工具包,设计并实现了一个视频点播影片快速搜索引擎,它不仅支持中文检索,还具有搜索速度快、易于扩展等优点.仿真实验证明提出的基于Lucene的影片搜索引擎具有良好的性能.6.学位论文殷卫霞基于Lucene的数码产品垂直搜索引擎的设计与实现2008互联网作为人类最重要的信息来源,“信息迷航”和“信息过载”已经成为日益严重的问题。基于Internet的各类搜索引擎应运而生,并得到了迅速发展。传统的通用搜索引擎功能虽然非常强大,但是当使用它们来检索某些特定的专业信息时,通用搜索引擎系统有时就显得力不从心。面向主题的搜索引擎是一种分类细致精确、更新及时的搜索引擎,正成为信息搜索技术研究中的研究热点与发展趋势。本文以用户对数码产品搜索需求为研究背景,采用垂直搜索理念和技术,将国内互联网上的数码产品网站中的数码产品信息内容作为采集对象,在开源的全文检索工具软件包Lucene的基础上,研究和实现了对数码产品信息具有专业化搜索功能的搜索引擎。主要工作如下:1.在对数码产品搜索业务分析的基础上,分析并确定了系统的基本功能需求和最终目标,运用UML分析设计技术和系统三层架构思想,详细论述了系统的功能设计和数据库设计以及系统数据备份策略。2.对基于Java的Lucene全文搜索引擎所提供的索引功能和检索功能进行了深入分析,以此为基础建立搜索引擎的索引器和检索器。3.在设计的采集器中加入了主题预测算法,使其适合于主题搜索引擎。4.对Lucene中的原排序算法进行了改进,提高检索结果的质量。5.以WindowsXP+Tomcat+JSP+MySQL为开发环境,设计和实现了数码产品垂直搜索引擎核心模块。实践表明,本文设计和实现的数码产品垂直搜索引擎的方案是切实可行的,系统基本达到了预期的设计目标。7.学位论文花洁基于Lucene的搜索引擎应用与研究2009随着快速增长的网络信息资源,人们很关切如何从互连网上找出对用户有价值的信息。搜索引擎解决了用户检索网络信息的难题,它是人们获取信息极为有效的工具。随着越来越深入的研究搜索引擎,搜索引擎技术正在不断的向前发展。未来的竞争不仅限于互联网,本机、局域网、企业网内部以及无线网都将被包括在内。而搜索引擎的设计与实现是一项庞大的工程,要运用较多专业技术知识,所以也成为了一大难点。本文首先对搜索引擎的相关知识和工作原理进行了介绍,在实现搜索引擎过程中所使用的索引和搜索技术进行探讨并对搜索引擎的性能指标进行了描述。其次研究Lucene,分析Lucene实现全文索引和检索的过程,并对中文分词及其相关技术进行了叙述。针对Lucene的页面优先算法不足,论文还提出了一种综合利用PageRank算法和DirectHit算法并考虑到分层结构的页面优先算法,以提高系统搜索性能。基于以上关键技术,论文采用.NET平台的开发环境,提出了一种基于Lucene的搜索引擎解决方案,并完成该模拟系统。最后,在实现模拟系统对其所使用的技术和方法进行总结,为设计出更优化的搜索引擎指出方向和方法,使其能更一进提高搜索引擎的工作性能。8.期刊论文严良达.YANLiang-da基于Lucene搜索引擎的设计与实现-宁波职业技术学院学报2009,13(2)Lucene是一个强大的全文索引引擎工具包,应用它可以快速地开发一个搜索引擎.介绍了基于英特网的中文搜索引擎的系统结构,Lucene的索引和搜索,并且设计实现了一个自己的搜索引擎--易搜中文搜索引擎.结果表明,基于Lucene的搜索引擎在索引和查找上的效率很高.9.学位论文王波基于Lucene的企业搜索引擎2009随着信息化进程的加快和深入,越来越多的企业建起了自己的企业网站(Intranet),而且这样的网站规模越来越大,数据越来越多、种类也越来越丰富,导致的结果是用户要在这些数据中找出自己感兴趣的信息越来越困难,不借助搜索引擎做到这一点似乎变得越来越不可能。利用Google这样的大型商业搜索引擎提供的站内搜索功能当然也是一个选择,但它毕竟是为了满足绝大多数企业站内搜索的共同需求设计,缺乏个性化,同时还有一些其他缺点,比如:①能够索引的内容有限:搜索引擎并不会将网站所有的内容都索引进去,并且通常只能搜集网页信息,而无法搜集文本、pdf、word等数据文件的信息或者数据库数据;②更新慢:搜索引擎针对站点的更新频率也是有一定周期的,很多内容需要一定时间后才能进入索引;③内容不精确:搜索引擎需要从页面内容提取文本数据,但这种机制很难避免数据的重复。所以企业越来越需要自己的站内搜索引擎来为用户提供更高质量的检索服务。本课题正是针对这种需求,分析了企业搜索引擎开发的必要性及可行性,经过调查,最终决定以Lucene这一小巧、高效、自由、开源的软件项目为核心,综合运用其他诸如文本提取、数据库等技术做二次开发,构建一个企业搜索引擎系统。本文先从发展、原理、评价指标等方面对搜索引擎进行了总体上的介绍,接着较深入地研究了包括中文分词、索引、检索在内的搜索引擎核心技术,重点剖析了Lucene的系统结构和分析、索引、检索原理,同时也研究了Ajax、DWR框架等用于搜索引擎系统的周围技术,最后以Lucene为核心,对中科院的ICTCLAS分词系统进行适当改造,使之能与Lucene配合使用,综合运用了PDFBox、POI、HtmlParser、Ajax、数据库、Hibernate等技术,成功构建了一个企业搜索引擎系统,实现了对pdf、word、HTML这些非结构化数据的全文检索。10.期刊论文孟祥成基于Lucene和Heritrix技术搜索引擎的设计与实现-中国现代教育装备2010,(3)使用Lucene和Heritrix技术实现局域网站内搜索,该搜索引擎系统的后台完成了信息资源的抓取、建立镜像文件、建立索引、搜索等关键操作.本系统大量采用了第三方的工具,使得在文档格式的转换,分词的建立有了更好的准确度,更加符合人们日常习惯的说话方式,提高了用户查找所需要内容的命中率.本文链接:下载时间:2010年5月29日

1 / 69
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功