垂直搜索引擎若干关键技术的研究

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

垂直搜索引擎若干关键技术的研究作者:王晓伟学位授予单位:浙江大学相似文献(10条)1.学位论文徐海基于Lucene垂直搜索引擎的研究与实现2009随着Internet和的迅速发展,Internet上的资源日趋丰富,人们也越来越多地依赖网络进行学习和研究。为了帮助人们在浩如烟海的网络中得到有用的信息,基于Internet的各类搜索引擎应运而生并得到了迅速发展。目前,人们在网络上搜索信息主要利用百度,Google等通用搜索引擎,这类搜索引擎功能已经十分强大,基本可以满足用户的需求,但是当用户搜索一些专业信息时,这类搜索引擎往往显得力不从心。垂直搜索引擎的出现,正是为了解决此类问题。首先,本文论述了垂直搜索引擎的研究意义及体系结构,并深入研究了垂直搜索引擎的核心技术,包括主题相关度的判断,中文分词技术,网页排名技术等。其次,本文对Lucene开发包进行深入的学习研究,对比了其本身的中文分词方法及KTDictSeg分词方法,采用对中文分词效果较好的KTDictSeg分词方法对所提取的内容进行分词。最后,本文设计并实现了威客任务信息垂直搜索引擎系统,包括主题蜘蛛模块,信息提取模块,索引与检索模块。在主题蜘蛛模块采用SharkSearch算法来对未处理的URL进行分析,提高了对主题信息采集的准确度;在信息提取模块,采用HtmlParser文档解析方法对采集的页面进行信息提取;在索引与检索模块,针对Lucene中的得分算法没有很好的体现网页在网站中的位置信息这一不足,设计了一种改进的解决方案,将文档的基本得分与文档在网页中的位置信息以及文档本身的特点很好的结合起来,以提高对搜索结果排序的准确度,由此增强了搜索的精确度。2.学位论文刘朋基于Lucene的垂直搜索引擎关键技术的研究应用2009随着Internet的飞速发展,Web中所容纳的信息量越来越大,在存储,信息采集等方面通用搜索引擎正面巨大的挑战。而且,由于通用搜索引擎是面向各种各样的用户,它们的目的是保证在返回结果上做到面面俱到,但是各种各样的结果实际上并不能满足用户对精确度高的搜索的需求。因此,面向专业领域的搜索引擎即垂直搜索引擎便应运而生。和传统的搜索引擎所不同的是,垂直搜索引擎的网络蜘蛛只是采集Web中的一部分信息。通过对网页的主题相关度进行预测和判断,专业网络蜘蛛在爬行时就会避开大量的与主题无关的信息。由于只采集那些和主题相关的网页,从而使垂直搜索引擎在查询的准确率和效率上都有显著的提高。目前,垂直搜索引擎的中文分词和主题预测有待进一步提高精度,网络蜘蛛的搜索策略也有待进一步改进以提高搜索引擎的覆盖率和运行效率。本文在分析目前常用的主题爬行策略的基础之上,根据PageRank算法的思想,结合基于文本内容的启发式策略和基于Web超链分析的策略二者之间的优点,提出了一种新的主题爬行策略,既可以利用链接分析扩大某个主题的资源覆盖度,又可以保证搜索结果与主题的高度相关。此外,本文通过研究和分析传统的PageRank算法及其不足,在基于用户点击网页内的各个链接的概率是不均等的情况下,提出一种基于概率的PageRank改进算法,该算法可以用于领域搜索引擎的主题相关度预测,能有效地避免主题漂移现象。最后,基于Lucene框架和改进的Hertrix开源爬虫框架,设计并构建了一个面向电子产品信息的垂直搜索引擎的原型系统。3.学位论文李副铭垂直搜索引擎的研究与设计2009由于通用搜索很难满足个性化和专业化的需求,垂直搜索应运而生。垂直搜索能提供给人们更相关的信息。本文对中文垂直搜索中的几个关键技术进行论述,并设计实现了一个简单的检索系统,包括网络爬虫、网页提取、中文分词、索引检索等,各个部分相互关联构成一个有机的整体。提出了基于实验学习和聚集爬虫的URL规则学习算法。算法的核心是URL规则表达式学习,它能自动从样本网页中学习和产生规则表达式。主要包括以下几个部分:URL抽取、试验学习、分类判别、规则学习;从URL中发掘出链接与主题之间的相关性,以此作为判断URL是否抓取的依据。重新设计了词典机制和查询算法,我们采用了双字HASH加逐字二分的词典机制,综合利用网络文本和搜索提交的关键词来识别新词,并对网页信息抽取做了论述。设计并实现了一个简单的搜索引擎,给出了系统的总体结构图,并对各个工作流程进行了详细的描述,最后对系统的使用效果和性能进行了简单评测。4.期刊论文蓝永健.LANYong-jian基于Lucene的校园网垂直搜索引擎的设计与实现-广东教育学院学报2009,29(3)垂直搜索引擎是针对某一个特定行业的专业搜索引擎,是搜索引擎的细分和延伸,可以反馈给用户更准确和更专业的查询结果.在高校的校园网信息检索应用领域,实现了基于Lucene技术的中文校园网垂直搜索引擎,其可以为用户提供专业的信息检索服务.5.学位论文宫进网络信息采集与处理系统的设计与实现2007Internet已经成为目前世界上最大的信息资源库,但是网上信息资源纷繁芜杂,如何满足人们对快速、准确而全面获取信息的要求,已经成为摆在人们面前的一大难题。搜索引擎的出现可以帮助用户在网络上方便地查找到自己需要的信息。但是目前的搜素引擎由于存在网页覆盖率低、索引不及时和返回结果不精确等缺点,因而难以满足专业用户(如某一领域的科技工作人员)对信息的需求。本文主要的研究工作是针对搜索引擎的一个发展方向-垂直搜索引擎,进行理论研究分析和具体设计。在垂直搜索引擎的信息采集方面,为了获取最精确的信息,本文通过提供一个基于定制模板的下载机制,准确定位所需信息在网页HTML结构树中的位置,对网页的结构进行解析并下载指定位置的内容,提取准确而高效的信息,并且能定期自动跟踪相关网站或网页,进行比较分析、抽取、规整入库等,对互联网信息进行有针对性的定向采集,进而从互联网上获取所需信息。在信息处理方面,本文设计并实现了扩展性非常好的一个信息处理系统。在这个系统中通过一个标准的接口文件,可以无限制地加载无数个功能独立的处理模块。本文还从理论上分析和比较了目前的各种汉语自动分词和分类方法,对各种分词和分类方法的技术特点进行了阐述,根据应用的具体现状,详细描述了汉语自动分词和分类模块的具体设计。本文的主要工作如下:1)分析了搜索引擎国内外目前的研究现状及发展趋势,探讨了垂直搜索引擎目前主要存在的问题及现行垂直搜索引擎所采用的搜索策略主要存在的缺陷。2)详细地介绍了本系统中采集部分所需用到的HTML的背景知识,在汉语分词和分类中所用到的理论知识。3)主要是讨论和设计了汉语自动分词和文档分类的方法和模块设计。4)设计并实现了信息的定向自动采集和处理系统。根据网页的HTML标签特性,实现了定向采集所需要的采集模板,并设计实现了多线程采集的采集系统。根据扩展性的需要设计并实现了能够无限扩展处理模块的信息处理系统。6.期刊论文李广丽.刘觉夫垂直搜索引擎系统的研究与实现-情报杂志2009,28(10)给出了垂直搜索引擎的体系结构,然后分别设计了垂直搜索引擎的三大核心模块:主题词库、网络机器人和中文分词.在主题词库模块中设计了一个分层的主题词库系统,该词库将颗粒大的主题词置于词库高层,而将颗粒小的主题词置于词库低层,既考虑了主题搜索的广度,也考虑了主题搜索的精度.而在网络机器人设计过程中则综合运用了多线程及基于VSM的主题相关度判断算法进行主题网页爬行,在中文分词设计中则采用最大正向匹配算法完成中文分词.实验表明,多线程是提高网络机器人爬行速度的关键.此外,搜索引擎的准确率达到了63%.7.学位论文张慧旅游信息垂直搜索系统的设计与实现2009随着internet的迅速发展,网络资源日益丰富,传统的搜索引擎技术不加区分的从网络上收集网页,产生了大量用户不需要的无关信息,大大影响了用户的使用,为了更精确更迅速的获得用户关心的相关领域的信息,垂直搜索引擎技术应运而生。垂直搜索引擎仅仅采集用户指定的、与某一特定主题相关的页面。@@Nutch是一个刚刚诞生开放源代码(open-source)的 web搜索引擎。它使用Lucene作为索引和检索的模块,其工作流程包括网页搜集,预处理和检索模块,具有与商用搜索引擎相同的工作流程,且其各功能模块相对独立,通过改造Nutch的相关功能模块,可以迅速搭建一个垂直搜索引擎。@@本文的工作目标是构建一个基于垂直搜索引擎技术的旅游信息搜索网站,搜索引擎部分是一个中文主题搜索引擎,因此,中文处理的问题与主题相关性的问题是首要解决的重要问题。本文采用Nutch来构建基本搜索引擎架构,并修改了Nutch的两个重要模块,网页搜集模块和中文分词模块,使其能够适应垂直搜索的使用。@@在此基础上,本文首先介绍了通用搜索引擎与垂直搜索引擎的不同,讨论了通用搜索引擎的核心技术,以及垂直搜索引擎的技术特点,接着介绍了Nutch的工作原理,在搜索模块中,本文采用了sharksearch算法实现主题相关网页的抓取;网页抓取下来后,使用向量空间模型进行主题相关度判定,将相关度低于一定阈值的URL去除;使用在中文分词模块中,本文改进了Nuteh基于单字切分的分词方式,设计了一种新的词典机制,并将一种新的分词算法引入到分词模块中。@@随后,本文讨论了旅游信息搜索引擎的总体设计过程,包括手机客户端和web搜索引擎的实现过程。设计过程重点论述了需求分析、手机客户端和网站的功能规划和总体结构、数据库设计等内容。@@最后,对本文工作进行了总结,提出了今后的工作方向,并对垂直搜索引擎的技术发展方向做出了展望。@@关键字:垂直搜索引擎,Nutch,中文分词,主题相关度,爬虫8.学位论文李文泽个性化垂直搜索引擎研究2007目前互联网领域主要的搜索引擎服务商如Yahoo、百度、Google等,为用户提供的都是横向的海量信息搜索。而在互联网不断更新和演化的现阶段,我们发现:普通网络用户想找到所需的资料简直如同大海捞针,海量的信息已经不再是发展的主要动力,意识和时效性才是真正的动力。互联网发展的关键不再是能否快速、大量地向用户提供和传递信息,而是能否实现使用户在期望的时间、期望的地点,以期望的方式和成本,获取期望的信息。然而综合搜索引擎可以满足大量信息的横向搜索,但很难兼顾搜索的准确度与相关度的质量。综合搜索。引擎的价值在于做大量的信息导航,对于信息需求相对集中、分类更加详细的行业客户缺乏导向。解决这个问题成为搜索发展的机会,也成为未来科研机构竞相研究的热点。垂直搜索这一新的搜索模式正是在这一背景下产生的。本文主要的研究工作分为两个部分:第一部分通过理论研究分析,提出了对垂直搜索引擎信息采集算法的改进思路;第二部分通过对垂直搜索引擎的核心技术进行剖析,设计并实现了一个垂直搜索引擎的原型系统。正文部分分五章对研究内容进行详细介绍。第一章绪论部分详细介绍了搜索引擎的发展历史,指出了目前综合搜索引擎所面临的问题以及解决这些问题的途径,即本文所研究的方向:垂直搜索引擎。通过和综合搜索引擎在信息服务以及关键技术上的比较分析,指出垂直搜索引擎存在的巨大优势和发展空间。最后,分析了垂直搜索引擎在国内外发展状况以及提出本文所要解决的问题。第二章总体架构与信息采集部分给出了垂直搜索引擎总体架构的设计方案和工作流程,并对垂直搜索引擎自身特点进行分析。此外,在信息采集策略方面给出了常用的信息采集模型,并分析了目前通用的信息采集算法——基于向量空间模型的相似度匹配算法的核心思想及不足。最后,通过对本体的介绍,提出了构建基于本体知识库的智能化信息采集策略的实现思路来解决信息采集过程中一词多义和一义多词的问题。第三章Lucene框架的研究部分对目前最优秀的开源全文检索框架Lucene进行了详细的分析。包括对全文检索技术的介绍,Lucene项目的来源和框架构成的介绍,以及Lucene所提供的索引和搜索功能中非常重要的倒排索引技术和评分机制的介绍,并给出了索引建立和搜索实现的核心程序代码。最后,还介绍了中文分词技术以及Lucene中分词的实现原理。第四章垂直搜索引擎的实现部分结合Hertrix开源爬虫和Lucene

1 / 59
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功