LUCENE实现的基于RSS的博客搜索引擎作者:刘双林学位授予单位:哈尔滨工程大学相似文献(10条)1.学位论文刘玮基于启发式搜索策略的主题网络爬虫算法的设计与实现2008随着全球信息化的进程逐渐加快,网络信息量的爆炸式增长,人们查找信息越来越难。Web搜索引擎的出现在一定程度上解决了这种矛盾。然而现行的大型通用搜索引擎无法根据用户所指定的主题进行针对性的搜索,主题搜索引擎应运而生。主题搜索引擎主要针对某一特定领域、某一特定主题或某一特定人群,提供内容集中而深入的信息与服务。主题网络爬虫作为主题搜索引擎的重要组成部分,它的好坏直接关系到所搜索到资源的质量,因此如何设计一个高质量的主题网络爬虫就成为了主题搜索引擎研究的一个重要课题。通用搜索引擎设计的目的是在网络上搜索尽可能多的高质量网页,然而Web信息容量的巨大使得网络爬虫不可能提取所有的Web页面,即使能够全部提取,也没有足够大的空间来存放。通用网络爬虫的信息采集方式是盲目的,通常使用宽度优先搜索,深度优先搜索和有限深度的宽度搜索三种策略。主题搜索引擎与通用搜索引擎不同,它的设计目标是尽可能多的搜索与主题相关的网页,尽可能少的搜索与主题无关的内容,提高采集主题资源的效率。主题网络爬虫设计的关键是如何将待爬行的URL按照某种策略进行排序,使得与主题相关的、质量高的URL优先爬行,爬行的过程逐渐向主题领域聚焦。论文首先分析了主题搜索引擎与通用搜索引擎体系结构的异同,主题搜索引擎的信息采集策略,即主题网络爬虫的实现方式。目前比较有代表性的主题搜索策略如:基于启发式搜索算法和基于文本分类的搜索算法。论文通过分析各种搜索算法的优缺点,进行整合和改进,设计出一个基于启发式搜索策略的主题网络爬虫。在主题表示中利用向量空间模型提取主题关键词的算法,并且根据反比文档频率计算出关键词的权重。在预测链接价值的算法中,采用启发式搜索算法,即先通过在线获得的领域知识评价待访问链接的价值,借以推断信息资源的分布情况,然后按一定的原则选择价值最大的链接进行下一步的搜索,找到到达目标节点的最佳路径,删除不好的节点,保留那些好的节点。论文设计了一个基于启发式搜索策略的主题网络爬虫,对其执行流程给出了精确的算法描述,提出了若干关键算法的解决方案。详细阐述了链接主题相关度预测算法和网页主题相关度分析算法的实现。最后通过实验,证明了论文设计的主题网络爬虫具有较高的搜索效率。2.期刊论文刘世涛.LIUShi-tao简析搜索引擎中网络爬虫的搜索策略-阜阳师范学院学报(自然科学版)2006,23(3)随着网络信息的迅速发展,搜索引擎已成为人们获取有用信息必不可少的工具.以何种策略有效地访问网络资源是专业搜索引擎中网络爬虫研究的主要问题.本文对搜索引擎中网络爬虫的搜索策略进行简要分析,比较各种搜索算法的优缺点,总结提高搜索效率的因素,使人们对网络爬虫的搜索算法有个大概了解,以及对新一代搜索引擎的期望,以便更快捷获取自己需要的信息.3.学位论文刘忠基于强化学习的垂直搜索引擎网络爬虫的研究与实现2008本文将强化学习方法引入到垂直搜索引擎网络爬虫中,设计实现了面向餐饮业的基于强化学习的垂直搜索引擎网络爬虫RL-Spider(ReinforcementLearningSpider)。建立了RL-Spider的流程架构,并设计实现了面向餐饮业的垂直搜索引擎RL-Seareher(ReinforcementLearningSearcher)原型系统。本文主要包括以下几方面内容:(1)针对传统搜索引擎爬虫程序抓取信息全但不够细化的特点,设计了一个面向餐饮业领域的聚焦爬虫。提出了基于强化学习的网络爬虫算法,并应用于餐饮类站点的发现中。实验表明,该系统在信息查全率、查准率等方面都有较大的提高。(2)针对网络爬虫在URL提取过程中,采用深度、宽度搜索策略等方法,容易使网络爬虫陷入“维数灾”问题,在研究逻辑程序设计与强化学习方法结合的基础上,提出了基于逻辑强化学习的网络自主搜索方法,并在RL-Spider中得到了应用。实验表明,系统在大规模网络爬虫中,可大幅度提高网络自主搜索效率。(3)针对在RL-Spider中,“主题网页发现”等方面的问题,根据强化学习的自身策略,实现了强化学习在“主题网页发现”中的应用,并提出Detail页的URL,识别算法。实验表明,该算法能够大幅度地提高“主题网页发现”的准确率。(4)在RL-Spider架构的Detail模块中,对Detail页面的关键信息进行提取,如Title、Meta、文本信息等,并建立索引、去除无关信息、建立网页快照,采用Lucene建立索引,供查询系统调用。(5)设计实现了一个面向餐饮业的垂直搜索引擎原型系统RL-Searcher,并利用该系统对RL-Spider的抓取效果进行了验证和实验数据分析。4.学位论文陈奋过滤型网络爬虫的研究与设计2007网络爬虫是一个可以从因特网上自动提取网页的系统,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。通用搜索引擎的网络爬虫一般是从几个种子URL链接开始进行全盘爬行,而专业领域搜索引擎的网络爬虫除了通过通用网络爬虫的基本功能外,还能够对链接以及页面内容进行识别,因此称作聚焦网络爬虫。聚焦网络爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。聚焦网络爬虫已经成为搜索引擎技术领域的一个研究热点,对于专业领域的搜索产生重要的作用。本论文从聚焦的另一个角度--“过滤”上来研究网络爬虫技术,称这种类型的网络爬虫为“过滤型网络爬虫”。论文首先介绍了网络爬虫所起的作用以及网络爬虫技术的发展现状;接着在从两个方面来研究过滤型网络爬虫技术:(1)从链接过滤上,提出了链接群体的概念,根据不同的网站类型将链接群体分为单模式链接群体和多模式链接群体,同时在分析了传统的链接过滤算法的基础上,提出了基于规则匹配的链接过滤算法;(2)从内容过滤上,主要从以下三个方面来研究:(a)提出了一种基于网站内容特征的网站类型辨识方法,(b)使用一种基于标签权重的网页文本特征词选择算法,在此基础上构建网页文本的空间向量模型,并将该向量模型跟已经设定好的主题向量模型进行相似度计算,从而形成基于向量空间模型的主题过滤算法,(c)在分析非结构化数据分类过程的基础上,使用了基于朴素贝叶斯分类器的主题类别过滤算法;最后设计并实现了一个过滤型网络爬虫系统,并详细介绍了系统的整体设计流程、系统结构以及系统几个关键模块和关键技术。5.期刊论文刘淑梅.夏亮.许南山.LIUShu-Mei.XIALiang.XUNan-Shan主题搜索引擎网络爬虫搜索策略的研究与实现-计算机系统应用2010,19(3)根据网络页面结构的特点,提出通过页面之间的主题传递来预测页面主题相关性的方法,解决了主题爬虫通道堵塞,抓取遗漏的问题.首先根据锚文本传递一个相关性信息值,如果锚文本给出的信息是相关,相关阈值就直接传递;如果是不相关,就乘以遗传基因比例之后传递.传递的过程中如果遇到相关的网页就恢复链接的相关性信息值到初始值.最后根据实验结果验证了算法的查全率与查准率,查全率有显著的提高.6.学位论文夏诏杰Internet化学化工搜索引擎的主题网络爬虫和索引研究2008Internet作为信息的主要载体之一,其信息资源几乎涵盖所有学科领域。化学专业领域也不例外,Internet已经逐渐成为人们获取化学信息的主要途径。由于Internet具有节点平等、自由发布的特点,使Internet资源不仅体现为分布式、高度动态和海量,而且信息的质量参差不齐,出现所谓的“信息过载”和“信息迷失”的现象。化学工作者如何有效地从海量信息中检索所需要的、高质量的化学信息,面临着前所未有的挑战。尽管大型的通用搜索引擎可以用于专业信息的查询,但是这类通用搜索引擎在搜索专业信息的同时常会返回很多与主题不相关的噪声信息,因此研究与开发领域化、专业化的主题搜索引擎和针对个人兴趣的个性化搜索引擎是网络信息检索的一个发展趋势。本文在对Internet化学化工主题搜索引擎设计和分析的基础上,设计并实现了化学化工主题搜索引擎的两个主要模块:化学化工主题网络爬虫和基于化学化工词典的倒排索引,以此为基础建立了一个规模为1000万网页的化学化工专业搜索引擎原型系统ChemEngine。主题网络爬虫系统最大的特点是将待爬行的URL按照主题相关性进行排序。与广度优先(BreadthFirst)和深度优先(DepthFirst)等通用网络爬虫等相比,主题网络爬虫的爬行策略变为主题相关优先(TopicFirst)或者最佳优先(BestFirst)。本文通过对网络化学化工资源的抓取,比较了基于分类器(支持向量机、简单贝叶斯和中心向量)主题网络爬虫、基于关键词匹配主题网络爬虫(匹配网页全文、匹配标题文本和匹配锚文本)和基于链接分析(PageRank和BackLink)主题网络爬虫的爬行效果。爬行实验结果表明基于支持向量机分类器的主题网络爬虫的抓取效果优于其他主题网络爬虫和广度优先通用网络爬虫。实验还发现基于文档对象模型(DOM)的页面分块算法和基于视觉(VIPS)的页面分块算法的主题网络爬虫能进一步降低页面噪音和提高主题网页的爬行效果。另外实验结果显示种子URL对主题爬行的效果有较大的影响,尤其是在爬行的初始阶段。倒排文件作为一种简单、高效的文档数据索引方式,是搜索引擎系统实现的一项基础技术。在对Internet化学化工主题搜索引擎ChemEngine的倒排索引的设计和实现中,本文提出了对中文网页基于化学化工专业词典进行分词并以词为单位建立索引,而对除中文以外的网页以字为单位建立索引的方式,这样可以在查全率和查准率之间做出一定的权衡,并且能够减少索引信息对磁盘空间的占用。本文还提出了分桶建索引的算法,即正排索引和倒排索引都按照一定规则被存放在一系列的桶中,每一个桶中只存放一定范围词条(根据词条ID号)所对应的索引,通过合理安排桶的数量就可以减小各个索引文件的大小,方便倒排索引分布式的存储和处理。本文设计并实现了一种个性化搜索引擎的原型系统。用户首先通过个性化信息收集与管理系统采集和管理各自的兴趣信息,如关键字、样本文档和URL等。个性化信息收集与管理系统可根据获取的用户兴趣信息,为用户自动生成各自的兴趣模型。个性化爬行时根据用户提交的URL作为爬行起点,并在爬行过程中通过用户兴趣模型来对待爬行的URL进行用户兴趣优先级预测。实验结果表明基于支持向量机的个性化网络爬虫策略的爬行效果优于基于关键词匹配个性化网络爬虫和广度优先策略通用网络爬虫。实验同时显示用户兴趣范围的大小和用户兴趣信息收集的准确性对个性化网络爬虫的性能有较大影响。关键词:主题网络爬虫,个性化网络爬虫,倒排索引,化学化工主题搜索引擎,中文分词,信息检索,用户兴趣模型,文本分类7.学位论文耿新并行网络爬虫技术及实验系统研究2008网络爬虫程序是一个下载并储存网络上的Web页面和其它Web媒体的应用程序,广泛应用于搜索引擎网络和以内容展示为主的网站。随着近年来互联网技术的飞速发展,网络信息呈现出爆炸性的增长趋势,传统的网络爬虫技术已经不能满足人们对获取信息准确性、全面性、及时性的需求,所以,在搜索引擎中使用并行爬虫技术是一种有效的方法,同时更重要的是对现有的网络爬虫程序不断的加以优化,使其质量、覆盖率、效率等指标得以加强。在本文中,将设计一个更有效率的并行网络爬虫系统,并且使用实验系统对网络爬虫技术进行研究,具有重要的应用价值。br 本文分析了网络爬虫技术在互联网领域应用的现状,介绍了多种并行爬虫的架构,和与这些爬虫架构相关的基本问题。并在此基础上分析了网络爬虫技术实验研究流程,总结出了评价网络爬虫程序优劣性的指标,并将这些指标公式化。同时围绕这些公式化的指标提出了网络爬虫技术实验系统的总体结构和功能结构,并着重研究了为了对这些指标进行优化涉及到的关键问题和技术。基于这些理解,运用先进的信息发布系统和高效率的编程语言详细设计和实现了实验系统数据库和贯穿于网