硕士论文-基于正则表达式技术的信息搜集引擎应用研究

tempbird
19 ℃
2019-03-19

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

电子科技大学硕士学位论文基于正则表达式技术的信息搜集引擎应用研究姓名：马俊申请学位级别：硕士专业：软件工程指导教师：吴跃20060511基于正则表达式技术的信息搜集引擎应用研究作者：马俊学位授予单位：电子科技大学参考文献(35条)1.凌海云基于语义网的智能搜索技术的研究与实现[学位论文]硕士20042.向欣学习资源元数据的存储和搜索20043.余锦大规模分布式全文搜索系统的研究与设计20044.吴跃.邱会中.余水.余元辉Web数据库性能调优[期刊论文]-电子科技大学学报2002(3)5.许亮.李明.王惠琴基于Web的数据仓库体系研究[期刊论文]-甘肃工业大学学报2002(1)6.陈文伟.黄金才数据仓库与数据挖掘20047.冈萨雷斯.吴刚IBM数据仓库及IBM商务智能工具20048.周强基于语料库和面向统计学的自然语言处理技术介绍1995(04)9.张晓滨.宋擒豹.沈钧毅一种基于语义特征的Web文档检索方法[期刊论文]-计算机工程与应用2001(20)10.殷建平汉语自动分词方法1998(03)11.翁惠玉.马范援.朱义军.杨传厚网络搜索引擎的现状分析200212.刘山.刘峨基于Web结构数据挖掘技术的数学方法[期刊论文]-计算机工程2002(7)13.王涛.孙河山Web挖掘技术在搜索引擎中的应用2002(04)14.尹本雄中文搜索引擎中的文档特征提取研究200415.宋建康Web结构挖掘系统的研究与应用[学位论文]硕士200216.王继成.萧嵘.孙正兴.张福炎Web信息检索研究进展[期刊论文]-计算机研究与发展2001(2)17.王爱华.张铭.杨冬青.唐世渭PCCS部分聚类分类：一种快速的Web文档聚类方法[期刊论文]-计算机研究与发展2001(4)18.JiaweiHan.MichelineKamber.范明.孟晓峰数据挖掘概念与技术200119.ClarkeIAdistributeddecentralizedinformationstorageandretrievalsystem199920.RCMiller.KBharatSPHINX:aframeworkforcreatingpersonal,site-specificwebcrawlers199821.UdiManber.GeneMyersSuffixarrays:Anewmethodforon-linestringsearches199022.THHaveliwalaTopic-sensitivePageRank200223.StuartRussell.PeterNorvig人工智能--一种现代方法200224.GordanSLinloff.MichaelJABerryWeb数据挖掘:将客户数据转化为客户价值200425.GeogeFLuger人工智能:复杂问题求解的结构和策略200426.LazonderArdWPrinciplesforDesigningWebSearchingInstruction2003(02)27.VaughanLiwenExploringWebsiteFeaturesforBusinessInformation2004(03)28.JianPei.JiaweiHanMiningSequentialPatternsbyPatternGrowth:ThePrefixspanApproach200429.AArasu.JNovak.TomkinsATomlinPagerankComputationandtheStructureoftheWeb:ExperimentsandAlgorithms200230.MassimoMarchioriTheQuestforCorrectInformationontheWeb:HyperSearchEngine199731.MNajork.JWienerBreadth-FirstSearchCrawlingYieldsHigh-QualityPages200132.JCho.HGarcia-Molina.LPageEfficientCrawlingThroughURLOrdering199833.SMukherjeaWTMS:ASystemforCollectingandAnalysingTopic-SpecificWebInformation200034.AMcCallum.KNigam.JRennie.KSeymoreBuildingDomain-SpecificSearchEngineswithMachineLearningTechniques199935.SergeyBrin.LawrencePageTheAnatomyofaLarge-ScaleHypertextualWebSearchEngine1998相似文献(10条)1.学位论文黄讴网页垂直搜索中信息抽取系统的设计与实现2008随着Internet的高速发展，Web的信息量越来越大，当前最流行的网页导航工具通用搜索引擎在信息采集、信息存储等方面面临着巨大的挑战。另外，由于通用搜索引擎只是对网页的文本建立分词索引，而面向的是几乎所有类型的用户，包罗万象的结果越来越难满足用户精确搜索的要求。于是，面向专业领域的垂直搜索引擎就成为搜索引擎一个新的发展方向。垂直搜索引擎与通用搜索引擎最大的区别就是前者对网页进行了页面净化、信息抽取、页面分类、数据挖掘等深度的加工。经过这些加工之后，它能为用户提供覆盖率和准确率都比较高的搜索结果。在垂直搜索引擎的构建过程中，从Web的半结构化数据中抽取出结构化数据是其中最重要步骤之一，它为网页分类，数据挖掘等处理过程提供基础数据。本文通过一个实际项目——中国电信号码百事通垂直搜索引擎——提出如何在Nutch开源框架基础上构建一个完整的垂直搜索引擎，并重点讨论本人参与的主要模块——信息抽取子系统的设计与实现。信息抽取子系统包括网页规范化、网页净化、结构化信息抽取、信息存储等模块。文中提出了采用分词技术对网页进行净化的新方法，在信息抽取过程中，设计实现了一种结合正则表达式和XPath技术的数据抽取方法。2.期刊论文潘冰.徐亮亮.PANBing.XULiang-liang中文博客搜索引擎研究-计算机工程与设计2010,31(8)为了充分利用博客日志所提供的信息,提出了建立中文博客搜索引擎的基本思路.通过对博客的技术特点和博客搜索引擎工作原理的分析,设计了中文博客搜索引擎的系统结构.在此基础上,利用规则定义和正则表达式,结合真正简易聚合技术对传统的网络爬虫进行了改进,较好地解决了博客信息难以被收录的问题.利用真正简易聚合技术对博客信息进行格式化处理,加快了博客信息采集速度.通过对中文分词的扩展,利用Lucene.net全文搜索工具实现了一个中文博客搜索引擎.实验测试结果表明,采用的方案和技术是可行的.3.学位论文王小朋基于代理的元搜索引擎的研究2005目前没有一个搜索引擎能够覆盖所有的WWW资源，而且大部分搜索引擎的索引平均只能涉及到整个WWW资源5％-20％左右。由于各个搜索引擎使用了不同的索引技术和信息收集技术，使得各自搜索的信息资源在很大程度上具有相当大的差异。实践表明，对于用户的同一查询，不同的搜索引擎会返回差异很大的查询结果。如果使用单一的搜索引擎，是不可能得到所有本可得到的资源。另外，搜索引擎在查询语法上，几乎每个搜索引擎都有所不同。这样用户为了使用这些搜索引擎，就不得不去熟悉每个搜索的搜索语法和功能。由于传统搜索引擎在这几方面的不足，而元搜索引擎又较好地解决了这些问题，所以本文把工作定位在元搜索引擎的研究上。本文阐述了基于代理的元搜索引擎的系统结构和关键技术。先介绍了搜索引擎的发展趋势和元搜索引擎的基本概念，接着介绍了代理技术和多代理系统以及多代理系统的特征、分类和交互等内容，最后提出基于代理的元搜索引擎的体系结构，并详细介绍了系统各个组成部分以及工作流程。本文设计并实现了一个基于多Agent协作系统的元搜索引擎原型系统。该系统主要由信息前处理层、查询代理层和信息后处理层组成。其中详细分析了每个搜索引擎的查询语法，尽可能地抽取大多数搜索引擎共同支持的语法格式，以XML形式定义了自己的语法规范。采用并行工作的搜索引擎代理完成与选定搜索引擎的交互，缩短了系统的响应时间。描述了现有系统的查询结果合成算法，并在此基础上，提出了一种多策略合成算法，从而提高了系统的查准率。4.期刊论文张斌正则表达式在垂直搜索引擎中的应用-农业网络信息2010,(8)采用聚焦爬虫可以提高搜索引擎的检索效率,聚焦爬虫经常使用正则表达式来进行有效的信息检索,着重分析了网页检索中常用的正则表达式,为搜索引擎的构建提供帮助.5.期刊论文陈财森.王韬.郑伟.陈建泗.CHENCai-sen.WANGTao.ZHENGWei.CHENJian-si基于搜索引擎调用的主题搜索设计与实现-计算机工程与设计2008,29(21)网络搜索是目前从因特网上获取信息的主要手段,而网络蜘蛛又是大多数网络搜索工具获取网络信息的主要方法,主题搜索策略是专业搜索引擎的核心技术.通过研究网络蜘蛛的工作原理,分析了网络蜘蛛的搜索策略和搜索优化措施,设计出一种将限制搜索深度.多线程技术和正则表达式匹配方法结合一起的网络蜘蛛,实验结果表明该方法能够快速而准确地搜索所需的相关主题信息.6.期刊论文彭赓.范明钰.PENGGeng.FANMing-yu基于改进网络爬虫技术的SQL注入漏洞检测-计算机应用研究2010,27(7)网络爬虫在搜索引擎领域广泛使用,SQL注入漏洞检测属于Web服务和数据库安全的范畴.为了提高网站的安全性,及时、有效地发现网站存在的SQL注入漏洞,改进了现有的网络爬虫技术,应用到对网站SQL注入漏洞的检测中,丰富了检测的手段,降低了检测的漏报率.最后通过实验证明了该技术的可行性.7.学位论文叶勤勇基于URL规则的聚焦爬虫及其应用2007随着信息的不断膨胀，人们越来越离不开搜索引擎。通用搜索引擎如百度、Google给人们提供了很多便利，得到了极大的流行。但是随着人们需求的多样化，和对搜索结果质量的要求越来越高，通用搜索引擎在一些专门化的领域已经不能满足人们的要求，于是垂直搜索引擎就应运而生。尽管垂直搜索引擎很多技术与通用搜索引擎很类似，但是还是有很多自己独特的技术，和一些新的需要解决的问题，聚焦爬虫就是其中的一个重点需要解决的问题。本文首先基于用同一个模板产生的动态网页其内容往往是属于同一个主题的且其URL是非常相似的这个规律，提出了一个基于URL规则的聚焦爬虫(URLRuleBasedFocusedCrawl，简称UBFC)的算法，即从每个主题网页相关站点中自动学习出代表主题相关网页URL和主题无关网页URL的正则表达式，并用这些正则表达式来指导聚焦爬虫的抓取。接着介绍了UBFC在Nutch系统上的实现和URL正则表达式学习算法。最后我们对UBFC进行了应用和分析，特别是与广度优先搜索爬虫(BFSC)、基本聚焦爬虫(BLFC)的比较分析，表明UBFC在收获率上比后两者有了明显的提高，而且招回率也明显高于BLFC。8.期刊论文蒋志刚.叶勇.JiangZhigang.YeYongWEB搜索引擎.NET实现技术研究-计算机应用与软件2007,24(10)随着网络信息量的爆炸式增长,人们查找信息越来越难.Web搜索引擎的出现在一定程度上解决了这种矛盾.讲述了搜索引擎的现状及发展趋势,并基于.net对搜索引擎的关键技术提出了实现方法.9.学位论文陈哲面向垂直搜索引擎的网页抓取器的设计和实现2009当今社会，Internet技术的发展非常迅速，网络信息也在不断的迅速增加，搜索引擎对网络信息的覆盖能力在整体上呈下降趋势，但与此同时，人们对搜索引擎搜索到的信息的质量要求却越来越高，各类用户对搜索信息的要求从原来的数量上向现在的质量上进行了转变。在这种背景下，如何能在网络日益增长的大量信息中迅速地找到更加准确更有价值的信息成为当前搜索引擎领域的一个具有挑战性的热点研究