垂直搜索引擎的架构与实现

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

大连理工大学硕士学位论文垂直搜索引擎的架构与实现姓名:许忠学申请学位级别:硕士专业:计算机技术指导教师:王爱民20090601垂直搜索引擎的架构与实现作者:许忠学学位授予单位:大连理工大学相似文献(10条)1.学位论文王治江面向领域的垂直搜索系统研究与实现2008目前互联网领域主要的搜索引擎服务商如Google、百度、Yahoo等,为用户提供的都是横向的海量信息搜索。这些通用搜索引擎在满足信息全面搜索的同时,却很难兼顾搜索的准确度与相关度的质量,而且存在网页覆盖率低、索引不及时等缺点,尤其对于信息需求相对集中、分类更加详细的行业用户缺乏导向。垂直搜索引擎作为搜索引擎技术发展的一个分支方向,通过对领域内信息的全面搜集、再组织整理,将会提供更专业化、个性化的行业信息服务,能够满足用户对专业领域信息的搜索需求。本文的研究工作主要分为两个部分,第一部分主要研究了垂直搜索引擎中的网络蜘蛛技术和结构化信息抽取技术。在网络蜘蛛的研究中,重点解决了主题目标描述、对URL的搜索策略和主题相关度判定问题。其中通过领域专家选定初始种子URL,从主题网页库中自动提取特征关键词并辅助人工筛选的方式生成主题特征向量;在网络蜘蛛搜索过程中,采用最佳优先的搜索策略以保证高效地抓取主题资源;通过向量空间模型计算网页与主题特征向量之间的相似度,并考虑了关键词的位置权重。在Web信息抽取技术的研究中,对比分析了现有的Web信息抽取方法,采用了基于正则表达式的网页结构化信息抽取方法。第二部分对搜索结果聚类进行了研究,通过分析现有聚类方法的不足及搜索结果聚类的特点,提出了一种适合于搜索结果动态聚类的新的后缀树聚类算法,其中后缀树的构建以中文汉字为基本单位,采取比较子串和父串短语类代表的文档数量策略有效地解决了基于二进制方法合并短语类后的类别描述问题,并利用短语类语义层面的相似性合并同义短语类,有效地改善了聚类结果的质量。实验结果表明:与传统的文档聚类算法相比,基于后缀树的算法在Web文档聚类的精度和效率方面具有较强的优越性。最后本文设计并实现了一个面向专利领域的垂直搜索系统,其中以Lucene开源框架实现了索引和搜索功能,采用基于词典的正向最大匹配算法实现了中文切词,并运用信息可视化技术对搜索聚类结果进行展示。2.期刊论文王宁宁浅谈CNNIC最新报告对垂直搜索引擎领域的启示-图书馆理论与实践2009,(1)立足于搜索领域的新军--垂直搜索引擎,对CNNIC两份报告的有关内容进行了分析与研究,总结了报告带给垂直搜索引擎完善与发展的六点启示.具体包括垂直搜索发展的可行性、存在的必要性以及用户对搜索引擎的依赖性;垂直搜索引擎利基市场的选择;垂直搜索引擎域名的选定以及网站的推广与宣传;垂直搜索引擎应采用广告、竞价排名、返佣、直接面向企业的封闭型盈利模式等多种盈利方式;垂直搜索引擎应注意用户的隐私保护以及应推动垂直搜索新领域--移动垂直搜索的发展.3.学位论文刘金亮汽车行业垂直搜索系统原型的设计与关键模块的实现2008随着互联网技术应用范围的不断扩大,人们越来越多地关注如何快速有效地从海量的网络信息中抽取出潜在的、有价值的信息,使之在管理和决策中有效地发挥作用。搜索引擎技术解决了用户信息检索的困难,但目前的通用搜索引擎存在着信息重复率高、检索功能单一等缺点。所以作为通用搜索引擎的补充,垂直搜索引擎更能做到符合用户个性化的需求。本文的目的便是构建一个较之通用搜索更为人性化,专业性更强的垂直搜索系统。本论文对垂直搜索引擎进行了理论性的分析,介绍了垂直搜索系统涉及到的术语和关键技术,具体介绍了网络蜘蛛的运行规则设计,信息抽取技术以及垂直搜索网站的相关页面设计。针对中文信息抽取的难点:即中文语料词表和中文命名实体识别,提出了解决方案;针对汽车领域收集制作了GATE格式的语料词表;并针对中文的语言特点撰写了JAPE规则来实现中文命名实体识别。最后是系统的设计部分,在上述理论分析的基础上提出了系统的设计思想,并介绍了系统的结构和具体技术。最后本文结合理论和实践,在探讨了网络信息检索技术及中文信息抽取技术在搜索引擎系统中的应用,并在研究了Nutch搜索内核以及信息抽取系统Gate的基础上,设计了一种新的垂直搜索系统——汽车行业垂直搜索网站系统的框架原型。其中详细研究了系统构成中信息抓取、信息中文抽取和信息检索功能的实现过程。本系统设计的目标为:专注汽车行业领域的搜索,只提供用户关注的信息,将重复转载的信息去除,并对信息进行分类,帮助用户快捷查询到所需的资讯,实现对汽车领域信息的垂直搜索。4.期刊论文罗立宏.陈志.LUOLi-hong.CHENZhi基于语义分析的垂直搜索网络蜘蛛-计算机工程与设计2008,29(18)通用搜索引擎数据量庞大,但查询结果不够准确.分类目录正好相反.为了综合两者优势,对垂直搜索引擎进行了研究和分析.着重研究了垂直搜索引擎的核心模块--智能网络搜索蜘蛛.提出了搜索分析的新概念--规则.研究了蜘蛛中定义支持同义词的语义词典的方法,给出了按照规则分析和检索的实现方法和流程.程序需要定义多种规则,让蜘蛛依照规则进行网页爬行和信息采集.最后给出一个项目实例,证明了上述方法的可行性.5.学位论文刘峰垂直搜索中的数据清洗和排序算法研究2009“信息过载”问题随着web信息资源的迅速膨胀变得越来越严重,而搜索引擎是解决这一问题的基本工具。由于传统搜索引擎是面向大众用户的,检索结果往往面向各行各业,因此用户不容易找到自己所需要的信息。垂直搜索引擎的出现在一定程度上解决了通用搜索引擎对专业领域及特定主题信息覆盖率过低的问题。在国家科技支撑项目子课题--“基于本体的农业搜索引擎”(2006BAD10A1410)和国家自然科学基金--“农业复杂自适应搜索引擎”(60774096)的支持下,本文围绕农业垂直搜索引擎的关键问题开展研究。中国搜索引擎用户不满意因素的调查结果显示:用户对结果的排序不满意占了很大的比重。本文对搜索排序算法进行了认真分析,现有通用搜索引擎大都采用了输入--输出的响应模式,该模式没有考虑用户反馈。论文提出了一种基于lucene基础排序算法的改进算法,该改进算法考虑了多个排序因素:(1)为了体现网页链接的重要性,算法融合了pagerank算法;(2)网站等级得分;(3)用户反馈得分:将反映用户兴趣的点击行为和网页浏览时间转化为兴趣度并作为搜索结果排序的一个得分因子。该算法通过实验验证了其优越性。优秀的排序算法也需要一个高质量的数据来源,高质量的搜索结果必然依赖于高质量的数据,为了避免得到重复、相似或者信息不完整的搜索结果,数据的正确性是至关重要的,否则就会出现“一流的引擎,二流的数据库”的现象,所以,数据预处理工作相当重要,数据清洗工作也被提到显著位置。本文设计了基于MD5数字签名的数据消重算法,在查准率、查全率和响应时间上都满足实际需求,同时,在处理不完整信息方面提出了处理方法,即利用其它项属性值来推测缺失项属性值,以及使用最可能的值来填充缺失值,该方法已成功应用于农业垂直搜索引擎中。最后,本文设计一个农业垂直搜索引擎,从总体设计到核心模块设计进行了详细说明。该垂直搜索引擎的系统测试结果显示其在查准率、查全率、响应时间三个重要指标中均表现良好,满足了项目的实际需求。6.学位论文林原基于领域本体的垂直搜索技术的设计与实现2008随着因特网的不断发展,Web的信息量也与日俱增。面对如此海量的信息,如何保证信息的全面,及时和准确性成为了搜索引擎领域所研究的主要课题。虽然通用搜索引擎在量上有很大的优势但是在质的方面确差强人意,而当今用户的查询却正向“专、精、深”的方向发展。垂直搜索是给某一特定领域提供有一定价值的信息和相关服务的,而本体正是对领域知识概念、关系、属性的抽象和描述。因此,本体与搜索引擎结合,成为研究垂直搜索引擎的重要手段。于是如何构建领域本体,如何将本体理论与垂直搜索技术相结合就成为了研究的焦点。本文首先介绍Web搜索引擎的基本概念和原理,然后介绍了本体的相关理论概念、自然语言处理的相关知识和本体开发技术。分析了本体与垂直搜索引擎相结合的意义和必要性,最后给出了本体与垂直搜索技术相结合的系统实例:基于个人投资领域本体垂直搜索引擎的体系结构和具体实现方法。其中重点研究了以Prot6g6作为本体编辑工具,OWL作为本体描述开发语言建立个人投资领域本体;运用个人投资领域本体对预处理后网页文本信息文档进行本体语义标注,并以此为基础,对文档内容进行结构化信息抽取;以个人投资领域本体为基础对用户查询进行本体语义扩展,着重探讨了不在本体体系当中的普通单词查询的解决方法。7.期刊论文许鑫.黄仲清.XuXin.HuangZhongqing垂直搜索引擎应用中的若干策略探讨——以12580餐饮垂直搜索为例-现代图书情报技术2009,(2)首先概述垂直搜索引擎的有关研究,结合通用搜索引擎分析垂直搜索引擎的一些特点和应用,然后结合实际的开发应用从提高查准率、提高查询速度、提高信息采集效率、控制信息采集质量等角度进行分析和探讨,在实例探讨中结合12580网络信息采集的餐饮垂直搜索原型系统提出信息采集、信息更新、信息抽取等实际应用领域中的若干策略.8.学位论文刘迟垂直搜索引擎的抓取技术研究2008垂直搜索引擎的概念,是针对某一特定行业领域提供有一定价值的信息和相关服务,它是搜索引擎的细分和延伸,是为用户提供符合专业用户操作行为的全新信息服务方式,本文是对垂直搜索引擎的抓取技术研究,主要关注垂直搜索引擎的抓取中所遇到的隐蔽网抓取、时效性以及性能和效率问题。本文首先介绍了垂直搜索抓取系统的体系结构,提出了一种分布式和基于可扩展插件的垂直搜索抓取系统框架,其分布式特性和插件模式都便于将来的扩展。然后讨论了垂直搜索抓取系统中隐蔽网抓取的三个问题,并针对隐蔽网抓取中结果消重的问题提出了一种自学习的中文地址判重方法;接下来针对垂直搜索的时效性问题提出了一种基于查询驱动的实时抓取方式;讨论了并比较了影响垂直搜索抓取系统的抓取模式、抓取策略和抓取频率,在本文的系统中采用了稳定持续模式、及时替换式更新、实时抓取与固定频率相结合的方式。本文最后进行了关于判重问题和时效性问题实验,通过实验,证明了本文提出的方法在应用中能获得更好的效果和用户体验。9.期刊论文周作涛.ZHOUZuo-tao垂直搜索在电子商务中的应用分析-陕西理工学院学报(自然科学版)2008,24(3)分析了垂直搜索发展的状况,结合其特点分析了其在电子商务中的应用价值及商业价值,应用垂直搜索的关键技术,指出垂直搜索应与电子商务相结合,从专业化、面向服务提升搜索效果,最后展望了垂直搜索的发展模式、发展特色及营利模式.10.学位论文左军基于Lucene网络视频垂直搜索系统的设计与实现2007自从以YouTube为代表的视频分享型网站取得巨大成功后,国内视频分享网站也快速发展起来,网络视频的数量开始高速增长,增强了用户对视频搜索的依赖性。大部分视频分享网站站内数据库搜索模式不能满足人们对视频搜索越来越多的要求。本文以用户对网络视频搜索需求为研究背景,结合网络视频市场中对视频信息搜索的需求,在网络视频搜索向基于关键帧方向发展之际,在非关键帧的传统文本搜索模式基础上,采用垂直搜索理念和技术,以国内互联网上的视频分享型网站内容为视频信息特定自动采集对象,来实现网络视频搜索功能。同时为了实现视频信息的全文检索,还引入Lucene全文搜索引擎来实现系统的全文搜索功能。本文首先阐述了搜索引擎的基本原理以及垂直搜索的关键技术,然后对基于JAVA的Lucene全文搜索引擎技术进行必要的说明,最后在对网络视频搜索业务分析的基础上,得到系统的基本功能需求和最终目标。在系统功能需求和目标的基础上,运用UML分析设计技术和系统三层架构思想,对系统的功能设计和数据库设计以及系统数据备份策略进行了详细论述。由于系统的开发环境是Linux+Apache+PHP+MySQL,所以,本文还对Linux、Apache、PHP、MySQL进行了必要的说明。在此基础上,对系统

1 / 62
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功