数据检索服务的设计以及全文检索系统的初步实现

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

InfoMall数据检索服务的设计以及全文检索系统的初步实现InfoMallDataRetrievalServiceanditsFullTextRetrievalSystem姓名:杨志丰学号:00108094院系:信息科学技术学院专业:计算机科学与技术指导教师:闫宏飞2005年6月-i-论文评定导师评语为历史存档的网页信息提供全文信息检索,是更好展示和挖掘网页历史信息必不可少的手段。为历史存档网页建立索引提供检索服务,不同于搜索引擎,通常其数据量更大,并且具有自己的特性。杨志丰同学的毕业论文工作,是对这一部分内容有益的探索。论文所涉及的工作是在中国Web信息博物馆(InfoMall)的基础上完成的。通过对InfoMall网页信息博物馆的数据需求的分析,利用基于时间、空间、内容的网页数据三维模型,设计了InfoMall数据检索服务,并规约了服务原语,设计了系统组成。该文进一步设计和实现了InfoMall数据检索服务的系统组成中的主要模块——全文索引系统。主要针对InfoMall数据的特点和数据检索服务的需求,在空间利用率和系统灵活性两个方面做了探讨和优化。论文内容丰富,所涉及的工作量大,且有较强的系统性,是一篇很有价值的论文。在毕业设计工作的过程中,该同学态度端正,积极努力,表现出很强的进取精神和踏实的工作作风,为InfoMall的发展做出了贡献。成绩___优______指导教师签字__闫宏飞________2005_年_6_月_9_日-ii-摘要中国Web信息博物馆是北京大学网络实验室研究和开发的中国万维网(WorldWideWeb)历史信息的存储和展示系统。但现有系统提供的服务不能满足用户对宝贵的历史网页数据的信息需求,因而限制了它的广泛使用。本文试图从实际出发,探讨和尝试如何利用保存下来历史网页数据提供公共信息服务。本文通过对InfoMall网页信息博物馆的数据需求的分析,利用基于时间、空间、内容的网页数据三维模型,设计了InfoMall数据检索服务,并规约了服务原语,设计了系统组成。例如,利用我们提供的服务,用户可以查询“1997年2月到2005年2月期间内蒙古自治区范围内所有*.gov.cn域名下内容包含‘民主’的网页文档的全文”。本文设计和实现了InfoMall数据检索服务的系统组成中的主要模块――全文索引系统。我们主要针对InfoMall数据的特点和数据检索服务的需求,在空间利用率和系统灵活性两个方面做了探讨和优化。关键词InfoMall,历史网页,信息检索,倒排文件,索引-iii-AbstractWebInfoMallisadigitallibrarytostorewebpagesofChineseWorldWideWebperiodicallyandexhibitthemtopeopleonline,whichisdesignedanddevelopedbyComputerNetworkandDistributedSystemsLaboratoryofPekingUniversity.Howevercurrentavailableservicesaretoolimitedtomeetuser’sinformationneedsandpreventitfrombeingwidelyused.Thatisagreatwasteofthevaluablearchaicwebpages.Inthisarticle,wepresentourideasofhowtousethesearchaicwebpagestoprovideinformationservicetopublic.Inthisarticle,weanalyzedtheuser’sinformationneedsanddesignedapowerfulservicecalledInfoMallDataRetrievalService,usingathree-dimensionalmodelbasedontime,spaceandcontent.Wespecifiedthesyntaxofqueryanddesignedthecomponentofthesystem.Inaddition,wedesignedandimplementthefulltextretrievalsystemthatisakeycomponentofInfoMallDataRetrievalService,whichisdesignedtobebothflexibilityandspacialeffective.KeywordsInfoMall,archaicwebpages,informationretrieval,invertedfile,index-iv-目录论文评定.........................................................................................................................................i摘要................................................................................................................................................ii关键词............................................................................................................................................iiAbstract..........................................................................................................................................iiiKeywords........................................................................................................................................iii目录...............................................................................................................................................iv1引言................................................................................................................................................11.1背景.......................................................................................................................................11.2相关工作...............................................................................................................................21.3本文贡献...............................................................................................................................22数据检索服务的设计....................................................................................................................32.1数据模型...............................................................................................................................32.2服务.......................................................................................................................................52.3服务原语...............................................................................................................................62.4数据传输协议.......................................................................................................................82.5系统组成模块.......................................................................................................................83全文检索系统设计和实现............................................................................................................93.1系统设计目标.......................................................................................................................93.2系统结构和处理流程.........................................................................................................113.3系统设计决策.....................................................................................................................133.4重要的数据结构和算法.....................................................................................................143.4.1词典结构........................................................................................................................143.4.2倒排文件索引项.....................

1 / 29
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功