分类号密级UDC分布式语义搜索引擎高素楚导师姓名(职称)廖乐健(教授)答辩委员会主席牛振东申请学科门类工学论文答辩日期2007年7月7日申请学位专业计算机应用技术2007年6月20日I研究成果声明本人郑重声明:所提交的学位论文是我本人在指导教师的指导下进行的研究工作获得的研究成果。尽我所知,文中除特别标注和致谢的地方外,学位论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京理工大学或其它教育机构的学位或证书所使用过的材料。与我一同工作的合作者对此研究工作所做的任何贡献均已在学位论文中作了明确的说明并表示了谢意。特此申明。签名:日期:关于学位论文使用权的说明本人完全了解北京理工大学有关保管、使用学位论文的规定,其中包括:①学校有权保管、并向有关部门送交学位论文的原件与复印件;②学校可以采用影印、缩印或其它复制手段复制并保存学位论文;③学校可允许学位论文被查阅或借阅;④学校可以学术交流为目的,复制赠送和交换学位论文;⑤学校可以公布学位论文的全部或部分内容(保密学位论文在解密后遵守此规定)。签名:日期:导师签名:日期:IIDistributedSemanticSearchEngineGAOSuchuAthesissubmittedinfulfillmentofrequirementsforthedegreeofMasterofComputerScienceDepartmentofComputerScienceandEngineeringBeijingInstituteofTechnologySupervisor:ProfessorLiaoLejianJuly,2007III摘要:随着Web信息量迅猛增长,搜索引擎作为信息共享和信息发现的有力工具,已成为研究的热点。传统的搜索引擎技术比较成熟,但存在内容繁杂、信息冗余量大、查询精度低、信息更新较慢等缺陷。基于关键词精确匹配的检索机制是导致这些不足的主要原因。把搜索引擎的检索策略从基于关键词层面提高到基于语义层面,是解决问题的根本和关键。语义Web技术实现了信息共享、机器理解和异构系统的互操作,提供了对语义信息检索的支持。本文详细介绍了搜索引擎的结构、分类、评价标准,深入分析了搜索引擎发展状况、存在的问题和发展方向。并介绍了语义Web相关技术以及语义Web搜索的应用现状。信息抽取作为一个独立于信息检索的领域,为搜索引擎技术的改进提供了强有力的支持,本文设计并实现了一个扩展的HTMLDOM接口,演示了利用此接口实现对网页的自动化元数据信息抽取。基于概念的搜索引擎是语义搜索的一种形态,本文设计了一种基于激活扩散算法的概念网模型,它尝试着将弱推理能力的Ontology——概念网引入到IR系统。分布式搜索引擎是未来搜索引擎的发展方向,P2P技术会对当前的搜索模式产生革命性影响,本文在此概念网模型的基础上提出了P2P搜索引擎原型系统的设计方案。关键词:搜索引擎,语义信息搜索,语义Web,Ontology,对等网络IVAbstract:WiththerapidincreaseofWebinformation,searchengine,apowerfultoolforinformationsharinganddiscovery,hasbecomearesearchhotspot.Althoughthetechnologiesofthetraditionalsearchengineisquitemature,itstillhasmanyflaws,suchas,thesuperabundantsearchresults,theredundantinformation,thelowsearchprecisionandtheslowupdatesetc.Theinefficiencyismainlycausedbysearchmechanismofprecisematchingbaseonkeywords.Improvingtheretrievalstrategyofthesearchenginefromthekeywordleveltothesemanticlevelisthekeyofsolvingtheproblem.ThesemanticWebtechnologynotonlyrealizestheinformationsharing,themachineunderstandingandtheheterogeneoussystems’interoperability,butalsoprovidesgreatsupporttothesemanticinformationretrieval.Thispaperspecificallypresentsthestructure,theclassifiedsandtheevaluatingstandardforsearchengineindetailsanddeepanalyzesthesearchengine’sdevelopmentstatus,existingproblemsanditsdevelopingdirection.ThispaperalsopresentstherelatedtechnologiesofSemanticWebandstatusofSemanticWebSearch’sdevelopment.Asastandaloneresearchdomain,Informationextractionprovidesastrongsupportforimprovingthetechnologyofthesearchengine.ThispaperdesignsandimplementsaextendedHTMLDOMinterfacewhichcanrealizetheauto-informationextractiononthewebpage.Theconcepts-basedsearchengineisadevelopmentstatusofSemanticsearchengine.Thispaperdesignsamodelofconceptualgraphsbaseonaspreadactivationalgorithm,whichtrytointroducetheweak-inferenceOntologytotheIRsystem.Distributedsearchengineisthefuturedevelopingdirectionofthesearchengine.P2Ptechnologywillhaveoverthrowingimpactonexistingsearchmodels.ThispaperdesignsamodelofP2Psearchenginewhichbasestheabovementionedconceptualgraphs.Keywords:searchengine,semanticinformationretrieval,semanticWeb,ontology,P2P.V摘要:.....................................................................................................................................IIIAbstract:..................................................................................................................................IV图表目录................................................................................................................................VI1.绪论..................................................................................................................................11.1研究背景.....................................................................................................................11.2研究内容.....................................................................................................................21.3本文的章节安排...........................................................................................................32.搜索引擎技术研究.............................................................................................................42.1搜索引擎概述..............................................................................................................42.2搜索引擎分类..............................................................................................................52.2.1机器人搜索引擎.................................................................................................52.2.2目录式搜索引擎.................................................................................................62.2.3元搜索引擎........................................................................................................72.3搜索引擎结构..............................................................................................................72.3.1Web信息获取模块..............................................................................................72.3.2索引模块............................................................................................................82.3.3信息检索模块...............................................................