Web数据挖掘和个性化搜索引擎研究

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

浙江大学硕士学位论文Web数据挖掘和个性化搜索引擎研究姓名:刘妮娜申请学位级别:硕士专业:计算机应用技术指导教师:陈纯;卜佳俊20050301Web数据挖掘和个性化搜索引擎研究作者:刘妮娜学位授予单位:浙江大学参考文献(49条)1.参考文献2.AndreaGarratt.MikeJackson.PeterBurden.JonWallisAsurveyofalternativedesignsforasearchengineStorageStructure2001(11)3.BrendonCahoon.KathrynSMckinleyEvaluatingthePerformanceofDistributedArchitecturesforInformationRetrievalUsingaVarietyofWorkloads2000(0Ⅰ)4.Feldman.DaganKnowledgediscoveryintextualdatabases(kdt)19955.SergeyBrinExtractingPatternsandRelationsfromtheWorldWideWeb19986.EugeneAgichtein.LuisGravanoSnowball:ExtractingRelationsfromLargePlain-TextCollections20007.Chia-HuiChang.Shao-ChenLuiIEPAD:InformationExtractionBasedonPatternDiscovery20018.TaoGuan.Kam-FaiWongKPS-AWebInformationMiningAlgorithm19999.SunKim.Byoung-TakZhangWeb-DocumentRetrievalbyGeneticLearningofImportanceFactorsforHTMLTags200010.DayneFreitagInformationExtractionfromHTML:ApplicationofaGeneralMachineLearningApproach199811.KristieSeymore.AndrewMcCallum.RonaldRosenfeldLearningHiddenMarkovModelStructureforInformationExtraction199912.TimothyRobertLeekInformationExtractionUsingHiddenMarkovModels199713.TaherHHaveliwalaEfficientcomputingofPageRank199914.MonikaHenzingerLinkAnalysisinWebInformationRetrieval2000(09)15.WilliamTHarding.AnitaJReed.RobertLGrayCookiesandWebBugs:WhattheyareandHowtheyworktogether2001(03)16.AEHowe.DDreilingerSavvySearch:AMeta-SearchEnginethatLearnswhichSearchEnginestoQuery1997(02)17.ClementYu.WeiyiMeng.WenshengWu.King-LupLiuEfficientandEffectiveMetasearchforTextDatabasesIncorporatingLinkagesamongDocuments200118.JXu.WBCroftCluster-BasedLanguageModelsforDistributedRetrieval199919.ALPowell.JCFrench.JPCallan.M.E.Connell,C.L.VilesTheImpactofDatabaseSelectiononDistributedSearching200020.SERobertson.ISoboroffTheTREC-10FilteringTrackReport200121.DHWidyantoro.TRIoerger.JYenAnAdaptiveAlgorithmforLearningChangesinUserInterests199922.曾春.邢春晓.周立柱基于内容过滤的个性化搜索算法[期刊论文]-软件学报2003(5)23.MPazzani.DBillsusLearningandRevisingUserProfiles:TheIdentificationofInterestingWebSites199724.TJoachims.DFreitag.TMitchellWebwatcher:ATourGuidefortheWorldWideWeb199725.KBollacker.SLawrence.CLGilesASystemforAutomaticPersonalizedTrackingofScientificLiteratureontheWeb199926.LChen.KSycaraWebMate:APersonalAgentforBrowsingandSearching199827.JBudzik.KHammondWatson:AnticipatingandContextualizingInformationNeeds199928.EJGlover.GWFlake.SLawrence.W.P.Birmingham,A.Kruger,C.L.Giles,D.M.PennockImprovingCategorySpecificWebSearchbyLearningQueryModifications200129.FangLiu.ClementYu.WeiyiMengPersonalizedWebSearchforImprovingRetrievalEffectiveness2004(01)30.GSalton.MJMcGillIntroductiontoModernInformationRetrieval198331.TimBerners-Lee.JamesHendler.OraLassilaTheSemanticWeb2001(05)32.TimBerners-LeeSemanticWebRoadmap199833.KirshFoundationsofAl:Thebigissues199134.JamesHendlerAgentsandthesemanticweb2001(02)35.NormanWalshAtechnicalintroductiontoXML199836.TimBray.JeanPaoli.CMSperberg-McQueenXML1.0recommendation200037.TimBray.DaveHollanderNamespacesinXML199938.DCFallsideXMLSchemapart0:primer200139.FrankManola.EricMillerRDFprimer200240.OraLassila.RalphRSwick(ResourceDescriptionFramework)RDFModelandSyntaxSpecification199941.PatrickHayesRDFModelTheory200242.DanBrickley.RVGuhaRDF(ResourceDescriptionFramework)modelandsyntaxspecification200243.TRGruberAtranslationapproachtoportableontologyspecifications[StanfordUniversityKnowledgesystemlaboratory,TechRep:Logic-92-1]199244.SeanBPalmerThesemanticweb:anintroduction200145.陈敏中文智能搜索引擎:思路、设计与系统46.马琳Web搜索引擎中个性化信息服务关键技术研究[学位论文]硕士200247.宋爱波.董逸生.吴文明.孙志挥Web挖掘研究综述[期刊论文]-计算机科学2001(11)48.陈恩红.徐涌.王煦法Web使用挖掘:从Web数据中发现用户使用模式[期刊论文]-计算机科学2001(5)49.黄豫清.戚广志.张福炎从WEB文档中构造半结构化信息的抽取器[期刊论文]-软件学报2000(1)相似文献(10条)1.学位论文王丽Web数据挖掘在个性化搜索技术上的研究2009互联网是为用户提供信息交换、共享而发展起来的Internet应用。人们上网的主要目的是查洵信息。由于Internet上的信息具有数量庞大、无序性强、重复性大的特点,互联网上的各种信息检索系统…搜索引擎成为帮助人们上网获取信息的主要工具。这些搜索引擎在给人们带来很大便利的同时也暴露出许多问题。搜索引擎返回给用户的检索结果数量越来越大,人们越来越难以找到真正符合自己意图的信息。传统搜索引擎缺乏个性化的局限性日益突出,单单依靠传统搜索引擎已经无法满足人们的需求,因此,搜索引擎的个性化研究成为当今Internet信息检索方面的一个重要课题。br  本文首先对Web挖掘的理论基础及个性化搜索引擎进行了介绍,其中包括Web数据挖掘分类、Web数据挖掘在个性化搜索中的应用、搜索引擎的分类及检索效果主要性能指标、个性化搜索引擎的基本类型和涉及的主要技术等。其次,针对Google给出的PageRank排序算法的一个缺陷,即同一页面的所有链出页面分得该页面相同权重的PageRank值,研究了给出的具有针对性的新算法,即使得同一页面的链出页面根据自身页面的重要性分得该页面不同权重的PageRank值。再次,本文探讨了用户兴趣模型,包括用户兴趣建模常用方法、用户兴趣模型技术等。最后,设计了个性化搜索引擎模型,思想是将Web挖掘和PageRank技术结合起来,建立用户兴趣模型,引入到个性化搜索引擎中,使检索结果更加符合用户的实际需要。br  在论文的最后,总结了本文的研究工作与存在的不足,并对进一步的研究工作进行了分析和展望。2.期刊论文刘振岩.王万森.陈立平WEB信息检索与WEB数据挖掘-微机发展2003,13(7)首先分析了WEB信息检索的现状,主要针对WEB信息检索的局限性,引出WEB数据挖掘,并对WEB数据挖掘技术作了概要的介绍.然后,讨论了WEB数据挖掘与WEB信息检索之间的关系,最后阐述了如何将WEB数据挖掘的研究成果应用到WEB信息检索领域中,从而提高WEB信息检索的效率和质量.3.学位论文杨滋荣基于Web数据挖掘的面向领域高性能信息检索研究2008随着Internet/Web技术的快速普及和迅猛发展,上的信息量不断增加,如何在这些信息中找到用户真正需要的内容,成为数据组织和Web相关领域专家学者关注的焦点。由于,因特网信息使用技术的发展往往跟不上因特网信息的增长,搜索引擎可以为人们查找与关键词相关的文档,但返回的结果往往是文档数量太多而命中率不高。传统搜索引擎技术满足了人们一定的需要,但由于其通用的性质,仍然不能满足不同背景、不同目的和不同时期的用户个性化的需求。基于Web挖掘的高性能信息检索就是针对这个问题而提出来的。研究的目标在于充分利用用户的个性化信息,通过用户兴趣制导或丰富查询模式等灵活手段来采集Web信息,充分利用网络信息,从而提高查询的准确度,提高了检索质量,并满足用户的特定查询需求。本文首先对Web挖掘技术和搜索引擎技术进行了分析,同时对其工作原理和数据挖掘中的聚类分析技术进行了较为深入的分析。由于高性能的个性化信息检索的前提是挖掘用户的访问特点并对用户进行分类,用户的访问行为是存放在Web日志中,Web日志数据

1 / 58
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功