信息检索结课论文题目:Web数据挖掘在Web信息检索中的应用学院:电子工程与自动化学院专业:仪器仪表工程学生姓名:凡阳阳学号:1708304011授课教师:李凤英收稿日期:2017-12-31作者简介:凡阳阳(1993-),男,河南信阳人,桂林电子科技大学硕士生,主要研究方向:图像处理相关技术的研究与应用-1-Web数据挖掘在Web信息检索中的应用凡阳阳(桂林电子科技大学电子工程与自动化学院,广西桂林541004)摘要:信息检索经过近几年的发展,在一定程度上满足了人们查找知识的需要,但是在检全率和检准率上还是不尽如人意。将数据挖掘技术运用到信息检索中,可使未来的网络信息检索更加精准、个性和智能化首先介绍并分析了Web信息检索,主要针对Web信息检索的局限性,引出Web数据挖掘,并介绍的数据挖局技术。然后讨论了如何将Web数据挖掘应用在Web信息检索上,以及数据挖掘与其他技术的结合在信息检索中的应用,最后对信息检索的未来发展进行了展望。关键字:Web信息检索;Web数据挖掘;可视化技术;开放网络知识库ApplicationofWebdataMininginWebInformationRetrievalFANYangyang(GuilinElectronicEngineeringandAutomationInstitute,GuangxiGuilin541004)Abstract:Informationretrievalhasmetpeople'sneedoffindingknowledgetosomeextentinrecentyears.However,therateandaccuracyofinformationretrievalarestillnotsatisfactory.Theuseofdataminingininformationretrieval,thefuturenetworkinformationretrievalmoreaccurate,personalityandintelligencefirstlyintroducesandanalyzestheWebinformationretrieval,mainlyaimingatthelimitationsofWebinformationretrieval,Webdatamining,andintroducesthedataminingtechnologybureau.ThenitdiscusseshowtoapplyWebdataminingtoWebinformationretrieval,andtheapplicationofdataminingcombinedwithothertechnologiesininformationretrieval.Finally,itforecaststhefuturedevelopmentofinformationretrieval.Keywords:WebInformationRetrieval;WebdataMining;VisualizationTechnology;OpenNetworkknowledgeBase0引言Web提供了丰富的数据资源,要想充分利用这些海量的数据,需要强有力的信息检索工具。目前的现状是“数据丰富,但信息贫乏”,人们迫切需要能够从Web上快速、有效地发现资源和知识的工具。Web上的搜索引擎部分地解决了资源发现问题,但是用户从大量资源中不能快速、准确地得到所需的有价值的信息。Web信息检索经过这么多年的发展,在一定程度上满足了人们查找知识的需要,但是在检全率和检准率上还是不尽人意。因此,人们需-2-要比信息检索层次更高的数据挖掘技术,以更有效的手段对各种大量数据进行挖掘并发挥其潜能。数据挖掘正是在这样的应用需求环境下产生并迅速发展起来的。1Web信息检索20世纪50年代,计算机技术开始得到实际应用,“情报检索”也开始与IT技术紧密结合,从而产生了现代意义的“信息检索”。信息检索主要是研究如何获取上的信息资源,又称为Web信息检索,它有以下几个特点:大数据量、分布式、多用户、非专业。网络信息资源检索的上述特点,造成了网上信息获取的障碍。从20世纪60年代以来,信息检索领域在索引模型、文档内容表示、匹配策略等方面取得了许多研究成果。这些成果被成功地应用在WEB上,产生了搜索引擎,著名的有Google、Baidu、Yahoo!、Altavista等。1.1搜索引擎的原理搜索引擎(SearchEngine)指对站点资源和其他网络资源进行标引和检索的一类检索系统机制。其基本功能通常包含三部分:(1)下载Web文档和有关的信息资源到本地进行预处理;(2)对文档内容建立索引;(3)搜索引擎按照用户提出的检索请求,通过建立的索引检索出匹配的文档及其相关的链接返回给用户。搜索引擎通常有6个相对独立的基本组成部分:Robot、临时文档数据库、索引器、索引数据库、检索器和用户接口。搜索引擎结构如图1所示。图1搜索引擎的基本结构1.2搜索引擎的缺陷逻辑运算符。目前的搜索引擎提供的提问函数有限,一般只提供关键词间最基本的布尔连接。像SQL语言那样复杂的查询语言在现有的搜索引擎中还不能应用。仅使用关键词提问。现有的搜索引擎仅允许用一组关键词及逻辑运算符组成提问,很难满足人们的搜索要求,而自然语言理解又是非常困难的任务,现在仍在研究之中。-3-简单的结果表示方法。搜索引擎返回的结果太多,用户可能选择前面的一小部分,而放弃了很多信息,因此可能丢失了很多有用的信息不能利用检索历史信息。用户的每次检索都是从头开始的检索,不能从原有的查询结果中作进一步的提炼,即不具有学习能力。1.3Web信息检索的发展方向通过上面的分析可知,造成获取有用信息难的实质在于搜索引擎缺乏知识处理能力和理解能力,对要检索的信息仅仅采用机械的关键词匹配来实现,对所检索到的结果只经过简单的处理就直接送给用户,由用户自己逐个浏览取舍。如何使Web信息检索的智能化程度更高,更能满足用户的需求,一个很有发展潜力的方法就是:将Web数据挖掘技术引入到Web信息检索领域中来。下面,将概括介绍一下Web数据挖掘技术,以及Web数据挖掘在Web信息检索中的应用。2数据挖掘概述大多数学者比较认同的数据挖掘定义是:从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。经过几年的发展,数据挖掘领域也提出了许多挖掘方法,如关联分析、决策树和统计学方法等。数据挖掘和信息检索在很多方面都有所不同。信息检索领域的任务是使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面。而数据挖掘则是知识发现不可缺少的一部分,是将未加工的数据转换为有用信息的过程。数据挖掘技术能增强信息检索系统的能力,揭示数据中隐含的知识,并能预测数据未来的走势,是比信息检索层次更高的技术。3Web数据挖掘Web挖掘从数据挖掘发展而来,但是Web挖掘与传统的数据挖掘相比有许多独特之处。Web挖掘是指从大量、异质、分布的Web文档的集合中抽取感兴趣的、有用的模式和隐含信息。一般地,Web挖掘可分为三类:WEB内容挖掘(WebContentMining)、Web结构挖掘(WebStructureMining)和Web使用记录的挖掘(WebUsageMining)。3.1Web内容挖掘Web内容挖掘即从网络的内容、数据、文档中发现有用的信息的过程。有些信息可直接从网上得到,如网页中的文字、图形、声音、好友网页的链接及目录结构等。但是还有一些网络信息是不易得到的。如用ASP、JSP或PHP生成的动态网页等。这些结构化的或用HTML-4-标记的半结构化数据都是内容挖掘所需要处理的对象。因而,网络内容挖掘常从以下两个方面进行。Web页面内容挖掘。网络页面内容挖掘常采用的技术是文本挖掘和多媒体挖掘。文本挖掘是直接挖掘Web文档内容或指从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释。大多数能用于数据库的文档挖掘方法如分类、聚类、关联分析等经过相应的改进处理后均可应用于Web内容挖掘。除此之外,Web文档中的一些标记,title、heading等蕴含了一些直接表示信息,可利用这些信息提高Web文本挖掘的质量。搜索结果再挖掘。即对其他信息检索工具的检索结果进行的再次挖掘。一些系统就通过分析搜索引擎查询的结果,如URL、标题、内容类型、内容长度和超文本链接等信息,提炼出更合适的结果,也有的将搜索结果聚类,然后再将其分类并利用文档可视化将其表示出来。3.2Web结构挖掘Web结构挖掘即挖掘Web潜在的链接结构模式,从Web组织结构和链接关系中推导知识。比如可以通过Web链接结构识别权威网页,主要方法有HITS算法、Google的PageRank算法、Propriteary算法等网页排序挖掘算法,其挖掘方式主要表现在以下两个方面:网页引用挖掘。网页中包含了大量的链接关系,几乎所有的Web站点页面之间的联系都是通过超链来实现的,通过对这些链接关系的分析,可以发现哪些网页被链接次数最多,从而可分析得到哪些网页相对比较重要。网站结构挖掘。站点链接和站内链接的构造方式基本上是一样的。本质上,每个Web站点的结构都具有层次性。通过数据挖掘以及用户访问模式等分析,可以使网站的架构更加完善,可以改进网站的链接结构及内容呈现的方式,提高使用者浏览的兴趣,吸引更多的人浏览。3.3Web使用记录的挖掘网络使用挖掘即通过挖掘访问日志(WebAccessLog)记录,发现用户访问Web页面的模式。网络内容挖掘、结构挖掘的对象是网上的原始信息,而使用挖掘的对象是用户与网络交互过程中产生的第二手数据,这些数据包括来自于每个Web服务器和Cookies保留的用户注册信息、访问记录以及有关用户与系统交互的信息等。它包括以下两种方法:一般访问模式追踪。通过追踪分析记录,可以了解用户的访问模式和倾向。访问模式的获取有助于网站的重构,研究特殊的用户行为等。个性化的使用记录追踪。分析单一用户的偏好,根据不同用户的访问模式,为每个用户提供个性化的服务。通过分析个人的倾向,可以给用户提供不同的信息资源和信息的显示方-5-式,可以从中获取用户的信息需求,从而可对资源进行过滤,提供给用户所需的信息。4将WEB数据挖掘应用到WEB信息检索中面对日益爆炸的信息,尽管传统的搜索引擎和新一代搜索引擎如Google、Baidu等在一定程度上满足了人们信息检索的需求,但信息检索在很多方面还是不尽如人意。数据挖掘已渗入到了网络领域,它对网络信息检索势必会带来一系列的变革,对其性能也会有所提升。4.1对文档进行自动分类分类在搜索引擎中的价值在于可以缩小检索范围,大大提高查准率。目前,搜索引擎中的自动分类还很不成熟,搜索引擎分类绝大部分依靠手工操作。而Web挖掘中的文本分类是按照预先定义的主题类别,利用计算机自动为文档集合中的每一个文档进行分类。这种文本分类技术发展比较成熟,已经出现了很多种的文本分类技术,如TFIFF算法等,将文本分类技术应用于搜索引擎中,实现对大量页面自动、快速、有效的分类,来提高文档检索的查准率。4.2对网页内容进行聚类聚类指的是将文档集合中的文档分为更小的簇,要求同一簇内的文档之间的相似性尽可能大,而簇与簇之间的关系尽可能小。聚类没有预先定义好主题类别,从而使得搜索引擎的类目能够与所收集的信息相适应。文本聚类是一种典型的无教师的机器学习问题,目前的文本聚类方法大致可以分为层次凝聚法和平面划分法两种类型。文本聚类技术与人工分类相比,它的分类更加迅速、客观。通过对搜索引擎检索结果中的文档进行聚类,可以使相关文档集中在一起,使用户在进行浏览选择的时候可以只选择最为相关的簇,这样就大大减少了用户进行浏览的数量。4.3对网上的超链结构进行分析用户在使用搜索引擎时,不仅希望检索出所需信息,更希望检索出的信息具有很高的质量,具有权威性。对网上的超链接结构进