1208114141_徐渊_计算机科学与技术_基于Web内容的数据挖掘分析

lovelulu6181
1 ℃
2020-01-15

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

学号：1208114141基于Web内容的数据挖掘分析学院名称：计算机与信息工程学院专业名称：计算机科学与技术专业年级班别：2012级1班姓名：徐渊指导教师：于红斌2016年5月河南师范大学本科毕业论文河南师范大学本科毕业论文1基于Web内容的数据挖掘分析摘要二十一世纪以来，互联网技术飞速发展，Web也越来越流行，Web信息资源也是呈现爆炸式增长。基于Web内容的数据挖掘分析，通过收集Web访问者的互联网浏览记录、上网习惯等方式得到原始数据，用来改进互联网用户的操作体验，提升Web服务，也有利于商户开展有关的电子商务活动。本文讲述了从Web挖掘到Web内容挖掘、Web结构挖掘、Web使用挖掘的相关内容，重点简述了Web使用挖掘的过程。表明了Web数据挖掘的主要应用方向，并着重分析相关应用方向的关键技术，然后介绍了Web数据挖掘的技术实现，有关联规则，序列模式挖掘技术，分类、聚类技术，路径分析技术，以及最后的Web挖掘技术的流程。关键词数据挖掘；Web挖掘；信息提取DataMiningAnalysisBasedonWebContentAbstractThetwenty-firstcentury,therapiddevelopmentofInternettechnology,Webhasbecomeincreasinglypopular,Webinformationresourcesisexplosivegrowth.DatamininganalysisbasedonWebcontent,browsethroughthecollectionofWebvisitorsInternetrecords,surfinghabitsandotherwaystogettherawdatausedtoimprovetheoperationoftheInternetuserexperience,enhancetheWebservices,butalsoconducivetoconductbusiness-relatede-commerceactivities.ThisarticledescribestheminingfromtheWebtoWebcontentmining,Webstructuremining,Webusagemining-relatedcontent,focusingbrieflyonWebusageminingprocess.ItindicatesthedirectionofthemainapplicationWebdatamining,andanalyzesthekeytechnology-relatedapplicationdirection,andthenintroducedtheWebdataminingtechnology,associationrules,sequentialpatternmining,classification,clusteringtechnology,pathanalysis,andlastWebminingprocess.KeywordsDatamining;Webmining;Informationextraction河南师范大学本科毕业论文2前言近年来，网络以及通信技术不断发展，互联网无疑成为全世界影响最大的信息服务的平台，给人们的生活带来了非常大的变革。如今，信息显得特别重要，互联网上的相关信息资源也无比丰富，人们在对待这么丰富的信息资源时，只有研究出关键相关技术才能从中挖掘出有价值的信息来。Web数据挖掘就这样诞生了，它可以帮助人们挖掘出人们所需要的隐藏在巨大信息资源背后的有效信息，符合人们的预期，这已经成了热门的研究方向。1Web挖掘1.1概念在1996年，OrenEtzioni第一次提出了Web挖掘这个概念。Web挖掘就是从海量的Web资源当中通过采用数据挖掘的技术能动的得到需要的信息[1，11]。数据挖掘是有数据库、AI、自然语言等几个方面的汇总[2]。Web数据挖掘的步骤如下：1）发现资源：任务是在Web当中检索数据；2）信息选取和数据预处理：将已经挑选得到的某些原始数据根据相关技术进行预处理[3]；3）发现获取概要模式：利用某些特定技术将藏匿在不同的Web当中的概要模式进行提取；4）概要模式分析：确认已经获得的模式并解释。1.2Web数据挖掘的分类Web数据挖掘的通常分类方法是依据挖掘对象的不相同，分类如下：web的内容挖掘；web的结构挖掘；web的使用挖掘。如图1。1.2.1Web的内容挖掘Web的内容挖掘就是针对Web文档，对于那些可以利用原始数据预处理技术处理的海量数据进行处理得到有价值的信息。Web的内容挖掘是对多媒体文档和文本文档来说的。Web的文本数据挖掘，是对Web进行归纳，总结，分析，最终得出结论的[4,12]。近年来，业内对多媒体数据挖掘技术也是越来越成熟，越来越深入。河南师范大学本科毕业论文3图1.1挖掘分类（1）Web的文本数据挖掘Web的文本数据挖掘是把统计学和计算机语言学作为理论基础，从海量的文本数据中提取有用的信息技术[5,13]。（2）Web的多媒体数据挖掘对Web当中的图片、视频、音频等多媒体信息进行相关技术分析获得有效的模式信息，企图得知事物之间的相关性，得出结论。文本总结就是用较少的话语来归纳已经提取得到的信息。文本分类就是根据不同的性质或主题将文本分门别类。文本聚类就是将某些具有相同的特征的文本集合起来。关联分析就是找到文档中不同部分的内在的关系。1.2.2Web的结构挖掘Web的结构挖掘是在Web结构和链接关系当中寻找到隐含的信息和模式的过程。Web内容的结构不相同的网页之间的链接的关系，还有网页页面里的树形的关系，如HTML、XML，以及文档URL的目录路径结构等等[6]。利用Web的结构挖掘分析可以更加深入的对Web文档的内容进行分析，从整体的角度审视文档。结构分析可以采用先分解，再变形，最后归纳总结的方法。通过分类技术和聚类技术，获得最为重要的页面，称之为权威页面，目的是能够使得查找信息更加高效。所谓链接关系指的是某些网页当中存在着彼此分享某些内容，相互引用的关系。Web的结构挖掘有很多的应用，包含以下几个方面：Web挖掘内容挖掘结构挖掘使用挖掘文本挖掘多媒体挖掘用户访问模式分析分析定制Web站点超链接挖掘页面结构挖掘河南师范大学本科毕业论文41）对网页的采集有着指导作用：因为链接关系，一个网页可能与其他不同的网页相链接，可以对这些相关联的网页进行质量排序，依据实际需要获得一些有价值的网页。2）网页聚类：当前很多网页的聚类分析是依据文本相似度，但是有些可能会不符合预期目标。此时可以采用Web的结构挖掘分析，利用链接关系进行聚类可能会得到意想不到的结果。3）对社会团体进行识别：在互联网上有许多社会团体构建，运行以及维护的网页，可以对这些社会团体进行识别。4）对资源进行自动分类：日常生活中我们经常使用的搜索引擎基本上都是按照层次来分类的，当前主要有贝叶斯概率方式和SVM方式。有专家曾验证表明，在按照分类的样本的学习机当中采用链接的方式进行分析就能够对分类的细化程度进行提高。1.2.3Web的使用挖掘Web使用挖掘就是根据在服务器上的搜索记录进行挖掘，就是对用户访问Web网页时的存取方式进行挖掘，以得到用户有关的访问模式[7,14]。使用挖掘即与日志挖掘相同。Web的使用挖掘分析得到互联网使用者的可能的访问模式，如互联网的某些可能访问习惯。根据实际应用不相同，可以分为两种跟踪模式，属于个人的独有的访问模式跟踪以及普通的大众的访问模式跟踪。个性化的访问模式跟踪就是依据个人用户的喜好和特性，构建合适此人的Web站点。一般的访问模式跟踪就是正常根据整理平时网页日志来了解访问模式以及个人倾向，通过采用这些跟踪模式可以很好的了解Web结构以及资源分配者的遍布情况[8]。Web的使用挖掘可以分为以下几个步骤：采集数据，数据预处理，发现模式，分析模式[9]。如图：图1.2Web使用挖掘基本过程2Web数据挖掘的主要应用研究方向原始日志预处理后的数据各种模式在意义的模式规则河南师范大学本科毕业论文52.1智能化搜索引擎进入二十一世纪以来，随着互联网技术的快速发展，网络上的信息量急剧增加，网络信息也是即时更新，网络用户们急切需要符合自己需求的工具，用来快速准确的获取有用的信息，尽量使得检索效率增高。由于现有的搜索引擎，如百度、搜狗，已经能很好的达到搜索信息的目的，所以数据挖掘的工程师们从数据挖掘的角度来提高检索信息的准确度，使得个性化服务更加能够应用到网络互联网使用者的日常生活中。2.1.1目前的搜索引擎存在的不足：1)逻辑运算符不能满足用户需求目前的搜索引擎诸如百度等，所能够提供的提问函数不能够满足用户的需求，很多的搜索引擎只是能够在关键词的布尔连接之间提供帮助，但是例如SQL语言之类较为复杂的搜索不能提供给相关用户。2）在增量检索方面没有研究目前的搜索引擎在增量检索方面还缺乏发展，只能够对检索信息从新开始，而不能将用户曾经的检索过的信息进一步提炼，以达到更加准确的程度。3）只能提供关键词搜索目前广泛使用的关键词搜索不能更好的满足用户的需求，关键词搜索仅仅只是简单的关键词匹配和检索。不能智能化的用语言交流，来达到检索的目的。4）搜索引擎单一面对当前海量的网络资源，单个搜索引擎的力量以及数据库的容量都对搜索能力的范围有所限制，而且不同的搜索引擎之间存在着许多相同的信息。2.1.2搜索引擎的关键技术1）排序信息和集成信息目前用户利用搜索引擎检索信息时，一般会反馈得到相关文档的摘要。许多搜索引擎会通过自动摘要的功能选择性抽词。这种方法准确度不高。人们可以利用Web的内容挖掘当中的对文本进行归纳的相关技术，也就是说利用Web文档的内容而不是根据某些词的位置来检索信息。对于PageRank算法，就是搜索引擎首先是检索提问，之后再将检索得到的结果进行页面的分析[15]，得到页面的相关等级，然后依据页面对检索结果的重要性进行输出。全球著名的搜索引擎Google就是采用了这个技术才使得其检索结果准确度高。类似的算法还有AuthorityandHub[16]。2）识别搜索条件对搜索条件进行识别含有以下两个方面：一是对查询条件当中的有效成分进行提取；河南师范大学本科毕业论文6二是依据知识的数据库对所针对的关键词的相关词，如近义词或同义词进行提取。假设搜索引擎在对一个关系复杂的查询进行检索时，若简单的使用自然语言不做替换或提取有效成分，则很难得到预期的结果。所以说，建立一种有效的检索机制对提高检索准确度至关重要。3）个性化搜索引擎个性是每个人的特征，追求个性是每个人的基本心理。搜索引擎与个性相结合，将更加能够得到用户的青睐。开发个性化的搜索引擎的首要前提就是能够准确的获知用户的兴趣爱好。通常为得知用户的兴趣爱好的方法就是根据用户的检索关键词、浏览的网页、书签文件、以及用户的动态更新等等。2.2智能化Web浏览器随着互联网的发展，信息资源也越来越丰富，传统的Web浏览器在应对用户需求时，可能难以应对。此时智能化的Web浏览器才能让用户需求得到更好的满足。2.2.1传统的Web浏览器存在的不足：1)不能满足用户的个性化要求；传统的Web浏览器接受用户的需求之后，机械的与服务器连接，服务器所反馈回来的页面不能与用户的个性相匹配，信息准确度不高。2）用户可能会漫无目的的浏览服务器反馈回来的海量信息，就是因为深度优先的检索，结果极有可能使得用户迷失自我，脱离预期目标。3)由于没有信息过滤机制，查询结果有可能会重复，还会有无关的内容，以及过时的信息。使得互联网使用者浪费时间，搜索引擎的检索效率低。4）不存在能够自动的查找新内容的功能。2.2.2智能Web浏览器的关键技术1)特征选取特征选取是开发个性化Web浏览器的关键，经常使用的方法有依据某个词语出现的频率来选取特征、依据浏览的的行为特征来选取特征、依据能否增加期望信息来选取特征、依据相互交流的信息量来选取特征。