数据挖掘原理与算法07

xlxlll
1 ℃
2020-03-27

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

2020年3月27日星期五1第七章Web挖掘技术内容提要Web挖掘的意义Web挖掘的分类Web挖掘的含义Web挖掘的数据来源Web内容挖掘方法Web访问信息挖掘方法Web结构挖掘方法2020年3月27日星期五2Web挖掘的价值从大量的信息中发现用户感兴趣的信息：因特网上蕴藏着大量的信息，通过简单的浏览或关键词匹配的搜索引擎得到的是孤立而凌乱的“表面信息”，Web挖掘可以发现潜在的、丰富的关联信息。将Web上的丰富信息转变成有用的知识：Web挖掘是面向Web数据进行分析和知识提取的。因特网中页面内部、页面间、页面链接、页面访问等都包含大量对用户可用的信息，而这些信息的深层次含义是很难被用户直接使用的，必须经过浓缩和提炼。对用户进行信息个性化：网站信息的个性化是将来的发展趋势。通过Web挖掘，可以达到对用户访问行为、频度、内容等的分析，可以得到关于群体用户访问行为和方式的普遍知识，用以改进Web服务方的设计，提供个性化的服务。2020年3月27日星期五3第七章Web挖掘技术内容提要Web挖掘的意义Web挖掘的分类Web挖掘的含义Web挖掘的数据来源Web内容挖掘方法Web访问信息挖掘方法Web结构挖掘方法2020年3月27日星期五4Web挖掘的类型Web挖掘依靠它所挖掘的信息来源可以分为：Web内容挖掘（WebContentMining）：对站点的Web页面的各类信息进行集成、概化、分类等，挖掘某类信息所蕴含的知识模式。Web访问信息挖掘（WebUsageMining）：Web访问信息挖掘是对用户访问Web时在服务器方留下的访问记录进行挖掘。通过分析日志记录中的规律，可以识别用户的忠实度、喜好、满意度，可以发现潜在用户，增强站点的服务竞争力。Web结构挖掘（WebStructureMining）：Web结构挖掘是对Web页面之间的链接结构进行挖掘。在整个Web空间里，有用的知识不仅包含在Web页面的内容之中，而且也包含在页面的链接结构之中。对于给定的Web页面集合，通过结构挖掘可以发现页面之间的关联信息，页面之间的包含、引用或者从属关系等。2020年3月27日星期五5第七章Web挖掘技术内容提要Web挖掘的意义Web挖掘的分类Web挖掘的含义Web挖掘的数据来源Web内容挖掘方法Web访问信息挖掘方法Web结构挖掘方法2020年3月27日星期五6Web挖掘的含义WeB挖掘是一个看宽泛的概念，可以简单地描述为：针对包括Web页面内容、页面之间的结构、用户访问信息、电子商务信息等在内的各种Web数据，应用数据挖掘方法以帮助人们从因特网中提取知识，为访问者、站点经营者以及包括电子商务在内的基于因特网的商务活动提供决策支持。2020年3月27日星期五7Web挖掘与信息检索两种截然不同的观点：Web上的信息检索是Web挖掘的一个方面：Web挖掘旨在解决信息检索、知识抽取以及更宽泛的商业问题，是Web上IR技术的延伸。这种观点大多来自于数据挖掘研究领域。Web挖掘是智能化的信息检索：对于IR领域的研究人员来说，Web挖掘是IR研究向着智能化的方向发展的结果。信息检索可能经常被说成是Web挖掘的初级阶段，是为了强调Web挖掘不是简单的信息索引或关键词匹配技术，而是实现信息浓缩成知识的过程，它可以支持更高级的商业决策和分析。2020年3月27日星期五8Web挖掘与信息抽取Web上的IE的研究目的是希望从众多的Web文挡中抽取可供分析的信息，与Web挖掘的关系也有不同的观点：IE是Web挖掘整个过程的一部分：这是因为Web上的数据一般是半结构化或无结构的，因此需要进行规格化的信息抽取这样的预处理。Web挖掘是IE的一个特殊技术：既然IE是希望把Web蕴藏的信息抽取出来，那么Web挖掘或者文本挖掘只不过是达到这个目的的特殊技术手段。信息抽取经常被说成是Web挖掘的一个预处理阶段，那是因为在数据挖掘领域，Web挖掘的更广义的理解应该是一个知识提取的完整过程。2020年3月27日星期五9第七章Web挖掘技术内容提要Web挖掘的意义Web挖掘的分类Web挖掘的含义Web挖掘的数据来源Web内容挖掘方法Web访问信息挖掘方法Web结构挖掘方法2020年3月27日星期五10Web挖掘的主要数据源Web挖掘的数据来源是宽泛的：凡是在Web站点中对用户有价值的数据都可以成为它挖掘的数据源。由于这些对象的数据形式及含义的差异，其挖掘技术会不同。一些比较有代表性的数据源有：服务器日志数据：Web访问信息挖掘的主要数据源。2020年3月27日星期五11服务器日志数据对Web服务器的访问，服务器方将会产生3种类型的日志文件：Serverlogs：记录用户的访问时间、IP地址以及请求等信息。Errorlogs：存取请求失败的数据，例如丢失连接、授权失败或超时等Çookielogs：Cookie是由web服务器产生的记号并由客户端持有，用于识别用户和用户的会话。FieldDescriptionDateDate，time，andtimezoneofrequestClientIPRemotehostIPand/orDNSentryUsernameRemotelognameoftheuserBytesBytestransferred(sentandreceived)ServerServername，IPaddressandportRequestURIqueryandstemStatushttpstatuscodereturnedtotheclientServicenameRequestedservicenameTimetakenTimetakenfortransactiontocompleteProtocolversionVersionofusedtransferprotocolUseragentServiceproviderCookieCookieIDReferrerPreviouspage……Serverlogs的一个格式示意2020年3月27日星期五12在线市场数据在线市场数据是指和市场活动相关的信息。例如一个电子商务站点，存储相关的电子商务信息。从内容上说，不同目的商务网站有不同的商务信息。但是，这类数据通常是用传统的关系数据库结构来存储数据。在线市场数据是业务数据，是进行业务相关分析的主体。用户的挖掘目标只有结合在线市场数据分析才能达到目的。2020年3月27日星期五13Web页面Web页面是网站信息的主体，但是它们的主要信息不可能像关系型数据库那样规整，因此Web页面的内容组织形式的分析是研究Web挖掘的具体方法的基础。目前的Web页面大多满足HTML标准，现有的Web挖掘方法大多是针对Web页面开展的。1998年语言标准（eXtensibleMarkupLanguage）。该标准通过把一些描述页面内容的标记（tag）添加到HTML页面中，用于对HTML页面内容进行自描述。基于XML规范的挖掘研究也是一个重要的研究分支。2020年3月27日星期五14第七章Web挖掘技术内容提要Web挖掘的意义Web挖掘的分类Web挖掘的含义Web挖掘的数据来源Web内容挖掘方法Web访问信息挖掘方法Web结构挖掘方法2020年3月27日星期五15Web内容挖掘的主要方法一种Web内容挖掘的分类方法是分为代理人方法和数据库方法。代理人方法使用软件系统（代理）来完成内容挖掘。例如，智能检索代理超越了简单的检索机制使用通过关键词之外的技术来完成检索，可以利用用户模版或其关心的知识领域等来实现信息的抽取。信息过滤利用信息检索技术、连接结构的知识和其他方法来分析和分类文档。个性化Web代理使用有关用户的喜好的信息来指导它们的检索。数据库方法将所有的Web数据描述为一个数据库系统。意味着Web是一个多级的异构的数据库系统，可以通过多种查询语言来获得Web的信息来完成信息的抽取。2020年3月27日星期五16文本挖掘是Web内容挖掘的基础文本挖掘（TD）的方式和目标是多种多样的，基本层次有：关键词检索：最简单的方式，它和传统的搜索技术类似。挖掘项目关联：聚焦在页面的信息（包括关键词）之间的关联信息挖掘上。信息分类和聚类：利用数据挖掘的分类和聚类技术实现页面的分类，将页面在一个更到层次上进行抽象和整理。自然语言处理：揭示自然语言处理技术中的语义，实现Web内容的更精确处理。ClusteringionClassificationTermassociationKeywordNaturallanguageprocessing图7-1文本挖掘体系示意2020年3月27日星期五17搜索引擎与Web内容挖掘传统的搜索引擎（SearchingEngine）效率低下。由于是基于Web中超文本结构分解的：它从一个网页开始的，通过查阅和记录这个网页的所有连接并把它们排列起来，然后再从找到的新页面继续开始重复工作。利用数据挖掘技术来改进搜索引擎是有价值的。这种价值体现在许多方面。例如，通过对搜索结果进行关联分析或聚类等，对结果进行清洗和浓缩。面向主题进行搜索，即只检索与某一主题有关的页面。聚焦用户感兴趣的页面，在有限的资源下使有效内容挖掘力度提高。基于搜索引擎的挖掘工作有下面一些重要方面：利用超文本链接结构进行页面内容分类，使搜索引擎检索的页面符合用户的兴趣。有些页面包含很多链接，而这些链接的页面是用户感兴趣的，因此它们需要被检索。采用合理而高效的方法对被选择的页面进行内容分析和挖掘。2020年3月27日星期五18虚拟的Web视图一个有效的解决在Web中大量无结构数据的方法是在这些数据之上建立一个MLDB（MultipleLayeredDatabase）。这个数据库是多层次的，每层索引都比它下一层要小。对于最底层来说，需要了解Web文档结构，而最高层则有着完善的结构并可以通过类似SQL的查询语言进行访问或挖掘。MLDB提供一个被称为VMV（VirtualWebView）的视图机制，Web中的感兴趣的结构被浓缩在这个视图中。等级概念（近意词组、词汇和语义联系等）将帮助归纳过程来架构更高层的MLDB。2020年3月27日星期五19个性化与Web内容挖掘通过个性化，网页的内容和组织将更加适合用户的需要。个性化服务是Web挖掘技术的重要目标之一。通过个性化，基于用户所关心内容的广告会被发送到潜在的用户。当一个特别的用户访问一个站点时，会有一个特别为它定制的广告出现，这对那些可能购买的用户来说是一个极大的诱惑。Web内容挖掘的目的之一是基于页面内容相似度进行用户分类或聚类的，个性化的建立是通过用户过去的检索内容分析而建立起来的。自动的个性化技术可以通过过去的需要和相似用户的需要来预知特定用户将来的需要。2020年3月27日星期五20Web页面内文本信息挖掘挖掘的目标是对页面进行摘要和分类。页面摘要：对每一个页面应用传统的文本摘要方法可以得到相应的摘要信息。页面分类：分类器输入的是一个Web页面集（训练集），再根据页面文本信息内容进行监督学习，然后就可以把学成的分类器用于分类每一个新输入的页面。在文本学习中常用的方法是TFIDF向量表示法，它是一种文档的词集（Bag-of-Words）表示法，所有的词从文档中抽取出来，而不考虑词间的次序和文本的结构。这种构造二维表的方法是：每一列为一个词，列集（特征集）为辞典中的所有有区分价值的词，所以整个列集可能有几十万列之多。每一行存储一个页面内词的信息，这时，该页面中的所有词对应到列集（特征集）上。列集中的每一个列（词），如果在该页面中不出现，则其值为0；如果出现k次，那么其值就为k；页面中的词如果不出现在列集上，可以被放弃。这种方法可以表征出页面中词的频度。对中文页面来说，还需先分词然后再进行以上两步处理。这样构造的二维表表示的是Web页面集合的词的统计信息