文库编辑素材第五章Web数据挖掘

jvjw
1 ℃
2019-12-25

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

上海健康医学院文库推广文档编辑制作案例Web数据挖掘姓名：潘程茹系部：管理系专业：市场营销班级：营销指导教师：卜庆锋目录第五章Web数据挖掘..................................................................................................................3一、Web数据挖掘简介............................................................................................................3二、Web数据挖掘的概念及来源.............................................4三、Web数据挖掘的过程与技术.............................................5(一)Web数据挖掘的过程..............................................5（二）Web数据挖掘的技术.............................................5第五章Web数据挖掘电子商务个性化推荐可以根据用户的偏好、历史访问数据，以及相似用户的相关信息，帮助用户完成网上浏览、购买等过程，为用户提供个性化服务。Web挖掘技术可以从不同的角度和层次对网站信息和用户的使用偏好进行分析，并成为提高电子商务网站声誉和效益的有效途径之一。向用户提供及时有效的信息是提高电子商务网站声誉和效益的基础，Web挖掘可以通过分析用户的使用偏好，帮助用户高效地检索到所关心的信息。在电子商务领域，通过Web数据挖掘，不仅可以从大量多种多样信息的Web页中提取出我们需要的有用的知识，还可以得到关于群体用户访问行为和方式的普通知识，用以改进Web服务设计。更重要的是，通过对用户特征的理解和分析，如对用户访问行为、频度、内容等的分析，提取出用户的特征，从而为用户定制个性化的界面，以便开展有针对性的电子商务活动。电子商务站点的成功很大程度上取决于保持已有用户和将随意浏览者转化为现实购买者的能力。因此，怎样在电子商务环境中吸引新用户，并确保自己可以提供足够的产品或服务留住老用户，成为许多电子商务站点所关注的主要问题；另一方面，用户面对电子商务站点所提供的众多选择，要挑选出自己真正需要的产品或服务犹如大海捞针。人们为了实现从海量Web数据中查找自己想要的数据和有用信息，提出了Web挖掘(WebMining)。Web挖掘可以帮助人们从Web文档和Web活动中发现和抽取潜在的、有意义的模式和知识。它将传统的数据挖掘技术与Web结合起来，并综合运用了统计学、计算机网络、数据库与数据仓库、可视化等众多领域的技术，形成了对Web结构挖掘、Web内容挖掘和Web使用挖掘的研究与应用体系。一、Web数据挖掘简介当今Web上存在着大量的数据，获取有用信息成为人们关注的热点。但Web是无结构的、动态的，Web页面极其复杂。这样就使得人们从成千上万的Web站点中找到有用的数据变得比较困难。于是，人们就越来越关注如何开发和利用Web上的数据资源。Web数据挖掘就是解决上述问题的一个途径。当数据挖掘技术应用于网络环境下的Web中,就成为Web数据挖掘。Web数据挖掘就是从Web文档和Web活动中抽取感兴趣的、潜在的有用模式和隐藏的信息。Web挖掘可以分为三类：Web内容挖掘、Web结构挖掘和Web使用挖掘。Web内容挖掘是用来提取文字、图片或其他组成网页内容成分的信息；Web结构挖掘是用来提取网络的拓扑信息，即网页之间的衔接的信息；Web使用挖掘是用来提取关于客户如何运用浏览器浏览和使用这些衔接的信息。Web挖掘能做什么呢？(1)获取竞争对手和客户信息。Web不仅由页面组成，而且还包含了从一个页面指向另一个页面的超链接。一个Web页面的作者建立指向另一个页面的指针，就可以看作是作者对另一页面的认可。把另一页面的来自不同作者的注解收集起来，就可以用来反映该页面的重要性，并可以很自然地用于权威页面的发现；另外一种重要的Web页面是一个或多个Web页面，它提供了指向权威页面的链接集合，称为Hub。Hub页面本身可能并不突出，或者说可能没有几个链接指向它们，但是Hub页面却提供了指向就某个话题而言最为突出的站点的链接。通过分析这类信息，企业可以获得零售商、中间商、合作商以及竞争对手的信息。(2)发现用户访问模式。分析和探究Web日志记录中的规律可以识别电子商务的潜在客户，提高对最终用户的服务质量，改进Web服务器的系统性能。Web日志记录数据库提供了有关Web动态的，基于URL、时间、IP地址和Web页面的丰窜信息，通过分析，有助于发现潜在客户、用户和市场，聚类用户并将用户分门别类，以实现个性化的市场服。（3)反竞争情报活动。反竞争情报是企业竞争情报活动的重要组成部分。忽视竞争对手的竞争情报活动、低估竞争对手搜集竞争情报的能力势必导致企业失去已有的竞争优势。Web站点是企业与外界进行交流的窗口,也是竞争对手获取竞争情报的一个重要信息源。在竞争情报计算机系统中，可以利用Web挖掘技术，运用分析访问者的IP地址、客户端所属域、信息访问路径，统计敏感信息访问率等方法识别竞争对手,保护企业敏感性信息。二、Web数据挖掘的概念及来源基于Web数据挖掘的确切定义到目前为止还没有很明确而权威的说法。国外有人认为，基于Web数据就是利用数据挖掘技术自动地丛网络文档以及服务中发现和抽取信息的过程。国内则认为是在大量已知数据样本的基础上得到数据对象间的内在特性并以此为依据在Web中进行有目的的信息提取过程。电子商务中Web数据挖掘的来源主要有两个：服务器的数据以及客户登记的信息。所谓服务器的数据就是指客户浏览网页以后所留下的日志文件。这些日志文件中存储着有关客户连接的物理信息，比如客户的来源，通过这一点，我们就可以知道某种商品在哪个地域更受欢迎，从而更加有针对性地销售；另外，通过这些日志文件，我们还可以得到查询数据。查询数据是电子商务站点在服务器上产生的一种典型数据，它是在线客户在查询所需信息时生成的，如在线存储的客户也许会查询某些产品或广告信息,这些查询信息通过Cookie或是登记信息连接至服务器的访问日志上。通常将查询数据和Cookie存入单独的日志中。但是，目前还没有一个标准的查询数据格式。Web数据挖掘的另一个来源就是客户登记的信息。当客户进行浏览时，在Web网页上输入并提交的信息。例如，在注册一个新用户时，客户可能需要输入以下信息，如用户名、性别、年龄、身份证号；当客户在站点购买某商品时，则要提交商品的名称，数量，价格等信息。这些信息和服务器的日志结合起来，就变成了很有价值的Web数据挖掘的来源。通过这些数据，可以分析出许多潜在的关联。例如，被人们广为讨论的“啤酒与尿布”的案例。某超市通过对顾客购买留下的信息进行分析，得到买啤酒的客人很大程度上都买了尿布，从而超市改变了商品的摆放位置，更加方便了顾客的购物。这一看似毫无关联的现象却通过“数据挖掘”这一强有力的手段得到了展现。所以，当数据挖掘应用于Web电子商务，它势必也能起到相同的作用，甚至更大的功效。另外，Web数据挖掘还存在一个重要来源，那就是代理服务器端数据。代理服务器相当于在客户浏览器和服务器之间提供了缓存功能的中介服务器。它的缓存功能减少了Web服务器的网络流量，加快了网页的运行速度，同时将大量的用户访问信息通过代理日志的形式保存起来。三、Web数据挖掘的过程与技术(一)Web数据挖掘的过程对在线访问客户数据的挖掘主要有两部分：一部分是客户访问信息的挖掘；另一部分户登记信息的挖掘。面对大量的访问日志，首先要做的就是对数据进行清洗即预处理，把无关的数据、不重要的数据等处理掉；接着对数据进行事务识别，通过对事务进行划分后，就可以根据具体的分析需求选择模式发现的技术，如路径分析、兴趣关联规则、聚类等。通过模式分析，找到有用的信息，再通过联机分析（OLAP)的验证，结合客户登记信息，找出有价值的市场信息，或发现潜在的市场。（二）Web数据挖掘的技术从电子商务的角度出发，进行Web的数据挖掘，主要就是进行荠户访问信息的挖掘,得到客户端浏览行为和访问模式，从而找到有用的市场信息。在Web数据挖掘的模式发现中，常有以下几种数据挖掘技术的使用。1.路径分析路径分析是一种找寻频繁访问路径的方法，它通过对Web服务器的日志文件中客户访问站点的访问次数分析，挖掘出频繁访问的路径。例如，某客户从某一站点访问到某一感兴趣的页面后就会经常访问该页面，通过路径分析确定频繁访问路径，可以了解客户对哪些页面感兴趣，从而更好地改进设计，为客户服务。使用路径分析技术进行Web使用模式挖掘，最常用的就是网站结构图。因为一个图代表了定义在网站上的页面之间的联系。图最直接的来源是网站结构图，网站上的页面定义成节点，页面之间的超链接定义成图中的边。其他的各式各样的图也都是建立在页面和页面之间联系或者是一定数量的学习者浏览页面顺序基础之上的。基于Web的数据挖掘就是从图中确定最频繁的路径访问模式或大的访问序列。它可以被用于判定在一个Web站点中最频繁访问的路径，还有一些其他的有关路径的信息通过径分析也可以得出，比如，70%的用户端在访问/class/book2时，是从/class开始，经过/class/new、/class/book、/class/book1，最后才到的/class/book2。这条规则说明在/class/book2页面上有有用的信息，但因为客户对站点进行的是迂回绕行的访问，所以这个有用信息并不明显。如果这个页面对网站来说比较重要，可以通过此路径分析改进页面及网站结构的设计，从而使客户更容易地访问。2.关联规则关联规则主要关注事物内在的关系，目的是为了挖掘出隐藏在数据间的相互关系。在Web使用挖掘中，关联规则挖掘就是挖掘出用户在一个访问期间从服务器上访问的页面/文件之间的关系，找出在某一次服务器会话中最经常一起出现的相关画面。关联规则的发现也就是找到客户对网站上各种文件之间访问的相互联系。例如，40%的客户在购买了CD之后又购买了CD清洁剂。利用挖掘山来的这些相关性，我们可以更好地组织站点，实施有效的市场策略。例如，如果客户在一次访问行为中，访问了页面/page1时，一般也会访问页面/page2。进行Web上的数捌挖掘，构建关联模型，我们可以更好地组织站点，减少用户过滤信息的负担，实施有效的市场策略，增加交叉销售量。3.序列模式序列模式挖掘就是挖掘出交易集之间有时间序列关系的模式，目的是为了挖掘出数据间的前后或因果关系，就是在时间戳有序的事务集中，找到那些“一些项跟随另一个项”的内部事务模式。发现序列模式能够便于进行电子商务的组织预测客户的访问模式，对客户开展有针对性的广告服务。通过系列模式的发现；能够在服务器方选取有针对性的页面，以满足访问者的特定要求；网站的管理员可将访问者按浏览模式分类，在页面上只展示具有该浏览模式的访问者经常访问的链接，而用一个“更多内容”指向其他未被展示的内容。当访问行浏览到某页面时，检查他的浏览所符合的序列模式，并在显眼的位置提示“访问该页面的人通常接着访问”的若干页面。4.分类规则分类要解决的问题是为一个事件或对象归类。设有一个数据库和―组具有不同特怔的类别(标记），该数据库中的每-个记录都赋予一个类别的标记，这样的数据库称为示例数据库或训练集。分类分析就是通过分析示例数据库中的数据，为每个类别做出准确的描述或建立分析模型或挖掘出分类规则，然后用这个分类规则对其他数据库中的记录进行分类。在Web数据挖掘中，分类规则的发现就是给出识别一个特殊群体的公共域性的描述，这个描述可以用来分类新的项。例如，在/class/book2进行过在线订购的顾户中有55%是20〜30岁生活在南方的年轻人。得到这-分类后，就可以进行适合这