数据挖掘系列讲座九电子商务与数据挖掘

keliangyu
3 ℃
2019-12-25

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

数据挖掘系列讲座九电子商务与数据挖掘基于WEB日志的用户访问模式挖掘电子商务与数据挖掘——完美结合在电子商务中进行成功的数据挖掘得益于：电子商务提供海量的数据如果一个电子商务网站平均每个小时卖出五件物品，那么它一个月的平均点击量是160万次。丰富的记录信息良好的WEB站点设计将有助于获得丰富的信息干净的数据从电子商务站点收集的都是电子数据，无需人工输入或者是从历史系统进行整合研究成果容易转化在电子商务中，很多知识发现都可以进行直接应用投资收益容易衡量电子商务为数据挖掘提供海量数据“点击流”（Clickstreams）将会产生电子商务挖掘的大量数据Yahoo!在2000年每天被访问的页面数是10亿，如此大的访问量将会产生巨大的Web日志（记载页面访问的情况），每个小时产生的Web日志量就达到10GB！即便是一个小的电子商务站点，也会在断时间内产生进行数据挖掘所需的大量数据计算一下，如果你的站点一个小时卖出5件物品，一个月会有多少页面访问：5件×24小时×30天/％2（转化率，表示访问的人中买东西的人的比率）×9页面（平均买一件物品要访问9个页面）＝1,600,000页面丰富的记录信息如果你的电子商务站点设计的好，你将可以获得各种商务的或者是用户访问的信息：商品和商品的属性商品的归类信息（当同时展示多种商品是，归类信息是非常有用的）促销信息关于访问的信息（比如：访问计数）关于客户额信息（可以通过登陆/注册来获得）“干净的数据”信息直接从网站上提取无需从历史系统中集成，避免很多错误可以通过良好的站点设计，直接获得跟数据挖掘有关的数据而不是再来分析、计算、预处理要用的数据直接收集的电子数据——可靠无需人工数据输入，避免了很多错误可以通过良好的站点设计，良好的控制数据采样的颗粒度颗粒度控制在客户级别或者是session级别，而不是页面级别有趣的“生日现象”一个银行通过对客户数据统计发现，它的5％的客户都是在同一天出生的（同年同月同日）！为什么？如何解释？研究成果容易转化历史上的数据挖掘研究有过许多的知识发现，但是这些知识发现却很少在实际的商业应用中产生什么效果要应用这些发现的知识可能意味着要进行复杂的系统更改、流程更改或是改变人们的办事习惯，这在现实中是非常困难的。在电子商务中，很多知识发现都可以进行直接应用改变站点的设计（改变布局，进行个性化设计等）开始有目标的促销根据对广告效果的统计数据改变广告策略可以很容易的提供捆绑销售投资收益容易衡量使用数据挖掘成果的革新带来的收益如何衡量？在传统的商业中衡量投资收益需要长期的测量和观察，PacoUnderhill在《购物的科学》一书中提及，一个超市为了衡量他们的促销策略带来的投资收益，每年要花14,000个小时查看录像带。在电子商务中，衡量革新的投资收益是非常容易的销售变化的报表可以自动产生客户对电子邮件和电子调查的反馈都可以在几天内得到，而不必等个几个月电子商务乃至整个互联网都是传统商业的理想试验室。对电子商务网站的Web数据挖掘通常在一个电子商务网站上应用的数据挖掘技术是Web数据挖掘。我们可以在一个电子商务网站挖掘些什么东西？内容挖掘(WebContentMining)结构挖掘(WebStructureMining)使用挖掘(WebUsageMining)WebContentMining对Web页面内容进行挖掘，从Web数据中发现信息。自动地从数以百万计的Web站点和在线数据库中搜索和获取信息和资料;尽管人们可以直接从网上通过抓取建立索引，实现检索服务来获得资源，但是大量的“隐藏”信息只能通过内容挖掘来自动挖掘。WebStructureMiningWebStructureMining是对Web页面之间的结构进行挖掘。在整个Web空间，有用的知识不仅包含在页面的内容中，而且也包含在页面的结构中。Web结构挖掘主要针对的就是页面的超链接结构，如果有较多的超链接指向它，那么该页面就是重要的，发现的这种知识可用来改进搜索路径等。WebUsageMining与WebContentMining和WebStructureMining不同的是，WebUsageMining的挖掘对象是用户和网络交互过程中抽取出来的二手数据，这些数据主要是用户在访问Web时在Web日志里留下的信息，以及其它一些交互信息，日志信息包括访问日期、时间、用户IP地址、服务器IP地址、方法、所请求URL资源、服务器响应状态、用户代理、发送字节等。WebUsageMining就是对系统日志信息，以及用户的注册数据等进行挖掘，以发现有用的模式和知识。WebUsageMining的作用通过对电子商务网站应用WebUsageMining数据挖掘技术，可以提高站点的质量改善WEB缓存，缓解网络交通，提高性能在电子商务中还可捕捉到大量的采购过程的细节，为更加深入的分析提供了可能Web日志(1)典型的日志文件片断uplherc.upl.com--[01/Aug/1995:00:01:38-0400]GET/shuttle/missions/sts-71/images/images.htmlHTTP/1.02008529133.43.96.45--[01/Aug/1995:00:01:39-0400]GET/shuttle/missions/sts-72/mission-sts-72.htmlHTTP/1.02003804133.68.18.180--[01/Aug/1995:00:01:48-0400]GET/persons/nasa-cm/jmd.htmlHTTP/1.02004067WEB日志通常包含7个字段：第一项：远程主机的地址，即它表明访问网站的究竟是谁。第二项：浏览者的email地址或者其他唯一标识符。到了今天，我们在日志记录的第二项看到email地址的机会已经微乎其微，所以上面用-，标志字段为空Web日志(2)典型的日志文件片断uplherc.upl.com--[01/Aug/1995:00:01:38-0400]GET/shuttle/missions/sts-71/images/images.htmlHTTP/1.02008529第三项：记录浏览者进行身份验证时提供的名字；对于不需要用户身份验证的网站，这个字段都是空白-；第四项：请求的时间；第五项：告诉我们服务器收到的是一个什么样的请求。该项信息的典型格式是“METHODRESOURCEPROTOCOL”，即“方法资源协议”；这是Web日志中最有用的信息，在上面的示例中METHOD是GETRESOURCE是指浏览者向服务器请求的文档，或URLPROTOCOL通常是HTTP，后面再加上版本号。Web日志(3)典型的日志文件片断uplherc.upl.com--[01/Aug/1995:00:01:38-0400]GET/shuttle/missions/sts-71/images/images.htmlHTTP/1.02008529第六项：状态代码。它告诉我们请求是否成功，或者遇到了什么样的错误。大多数时候，这项值是200，它表示服务器已经成功地响应浏览器的请求，一切正常。第七项：发送给客户端的总字节数。WebUsageMining的基本过程进行WebUsageMining主要是通过对系统日志信息的数据挖掘Web服务器日志ErrorLogsCookiesWebUsageMining的基本实现过程预处理模式发现模式分析预处理通过预处理，使挖掘过程更有效、更容易数据清洗其目的在于把日志文件中一些与数据分析、挖掘无关的项清除掉；比如：剔除用户请求方法中不是GET的记录；用户识别日志文件只是记录了主机或代理服务器的IP地址，要识别用户，需要Cookie技术和用一些启发规则来帮助识别;路径补充确认Web日志中是否有重要的页面访问记录被遗漏;事件识别事件识别是与要挖掘什么样的知识有关，将用户会话针对挖掘活动的特定需要进行事件定义。模式发现在经过预处理后的数据上应用各种数据挖掘的功能和算法，挖掘出有用的模式和规则的过程。WebUsageMining中用到的Web日志分析及用户行为模式的挖掘方法包括:关联分析分类和预测聚类分析序列模式统计分析WebUsageMining——关联分析（1）通过分析用户访问网页间的潜在联系而归纳出的一种规则;如80%的用户访问Web页面/company/product1时，也访问了/company/product2;常用算法Apriori算法或其变形算法，频繁模式树（FP-树）算法等等，挖掘出访问页面中频繁的在一起被访问的页面集比如可以通过A=B=CA=B=DA=BA=B=E=FWebUsageMining——关联分析（2）可以使用通过关联分析挖掘出来的频繁项集（页面集）来预取可能请求的页面，以减少等待时间，对于频繁项集（页面集）{A,B},在用户访问A时，将页面B调入缓存中，从而改善Web缓存，缓解网络交通，提高性能促进网上商务对于频繁项集{A,B}，如果分别代表两个产品的页面，则说明这两个产品间存在相关性，可以利用这点在电子商务的实践中给出更有效的促销策略或广告策略WebUsageMining——分类和预测分类和预测功能可以用来提取描述重要数据类的模型，并使用模型预测来判定未知数据的类标号，从而预测未来的数据趋势。常用算法：判定归纳树、贝叶斯分类、k-最近邻分类等应用：可以根据用户的个人资料或者其特定的访问模式，将其归入某一特定的类可以根据用户对某类产品的访问情况，或者时根据其购物情况，或者根据其抛弃购物车的情况，来决定用户的分类（e.g.对电子产品感兴趣的用户），并对相应的分类使用相应的促销策略。WebUsageMining——聚类分析（1）聚类：将对象的集合分组成为由类似的对象组成的多个类的过程。（与分类的区别？）常用聚类算法：划分方法、层次的方法、基于密度的方法等等。在WebUsageMining应用中包含着两种聚类。页聚类将内容相关的页面归在一个网页组，对网上搜索引擎及提供上网帮助很有用用户聚类将具有相似访问特性的用户归在一起，在电子商务的市场分割和为用户提供个性化服务中，能发挥巨大作用WebUsageMining——聚类分析（2）聚类分析可以喜好类似的用户，从而动态地为用户定制观看的内容或提供浏览建议。比如：购买推荐系统或动态促销系统作用：1)方便用户查询和浏览2)增强广告的作用3)促进网上销售4)提高用户忠诚度WebUsageMining——统计分析（1）统计分析通过求出现率、求平均、求中值等，统计最常访问的网页，每页平均访问的时间，浏览路径的平均长度等，以获得用户访问站点的基本信息。还能提供有限的低层次的错误分析，比如检测未授权入口点，找出最常见不变的URL等。可以用来计算客户对某页面的访问次数，停留时间等，得到访问次数最多的页面（或产品、URL等）WebUsageMining——统计分析（1）常用的电子商务网站用户访问数据统计（节选）平均一个用户访问8－10个页面在站点上花5分钟每个页面上花35秒平均一个购物的用户访问50个页面在站点上花30分钟这是经过大量的数据统计得出的结果，具有高度一致性。WebUsageMining——序列模式序列模式试图找出页面依照时间顺序出现的内在模式序列模式可以用来做用户的浏览趋势分析，即一组数据项之后出现另一组数据项，从而形成一组按时间排序的会话，以预测未来的访问模式，这将有助于针对特别用户群安排特定内容。趋势分析访问模式的相似性分析模式分析在挖掘出一系列用户访问模式和规则后，还需要进一步观察发现的规则、模式和统计值。确定下一步怎么办？是发布模型？还是对数据挖掘过程进行进一步的调整，产生新