大数据应用基础-关联规则21

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

关联规则什么是关联规则?•经典例子:发现了买尿布的顾客经常也会买啤酒后,超市把两者摆在一起,从而提高了两者的销量。具体原因是:年轻的父亲下班回家的路上需要给孩子买尿布,但他们又没空去酒吧,所以就通常也给自己买一些啤酒。关联规则基本概念•关联规则(associationrule)的主要目的是找出数据集中的频繁模式(frequentpattern),即多次重复出现的项(item)之间的“关联”(association)。•关联规则和聚类一样,都是无监督的学习。它们都不用来预测。•应用关联规则最经典的案例就是购物篮分析(basketanalysis)。通过分析顾客购物篮中商品之间的关联,可以看出顾客的购物习惯。关联规则在传统零售业的应用•购物篮分析对于传统零售商非常有用,因为他们可以通过把顾客经常同时购买的商品摆在一起,从而方便顾客选取。•这也叫做交叉销售。关联规则在传统零售业的应用•找到关联规则后,超市可以:–把两三种商品摆在一起;–把两种商品打包销售;–把其中一种商品价格提高一点,因为顾客会不太在意那种商品的价格;–把两种商品分开放置,迫使顾客必须走过通道寻找所要购买的东西,这时谷歌可能会看到并购买其他东西。关联规则在电商中的应用•不仅是传统零售业,在电商中同样有交叉销售,比如根据用户已经购买的商品,进行商品推荐,或者把两种商品捆绑销售。但是,关联规则主要适用于传统零售,而不是电商。关联规则主要用于传统零售而非电商•关联规则主要适用于传统零售,而不是电商。这是因为:–电商重视长尾,哪怕某些商品的购买者人数并不多,也完全可以给购买它们的顾客推荐另一些商品。由于购买数据稀疏,关联规则难以做到为每个顾客推荐商品。–而对于传统零售,如果某件商品销量低,对它做促销、广告就得不偿失。这就是为什么要限制规则数量。关联规则的其他应用•把文档(例如网页、推特)当做购物篮,把词汇当做item。我们可以发现哪些词汇之间共同出现的频率较高。•把病人当做购物篮,把生物标志物(例如血蛋白、基因)或疾病当做item。经常共同出现的一组生物标志物(biomarker)可以作为疾病诊断的方法。基本原理——啤酒加尿布:经典的购物篮分析案例•超市发现:在所有购买了尿布的顾客中,有40%的人同时还买了啤酒超市会发现很多关联规则•超市分析了很多商品之间的关联性。•尿布加啤酒是所发现的关联规则中的一个。超市会发现很多关联规则•购物篮中的商品也叫做项(item)。•购物篮中多个项组成的集合叫做项集(itemset)。•大型超市的数据中可能有10万个项,几百万个购物篮(可以是以一笔交易即一张购物小票的形式)。超市处理不了过多的关联规则•必须限定关联规则的数量,否则如果给超市经理提供一百万条关联规则,他们根本阅读不过来。关联规则有效性的两个指标•判断关联规则是否有效,最常用的两个指标是:–置信度(Confidence)–支持度(Support)•为了筛选出那些具有较高置信度和支持度的规则,需要给这两个指标分别设定一个阈值。达到了阈值的规则才是有效规则。•支持度:在所有顾客中,同时购买了尿布和啤酒的人所占的比重。–如果支持度太小,说明这个规则只是偶发事件,不具有普遍性和商业价值,或者说这两件items只出现在很少的购物篮中。•置信度:在购买了尿布的顾客中,也购买了啤酒的人所占的比重。–如果置信度太低,则从X(购买尿布)就很难可靠地推断出Y(购买啤酒)来。用于进一步筛选关联规则的指标:提升度•除了支持度和置信度以外,还有一个指标很重要。•这是因为,仅根据支持度和置信度所发现的简单关联关系可能并不实用。用于进一步筛选关联规则的指标:提升度•规则提升度(Lift)。这个指标反映了规则的价值。提升度能说明规则对后项的预测比没有规则要好多少。•当Lift大于1时,意味着X的出现对Y的出现有促进作用;当它小于1时,表明X的出现降低了Y出现的可能性。•Lift越大越好。用于进一步筛选关联规则的指标:提升度•提升度有助于找到那些可能是意外发现的规则,而不是本来就知道的规则。可以避免向顾客推荐热销商品。•正如啤酒加尿布的例子一样。最常用的关联规则算法——Apriori•在各种关联规则算法中,最常用的是Apriori算法。它分两步:1.生成频繁项目集。频繁项目集是支持度高于最小支持度阈值的项目的集合。2.从上一步得到的频繁项目集中生成所有的可信关联规则。这里,可信关联规则是指置信度大于最小置信度阈值的规则。关联规则的分类•分析简单关联关系的技术成为简单关联规则。•而分析序列关联关系的技术则称为序列关联规则。•序列关联关系的例子:购买了洗衣机的顾客中,一段时间内会有40%的人购买洗衣粉。•知道这种规则后,我们可以在客户购买了洗衣机后的合适时间间隔后,向其推荐洗衣粉。•序列关联规则的最常见算法是Sequence算法。它具有两个步骤,并且这两个步骤和Apriori算法几乎完全相同。规则可以有多个前项或后项•规则可以有多个前项,也可以有多个后项•当然,后项通常只有一个。关联规则小结•置信度•支持度•提升度•项•项集•频繁项集

1 / 21
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功