关联规则和决策树的应用

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

数据挖掘—关联规则与决策树的应用关联规则的概念•关联规则用来发现在同一事件中出现的不同项的相关性,即找出事务中频繁发生的项或属性的所有子集,以及项目之间的相互关联性。•关联规则就是形如XY的逻辑蕴含关系,其中XI,YI且XY=Φ,X称作规则的前件,Y是结果,对于关联规则XY,存在支持度和信任度。关联规则就是支持度和信任度分别满足用户给定阈值的规则。关联规则的分类•基于关联规则中处理的变量的类别,可以分为布尔型和数值型两种。•基于规则中数据的抽象层次分类,可以分为单层关联规则和多层关联规则。关联规则的分类•基于模式与规则之间的相互关系分类,可以分为完全频繁模式挖掘、最大频繁模式挖掘和闭合频繁模式挖掘。•基于规则中涉及到的数据的维数分类,关联规则可以分为单维的和多维的。•基于模式与规则之间的相互关系分类,可以分为完全频繁模式挖掘、最大频繁模式挖掘和闭合频繁模式挖掘。关联规则的算法•1993年,R.Agrawal等人首次提出了挖掘顾客交易数据中项目集间的关联规则问题,其核心是基于两阶段频繁集思想的递推算法。该关联规则在分类上属于单维、单层及布尔关联规则,典型的算法是Aprior算法。Apriori的两个步骤•第1步:通过迭代,检索出源数据中的所有频繁项集,即支持度不低于用户设定的阀值的项集;•第2步:利用第1步中检索出的频繁项集构造出满足用户最小信任度的规则。Apriori算法的优缺点•Apriori算法的一个突出优势是其对大型数据库的处理能力,不需将事务数据库读入内存就可以完成挖掘任务。•缺点是需要多次扫描数据库。Apriori的改进•对其连接和剪枝过程进行优化,在此基础上产生了很多变体。–大都采用同Apriori同样的产生候选集的思想–包括基于hash的技术、划分、取样、使用垂直数据格式等。–这些算法的侧重点一般在于:减少扫描数据的次数;减少产生的候选集数目;减少候选频繁项集的计算时间。关联规则的应用•啤酒与尿布•ATM机上的小广告•欲罢不能的网上购物决策树的概念•决策树一般都是自上而下的来生成的。每个决策或事件(即自然状态)都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树。决策树的特点•它是一种常用于模型的算法,它能通过将大数据有目的的分类,从而能系统的分解数据集中包含的信息,以发现潜在的规律和关系。它能将反反复复所发现的规律以一棵类似于流程图的树显示出来中每个内部节点表示在一个属性上的测试,每个分枝代表一个测试输出,而每个树叶节点代表类或类分布,树的最顶层节点是根节点。•建立决策树的过程,即树的生长过程是不断的把数据进行切分的过程,每次切分对应一个问题,也对应着一个节点。对每个切分都要求分成的组之间的“差异”最大。事例•假如负责借贷的银行官员利用决策树去决定支持哪些贷款和拒绝哪些贷款,那么他就可以用贷款申请表来运行这棵决策树,用决策树来判断风险的大小。“年收入¥40,00”和“高负债”的用户被认为是“高风险”,同时“收入¥40,000”但“工作时间5年”的申请,则被认为“低风险”而建议贷款给他/她。优缺点•决策树很擅长处理非数值型数据,这与神经网络只能处理数值型数据比起来,就免去了很多数据预处理工作。•决策树的这种明确性可能带来误导。比如,决策树每个节点对应分割的定义都是非常明确毫不含糊的,但在实际生活中这种明确可能带来麻烦(凭什么说年收入¥40,001的人具有较小的信用风险而¥40,000的人就没有)。结束语•从决策树和关联规则的应用中,我们可以看出数据挖掘在生活中的广泛应用。商业动力的强大动力将会不断的促进数据挖掘的发展。我们期待着它能解决更多的问题。谢谢观看!

1 / 15
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功