讲述人:汪金祥序号内容金额问题1置信度的实际意义是啥?问题2:规则ABC--D的置信度是0.667,那么AB-CD,A-BCD的置信度是多少?回答1解释ABE,ACE,BDE为什么不能被当做候选3项集回答2回答游戏题目中的答案分红包5元10元5元20元玩转分享•故事背景:“啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象——原因:美国的妇女们经常会嘱咐她们的丈夫下班以后要为孩子买尿布。而丈夫在买完尿布之后又要顺手买回自己爱喝的啤酒,因此啤酒和尿布就经常出现在一个购物车里了。好吧,专业点。。。•在购买铁锤的顾客当中,有70%的人同时购买了铁钉。场景1•在买了一台PC之后,下一步会买啥???场景2好吧,学术点。。。数据挖掘的分析方法聚类分类关联规则预测•K-means•KNN•Apriori•FP-growth•ID3•C45关联规则挖掘•关联规则挖掘(AssociationRule)发现一个事物与其他事物之间的相互依存性和关联性。•如果两个或者多个事物之间存在一定的关联关系,那么,其中一个事物就能够通过其他事物预测到。关联规则挖掘步骤•一般分为2个步骤:•依据支持度找出所有的频繁项集。•(频度)•依据置信度产生关联规则。性能瓶颈!①支持度在M条交易集中,对于关联规则R:AB,其中AI,BI,并且AB=。规则R的的支持度(Support)是交易集中同时包含A和B元素的交易数与所有交易数之比。基本概念|M|B)count(AB)support(AIDItems1000A,B,C,D2000B,C,E3000A,B,C,E4000B,D,E5000A,B,C,D基本概念②置信度在M条交易集中,对于关联规则R:AB,其中AI,BI,并且AB=。规则R的置信度(Confidence)是指包含A和B的交易数与包含A的交易数之比support(A)B)support(AB)(Aconfidence一般来说,只有支持度和置信度均较高的关联规则才是用户感兴趣的、有用的关联规则。基本概念③如果事件A中包含k个元素,那么称这个事件A为k项集;事件A满足最小支持度阈值的事件称为频繁k项集。④同时满足最小支持度阈值和最小置信度阈值的规则称为强规则Apriori使用一种称作逐层搜索的迭代方法。首先,找出频繁“1项集”的集合。该集合记作L1。L1用于找频繁“2项集”的集合L2,而L2用于找L3,“k-1项集”用于探索“k项集”。如此下去,直到不能找到“k项集”。找每个Lk需要一次数据库扫描。Apriori算法频繁项集发现过程:(1)扫描(2)计数(3)比较(4)产生频繁项集(5)连接、剪枝,产生候选项集重复步骤(1)~(5)直到不能发现更大频集发现频繁项集IDItems1000A,B,C,D2000B,C,E3000A,B,C,E4000B,D,E5000A,B,C,DItemsetSup.countABCDEC1L1ItemsetABCDEC2ItemsetSup.countABBCADAEBCBDBECDCEDEL2ItemsetABBCADBCBDBECDCEC3ItemsetSup.countABCABDABEACDACEADEBCDBCEBDESupport=0.4;Confidence=0.635433314323213232222L35元ItemsetABCABDBCDBCEACDL3ItemsetABCDItemsetSup.countABCDC4L4Support=0.4;Confidence=0.62IDItems1000A,B,C,D2000B,C,E3000A,B,C,E4000B,D,E5000A,B,C,DItemset_1ABCDEItemset_2ABACADBCBDBECDCEItemset_3ABCABDBCDBCEACDItemset_4ABCD频繁项集L1A:3B:5C:4D:3E:3L2AB:3AC:3AD:2BC:4BD:3BE:3CD:2CE:2L3ABC:3ABD:2BCD:2BCE:2ACD:2L4ABCD:2Support=0.4;Confidence=0.6110.6670.800.600.600.500.5010.6670.500.500.6670.667•可能产生大量的候选集•可能需要重复扫描数据库Apriori算法局限性IDItems1000A,B,D2000A,C,E3000A,B,C,E4000C,D,E5000A,B,C,D6000A,B7000B,E游戏答对领红包20元提到要点:问题1:置信度的实际意义是啥?5元问题2:规则ABC--D的置信度是0.667,那么AB-CD,A-BCD的置信度是多少?10元回答问题:1解释ABE,ACE,BDE为什么不能被当做候选3项集5元2回答游戏题目中的答案分红包20元谢谢!