智能信息处理第二次作业费洋20130109050106.6设数据库有5个事务。设min_sup=60%,min_conf=80%(a)分别使用Apriori和FP增长算法找出所有频繁项集。比较两种挖掘过程的效率。FP-growth树算法K5E4O3M3Y3Null{}K:5E:4M:1O:3OM:1OY:1M:1OY:1Y:1项条件模式基条件FD模式产生的频繁模式Y{K,E,O,D:1}{K,E,O:1}{K,M:1}K:3{K,Y:3}M{K,E,,O:1}{K,E:1}{K:1}K:3{K,M:3}O{K,E:3}K:3,E:3{K,O:3}{E,O:3}{K,E,O:3}E{K:4}K:4{K,E:4}效率比较:Apriori需多次扫描数据库而FP增长建立FP树只需一次的扫描。在Apriori算法中产生候选是昂贵的(由于联接),而FP增长不产生任何候选,但是FP消耗了大量的内存,当数据量很大时。(b)列举所有与下面的元规则匹配的强关联规则(给出支持度S和置信度C),其中,X是代表顾客的变量,itemi是表示项的变量(如:“A”、“B”等):答:k,oe[0.6,1]e,ok[0.6,1]6.8.数据库有4个事务,设min_sup=60%,min_conf=80%(a)在item_category粒度(例如,itemi可以是“Milk”),对于下面的规则模板对最大的k,列出频繁k项集包含最大的k的频繁k项集的所有强关联规则(包括它们的支持度S和置信度c).(b)在粒度(例如:itemi可以是“Sunset-Milk”)对于下面的规则模板对最大的k,列出频繁k项集(但不输出任何规则)。K=3频繁1项集{Wonder-Bread}6.14下面的相依表汇总了超级市场的事务数据。其中,hotdogs表示包含热狗的事务,hotdogs表示不包含热狗的事务,hamburgers表示包含汉堡包的事务,hamburgers表示不包含汉堡包的事务,(a)假定挖掘出了关联规则。给定最小支持度阀值25%,最小置信度阀值50%,该关联规则是强规则吗?(a)支持度=2000/5000*100%=40%25%,置信度=2000/3000*100%=66.7%50%则该关联规则是强规则(b)根据给定的数据,买hotdogs独立于买humburgers吗?如果不是,二者之间存在何种相关联系。答:corr{hotdog;hamburger}=P({hotdog,hamburger})/(P({hotdog})P({hamburger})=0.4/(0.5×0.6)=1.331.所以,买hotdogs不是独立于买humburgers。两者存在正相关(c)全置信度=0.67,最大置信度=0.80,Kulczynski=0.735,余弦=0.73212,提升度=1.33根据数据显示,都表示两者之间存在正相关的关系。