数据挖掘作业2

“水乡情怀”
0 ℃
2020-11-16

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

智能信息处理第二次作业费洋20130109050106.6设数据库有5个事务。设min_sup=60%,min_conf=80%(a)分别使用Apriori和FP增长算法找出所有频繁项集。比较两种挖掘过程的效率。FP-growth树算法K5E4O3M3Y3Null{}K:5E:4M:1O:3OM:1OY:1M:1OY:1Y:1项条件模式基条件FD模式产生的频繁模式Y{K,E,O,D:1}{K,E,O:1}{K,M:1}K:3{K,Y:3}M{K,E,,O:1}{K,E:1}{K:1}K:3{K,M:3}O{K,E:3}K:3，E:3{K,O:3}{E,O:3}{K,E,O:3}E{K:4}K:4{K,E:4}效率比较：Apriori需多次扫描数据库而FP增长建立FP树只需一次的扫描。在Apriori算法中产生候选是昂贵的（由于联接），而FP增长不产生任何候选,但是FP消耗了大量的内存，当数据量很大时。(b)列举所有与下面的元规则匹配的强关联规则（给出支持度S和置信度C）,其中，X是代表顾客的变量，itemi是表示项的变量（如：“A”、“B”等）：答：k,oe[0.6,1]e,ok[0.6,1]6.8.数据库有4个事务，设min_sup=60%,min_conf=80%（a）在item_category粒度（例如，itemi可以是“Milk”），对于下面的规则模板对最大的k,列出频繁k项集包含最大的k的频繁k项集的所有强关联规则（包括它们的支持度S和置信度c）.(b)在粒度（例如：itemi可以是“Sunset-Milk”）对于下面的规则模板对最大的k，列出频繁k项集（但不输出任何规则）。K=3频繁1项集{Wonder-Bread}6.14下面的相依表汇总了超级市场的事务数据。其中，hotdogs表示包含热狗的事务，hotdogs表示不包含热狗的事务，hamburgers表示包含汉堡包的事务，hamburgers表示不包含汉堡包的事务，（a）假定挖掘出了关联规则。给定最小支持度阀值25%，最小置信度阀值50%，该关联规则是强规则吗？（a）支持度=2000/5000*100%=40%25%,置信度=2000/3000*100%=66.7%50%则该关联规则是强规则（b）根据给定的数据，买hotdogs独立于买humburgers吗？如果不是，二者之间存在何种相关联系。答：corr{hotdog;hamburger}=P({hotdog,hamburger})/(P({hotdog})P({hamburger})=0.4/(0.5×0.6)=1.331.所以，买hotdogs不是独立于买humburgers。两者存在正相关（c）全置信度=0.67，最大置信度=0.80，Kulczynski=0.735，余弦=0.73212，提升度=1.33根据数据显示，都表示两者之间存在正相关的关系。