数据挖掘

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

数据挖掘江西财经大学信息管理学院江西省高校数据与知识工程重点实验室江西省数据工程与数字媒体科技创新团队E-Mail:457125448@QQ.com13607095906课程简介2020/5/192专业选修课,2+2(3+1)课程目的了解数据挖掘技术的整体概貌、主要应用及当前的研究热点掌握最基本的概念、常用算法和方法运用数据挖掘软件进行案例分析教材2020/5/193原书名:IntroductiontoDataMining原出版社:AddisonWesley作者:(美)Pang-NingTanMichaelSteinbachVipinKumar译者:范明范宏建出版社:人民邮电出版社ISBN:9787115241009出版日期:2011年1月根据个人的体验,觉得这本书作为第一本数据挖掘的入门读物是再恰当不过的了。。。。参考书2020/5/194原书名:DataMining:ConceptsandTechniques,ThirdEdition原出版社:MorganKaufmann作者:(加)JiaweiHanMichelineKamber译者:范明孟小峰出版社:机械工业出版社出版日期:2012年8月“不是最好,但却是经典!”数据挖掘与信息检索2020/5/195数据挖掘,是在大型数据存储库中发现有用信息的过程;数据挖掘,是在基于现有大数据的基础上预测未来的过程。数据检索,使用数据库管理系统查找记录或通过搜索引擎来查找特定的WEB页面。关系数据库:数据库查询.VS.数据挖掘(a)No(b)No(c)No(d)No(e)No(f)Yes(g)Yes(h)Yes(i)No数据库查询.VS.数据挖掘数据挖掘与数据分析2020/5/1911数据分析师更关注于业务层面,数据挖掘工程师更关注于技术层面。数据分析师出对行业要了解外,还要懂得一些统计学、营销、经济、心理学、社会学等方面的知识,当然能了解数据挖掘的一些知识会更好。数据挖掘工程师则要求要比较熟悉数据库技术、熟悉数据挖掘的各种算法,能够根据业务需求建立数据模型并将模型应用于实际,甚至需要对已有的模型和算法进行优化或者开发新的算法模型。想要成为优秀的数据挖掘工程师,良好的数学、统计学、数据库、编程能力是必不可少的。数据挖掘与信息检索2020/5/1912按照数据分析的流程来说,数据挖掘工作较数据分析工作靠前些,二者又有重合的地方,数据挖掘侧重数据的清洗和梳理。数据分析处于数据处理的最末端,是最后阶段。这两者本质上并没有太大区别,要做的事情都是:1.要有业务性质的领悟能力,2.能够理解数据的本质含义,3.能数据建模,4.要掌握各种数据统计的方法或算法,5.要有计算机数据库编程等方面的能力,6.要有对问题/数据的敏感性。CRISP-DM:跨行业数据挖掘/分析标准流程数据挖掘是一个以数据为核心,多个环节紧密相连,循环反复且循序渐进的数据探索过程。把玩数据,就像收藏家把玩藏品一样分析目的、流程了然于胸!根据需求选择模型!CRISP-DM:跨行业数据挖掘/分析标准流程吴喜之:数据分析和数据挖掘是最大的求职法宝__2015.92020/5/1915吴喜之:数据分析和数据挖掘是最大的求职法宝2020/5/1916曾经LinkedIn有个投票显示,数据分析和数据挖掘是最大的求职法宝。那些高科技团队都有自己的数据科学团队,而那些非科技公司和大公司也需要做这些东西,他们现在需要的是数据分析和数据挖掘人才,你们就是要把自己做变成被需要的人才。数据科学家专业人才干什么呢?对公司来说,他们可以挖掘新的信息,帮助公司开源节流。吴喜之:数据分析和数据挖掘是最大的求职法宝2020/5/1917注重看你这个人的潜力,而不是你知道什么。知识再多你也超不过一个硬盘?但是硬盘没有创造力。行业前景与人才需求2020/5/1918数据分析师被Times时代杂志誉为“21世纪最热门五大新兴行业”行业前景与人才需求2020/5/1919数据分析师被Times时代杂志誉为“21世纪最热门五大新兴行业”招聘启事2020/5/1920招聘启事2020/5/1921目录为什么要进行数据挖掘1什么是数据挖掘2对何种数据进行数据挖掘3数据挖掘的主要功能42020/5/1922使用什么技术进行数据挖掘5为什么要数据挖掘2020/5/1923数据挖掘2020/5/1924为什么要数据挖掘?数据过量,知识贫乏数据的爆炸性增长(从TB到PB)•数据自动收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。丰富数据的来源•商业:WEB、电子商务、连锁超市顾客购买行为数据、股市...•科学:遥感、生物信息学、科学模拟•社会及每个人:新闻、数码相机、YouTube(视频)海量数据被存贮在超大规模的数据库中,缺乏获取有价值数据的有效方法和操作工具,远远超出了人们能理解它的能力,这被称为“数据丰富而信息贫乏”。为什么要数据挖掘?结果是数据库往往变成了“数据的坟墓”,很少被人访问,决策更多地不是依赖信息,而是依赖决策者的直觉。“需要是发明之母”--大规模海量数据的整合处理和深层次量化分析的实际需求,直接孕育了20世纪90年代初的两项重大技术:数据仓库和数据挖掘。数据挖掘就是要改善“数据丰富而信息贫乏”的情况,将“数据的坟墓”变成隐藏着知识的“金矿”,为商业决策提供真正有价值的信息,进而获得利润。为什么要数据挖掘?2012年3月底,美国政府发布了大数据研发专项研究计划(BigDataInitiative),拟投入2亿美元用于研究开发科学探索、环境和生物医学、教育和国家安全等重大领域和行业所需的大数据梳理技术和工具,把大数据研究上升为国家战略。在大数据时代,数据的产生和收集是基础,数据挖掘是最关键也是最基本的工作。目录为什么要进行数据挖掘1什么是数据挖掘2对何种数据进行数据挖掘3数据挖掘的主要功能42020/5/1928使用什么技术进行数据挖掘5目录什么是数据挖掘2数据挖掘都能干些什么?42020/5/1929经典案例回顾数据挖掘的案例:购物篮分析购物篮分析:表1-1给出的事务是一家杂货店收银台收集的销售数据。数据挖掘的案例:购物篮分析购物篮分析:表1-1给出的事务是一家杂货店收银台收集的销售数据。发现规则:面包-黄油;尿布-牛奶;啤酒-尿布数据挖掘的案例:啤酒和尿布发现:啤酒+尿布原因分析:一些年龄在25~35岁的年轻父亲下班后经常到超市购买婴儿尿布,其中30~40%的人会顺手购买啤酒。对策:重新布置了货架,将卖场内相距很远的妇婴用品区和酒类饮料区的空间距离拉近,并对这两个产品的价格进行了调整。􀂙结果:上述几种商品的销量几乎马上成倍增长。数据挖掘的案例:购物篮分析针对超市的购物篮数据针对超市的购、销、存数据再加上会员数据我们还能挖掘些什么呢?有趣的“大数据”经典数据挖掘案例2020/5/1934超市预知高中生顾客怀孕美国第二大超市塔吉特百货公司为了吸引孕妇这一含金量很高的群体,市场营销人员求助于其顾客数据分析部的高级经理安德鲁斯,要求他建立模型以期在孕妇第2个妊娠期就把她们确认出来(由于美国出生记录公开,因此孩子出生后,新生儿母亲就会被铺天盖地的产品优惠广告包围,那时塔吉特再行动就晚了)。有趣的“大数据”经典数据挖掘案例2020/5/1935超市预知高中生顾客怀孕可是怀孕毕竟是私密信息,如何准确判断哪位顾客就成为难题。安德鲁斯想到塔吉特有一个迎婴聚会登记表,就开始对登记表里的顾客消费数据建模分析,不久发现,许多孕妇在第2个妊娠期会买许多大包装的无香味护手霜、会购买大量补充钙、镁、锌的善存片类保健品……最后安德鲁斯选出25种典型商品的消费数据构建“怀孕预测指数”模型,以便可以在很小的误差范围内预测顾客的怀孕情况,便能尽早进行广告精准定位投放。有趣的“大数据”经典数据挖掘案例2020/5/1936为了避免顾客收到这样的广告被吓坏,塔吉特聪明地把孕妇用品优惠广告夹杂在一大堆与怀孕不相关的商品优惠广告中,巧妙地令顾客认为塔吉特并不知道自己怀孕了。一次,明尼苏达州一家塔吉特门店被客户投诉,一位中年男子指控塔吉特将婴儿产品优惠券寄给他的女儿——一个高中生。但没多久他却来电道歉,因为女儿经他逼问后坦承自己真的怀孕了。塔吉特百货就是靠着分析用户所有的购物数据,然后通过相关关系分析得出事情的真实状况。此事经被《纽约时报》报道后,塔吉特“大数据”的巨大威力轰动全美,公司的营业额借助大数据稳步上升。有趣的“大数据”经典数据挖掘案例2020/5/1937数据新闻让英国撤军2010年10月23日《卫报》利用维基解密的数据做了一篇“数据新闻”。将伊拉克战争中所有的人员伤亡情况均标注于地图之上。地图上一个红点便代表一次死伤事件,鼠标点击红点后弹出的窗口则有详细的说明:伤亡人数、时间,造成伤亡的具体原因。密布的红点多达39万,显得格外触目惊心。一经刊出立即引起朝野震动,推动英国最终做出撤出驻伊拉克军队的决定。有趣的“大数据”经典数据挖掘案例2020/5/1938QQ圈子把前女友推荐给未婚妻2012年3月腾讯推出QQ圈子,按共同好友的连锁反应摊开用户的人际关系网,你的QQ有没有向你推荐共同好友(你可能认识的朋友)?结果可能把用户的前女友推荐给未婚妻。有趣的“大数据”经典数据挖掘案例2020/5/1939Google成功预测冬季流2009年,Google通过分析5000万条美国人最频繁检索的词汇,将之和美国疾病中心在2003年到2008年间季节性流感传播时期的数据进行比较,并建立一个特定的数学模型。最终google成功预测了2009冬季流感的传播甚至可以具体到特定的地区和州。有趣的“大数据”经典数据挖掘案例2020/5/1940奥巴马大选连任成功2012年11月奥巴马大选连任成功的胜利果实也被归功于大数据,因为他的竞选团队进行了大规模与深入的数据挖掘。通过大量的数据挖掘工作,他们帮助奥巴马筹集到10亿美元、调整了电视上的精准投放广告、创造出了摇摆州选民的精细模型。数据挖掘的案例:推荐你在当当的购书网站购买过书籍或音像制品,以后在浏览该网站时经常看到类似的提示“欢迎你,下面是我们给您推荐的新书和VCD。”然后就可以在网页的某个位置看到几本新书和VCD的名字及其相关链接。网站如何知道你会对这些物品感兴趣呢?网站从顾客的购买清单中发现你买的书和张三买过的书有几本是相同的,但是有些书张三已经买了,你却还没买,网站据此认为你们的阅读偏好相近,从而你会对那些书也感兴趣。数据挖掘的案例:智能搜索面对海量网络数据,如何快速发现有用信息,提高信息获取效率,搜索引擎是重要的工具。传统的搜索引擎,用户输入关键词,返回成千上万的相关结果,用户要花费大量的时间来浏览和选择。行业化、个性化、智能化的第三代搜索引擎检索结果聚类;收集用户偏好,提供个性化的服务;通过交互的查询扩展改善查询词,更好理解查询意图。什么是数据挖掘?源于KDD(KnowledgeDiscoveryinDatabase)。1996年,Fayyad提出,KDD是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。KDD看作一个广义的范畴,完整的KDD过程包括数据源的建立和管理、从数据源中提取数据、数据预处理、模型建立、模型评估、模型可视化以及模型应用等一系列步骤。数据清理数据集成数据库数据仓库任务相关数据选择和变换数据挖掘模式评估什么是数据挖掘1.数据清理:((这个可能要占全过程60%-70%的工作量)2.数据集成3.数据选择4.数据变换5.数据挖掘(选择适当的算法来找到感兴趣的模式)6.模式评估7.知识表示数据挖掘——知识挖掘的核心数据挖掘的称谓数据挖掘涉及多学科领域,有多个术语名称(可能其内容的侧重点略有差异)。数据挖掘(datamining)数据库中的知识发现(KDD,knowledgediscoveryindatabases)知识抽取(kn

1 / 99
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功