第一章-数据挖掘的基本概念..

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

主讲:王名扬信息学院《数据仓库与数据挖掘》2参考书目《数据挖掘:概念与技术》韩家炜著(机械)网络资源中文(推荐)日文英文(课程)一引例网站怎么知道读者可能会对这些物品感兴趣?这是因为网站采用了新的技术来了解顾客的潜在需求,比如:网站从顾客的购买清单中发现你与张三具有相似的兴趣爱好和购买习惯,但是有些书张三已经买了,而你却还没买,网站会认定你对这些书可能感兴趣,而对你进行推荐。网站这种推荐并非漫无边际,而是有一定技术依据的,这种技术就是数据挖掘技术(DM)。例1如果你在当当的购书网站购买过书籍或音像制品,以后再浏览该网站时经常看到类似的提示:“猜您可能会喜欢”,然后就可以在网页的某个位置看到网站推荐的图书的名称及其相关链接。从这个销售数据中可以得出什么结论?某超市Post机上记录如下的销售数据:例2啤酒与尿布的故事顾客购买商品1面包,黄油,尿布,啤酒2咖啡,糖,小甜饼,鲑鱼,啤酒3面包,黄油,咖啡,尿布,啤酒,鸡蛋4面包,黄油,鲑鱼,鸡5鸡蛋,面包,黄油6鲑鱼,尿布,啤酒7面包,茶,糖鸡蛋8咖啡,糖,鸡,鸡蛋9面包,尿布,啤酒,盐10茶,鸡蛋,小甜饼,尿布,啤酒从数据挖掘的角度会得到如下的很强的关联规则:简单分析发现,有6个顾客买了啤酒,而其中5个人买了尿布,或说,5个买了尿布的顾客都买了啤酒。规则1:“买啤酒”“买尿布”。置信度为5/6规则2:“买尿布”“买啤酒”。置信度为5/5结论:“买尿布的顾客很可能会买啤酒”。对决策者的启示:商品的摆放设计和销售策略。二什么是数据挖掘什么是数据挖掘?DataInformationKnowledgeWisdom存在太多数据挖掘的定义,但基本上有这样一种描述结构Tofind/discover/extract/dredge/harvest、、、Interesting/novel/useful/implicit/actable/meaningful、、、Information/knowledge/patterns/trends/rules/anomalies、、、Inmassivedata/largedataset/largedatabase/datawarehouse、、、Data+contextInformation+rulesKnowledge+experience数据挖掘是从大量的数据中挖掘出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则。简单的说,数据挖掘就是从大量的数据中发现有用信息的过程。数据挖掘的定义(从数据中发现知识的角度):为什么会出现数据挖掘?时代背景:我们生活在一个网络化时代,通信、计算机和网络技术正改变整个人类社会。网络化时代给我们带来大量的数据:•商务环境(CRM):电子商务的Web数据•社交平台数据:facebook、twitter、微博(评论挖掘、商品营销、事件预测等)、人人网等•金融:银行卡交易数据•科学计算:天气、地理环境等为什么会出现数据挖掘?数据爆炸性增长带来的契机与挑战。。。。视频:《你知道吗?》推荐电影《永无止境》:讲述一位落魄的作家库珀,服用了一种可以迅速提升智力的神奇蓝色药物,然后他将这种高智商用于炒股。库珀是怎么炒股的呢?就是他能在短时间掌握无数公司资料和背景,也就是将世界上已经存在的海量数据(包括公司财报、电视、几十年前的报纸、互联网、小道消息等)挖掘出来,串联起来,甚至将FaceBook、Twitter的海量社交数据挖掘得到普通大众对某种股票的感情倾向,通过海量信息的挖掘、分析,使一切内幕都不是内幕,使一切趋势都在眼前,结果在10天内他就赢得了200万美元,神奇的表现让身边的职业投资者目瞪口呆。13数据爆炸.知识贫乏激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏知识的手段,导致“数据爆炸.知识贫乏”的尴尬现象。14数据.信息.知识数据仅是人们用各种工具和手段观察外部世界得到的原始材料;信息虽给出数据中有一定意义的东西,但往往和任务无直接联系,不能作为判断、决策和行动的依据;知识是人们作出正确的判断、决策和采取正确行动的依据。15数据的丰富带来了对强有力的数据分析工具的需求!16数据仓库与数据挖掘解决方法:数据仓库技术和数据挖掘技术数据仓库和联机分析处理技术(存储);数据挖掘:在大量的数据中挖掘感兴趣的知识/规则/规律/模式/约束(分析)。17课程目录第一章数据挖掘的基本概念;第二章数据仓库的基本概念;第三章联机分析处理;第四章数据预处理;第五章概念描述:特征化与比较;第六章挖掘大型数据库中的关联规则;第七章分类与预测;第八章聚类分析18学习目的:掌握数据仓库和数据挖掘的基本原理,学会用信息分析的方法思考问题。掌握一些算法的基本思想,以便今后在实践中处理特定问题时使用。第一章数据挖掘的基本概念第一章数据挖掘的基本概念数据挖掘的定义数据挖掘的功能——可以挖掘什么类型的模式数据挖掘的典型应用一、数据挖掘的定义数据挖掘是从大量的数据中挖掘出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则。简单的说,数据挖掘就是从大量的数据中发现有用的信息。数据挖掘的定义(从数据中发现知识角度):23这个定义包括以下几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的问题。数据挖掘的定义:24它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。数据挖掘是一门交叉学科:数据挖掘:多学科的汇合数据挖掘数据库技术统计学其它学科信息科学机器学习可视化人工智能科学计算几个相关概念机器学习:将一些已知的并被成功解决的问题作为范例输入计算机,由计算机通过学习这些范例总结并生成相应的规则,以解决某一类的问题;知识工程:不同于机器学习,直接给计算机输入已被代码化的规则,由计算机使用这些规则解决问题,如专家系统。20世纪80年代末,出现一个新的术语:数据库中的知识发现(KDD,KnowledgeDiscoveryinDatabase)。KDD泛指所有从源数据中发掘模式或联系的方法,用以描述整个数据发掘的过程,包括最开始的制定业务目标到最终的结果分析;并用数据挖掘(DM,DataMining)来描述进行数据挖掘的子过程。几个相关概念28知识发现的过程和步骤知识发现的主要过程:A.确定业务对象B.数据准备C.数据挖掘D.结果分析E.知识的同化29数据挖掘:一个KDD过程–挖掘数据:过程的核心.DataCleaning数据整理DataIntegration数据集成数据库DataWarehouse数据仓库相关任务数据Task-relevantData挑选采掘数据DataMining模式评估PatternEvaluation29二、数据挖掘的功能数据挖掘可以挖掘的一些常用模式如下:关联分析(描述);聚类分析(描述);分类(预测);孤立点分析(预测)数据挖掘的功能:数据挖掘的功能:1)关联分析关联规则挖掘:反映一个事件和其他事件之间依赖或关联的知识。广泛的用于购物篮或事务数据分析。例:2)聚类分析聚类分析:最大化类内的相似性和最小化类间的相似性(无监督的学习方法)找出数据集中的共性和差异,并将具有共性的对象聚合在相应的类中。“物以类聚,人以群分”示例:扑克牌的划分(b)(a)(c)(d)图十六张牌基于不同相似性度量的划分结果3)分类挖掘分类:反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识(有监督的学习方法)通过分析训练集中的数据,为每个类别建立分类分析模型;然后用这个分类分析模型对数据库中的其他记录进行分类。示例:垃圾邮件的识别属于分类问题,所有训练用邮件预先被定义好类标号信息,即训练集中的每封邮件预先被标记为垃圾邮件或合法邮件信息,需要利用已有的训练邮件建立预测模型,然后利用预测模型来对未来未知邮件进行预测。决策树方法得到规则规则的应用例如:信用卡的使用规则1:Ifrefund=noandmaritalstatus=marriedthencheat=no3)分类挖掘聚类与分类的主要区别:聚类是一种无指导的观察式学习,没有预先定义的类;而分类问题是有指导的示例式学习,有预先定义的类。聚类分类监督(指导)与否无指导学习(没有预先定义的类)有指导学习(有预先定义的类)是否建立模型或训练否,旨在发现空间实体的属性间的函数关系。是,具有预测功能4)孤立点分析孤立点分析:对差异和极端特例的描述孤立点:事物偏离常规的异常现象,如标准类外的特例,数据聚类外的离群值等;异常检测通过构建正常行为模型(称为特征描述),来检测与特征描述严重偏离的新的模式。应用信用卡欺诈检测移动电话欺诈检测医疗分析(异常)三、数据挖掘的应用电信:客户细分银行:聚类(细分),交叉销售百货公司/超市:购物篮分析(关联规则)保险:客户细分,交叉销售,流失(原因分析)信用卡:欺诈探测,细分电子商务:网站日志分析税务部门:偷漏税行为探测警察机关:犯罪行为分析医学:医疗保健数据挖掘的应用:英国电信需要发布一种新的产品,需要通过直邮的方式向客户推荐这种产品。。。。。。使直邮的回应率提高了100%电信GUS(英国的日用品零售商店)需要准确的预测未来的商品销售量,降低库存成本。。。。。。通过数据挖掘的方法使库存成本比原来减少了3.8%零售商店美国国内税务局需要提高对纳税人的服务水平。。。。。。合理安排税务官的工作,为纳税人提供更迅捷、更准确的服务税务局汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户。。。。。。营销费用减少了30%银行美国国防财务部需要从每年上百万比的军火交易中发现可能存在的欺诈现象。。。。。。发现可能存在欺诈的交易,进行深入调查,节约了大量的调查成本财务部数据挖掘都干了些什么?卓越亚马逊通过数据挖掘我们可以发现最有价值的客户通过数据挖掘我们可以使组合销售更有效率熟食罐头鲑鱼冻肉牛肉鲜货通过数据挖掘我们可以留住那些最有价值的客户通过数据挖掘我们可以用更小的成本发现欺诈现象数据挖掘的热点应用主要热点就目前来看,将来的几个热点包括:—网站的数据挖掘(WebSiteDataMining)—生物信息或基因(Bioinformatics/genomics)的数据挖掘—文本的数据挖掘(TextualMining)。网站的数据挖掘电子商务网站的困难——如何让您的电子商务网站有效益。要想有效益就必须吸引客户,增加能带来效益的客户忠诚度。电子商务业务的竞争比传统的业务竞争更加激烈,原因有很多方面,其中一个因素是客户从一个电子商务网站转换到竞争对手那边,只需点击几下鼠标即可。网站的数据挖掘网站的内容和层次、用词、标题、奖励方案、服务等任何一个地方都有可能成为吸引客户、同时也可能成为失去客户的因素。而同时电子商务网站每天都可能有上百万次的在线交易,生成大量的记录文件(Logfiles)和登记表,如何对这些数据进行分析和挖掘,充分了解客户的喜好、购买模式,甚至是客户一时的冲动,设计出满足于不同客户群体需要的个性化网站,进而增加其竞争力,几乎变得势在必行。若想在竞争中生存进而获胜,就要比您的竞争对手更了解客户。生物信息(基因信息)的数据挖掘生物信息或基因数据挖掘是近年来新兴

1 / 66
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功