数据挖掘数据仓库与数据挖掘孙家泽sunjiaze@xupt.edu.cn数据挖掘关于本课程1.数据挖掘融合了数据库、人工智能、机器学习、统计分析、模式发现、可视化技术、信息检索等多个学科领域的知识。2.本课程系统地介绍了数据挖掘的概念、理论及其发展、重点介绍了数据挖掘技术及其在实践中的应用。数据挖掘课程目标1.通过本课程的学习,掌握数据挖掘的基本概念、数据挖掘过程、数据仓库的概念、OLAP与数据挖掘的关系。2.掌握数据挖掘的常用技术:决策树、神经网络、关联规则、聚类分析、统计学习等。3.熟悉数据挖掘技术在典型行业的应用方法,具有运用数据挖掘技术解决问题的能力。数据挖掘课程体系1.数据挖掘概述2.数据仓库与OLAP技术3.数据挖掘技术4.数据挖掘应用5.数据挖掘工具6.数据挖掘实例数据挖掘学习方法课堂讲授及自学理解数据挖掘的基本概念和原理。充分利用因特网,查阅相关资料进一步拓展知识面熟悉常用的数据挖掘软件,提高数据挖掘的基本处理能力和动手能力。数据挖掘成绩考核考试成绩由平时考勤+课堂讨论+大作业数据挖掘参考资料1.韩家炜,《数据挖掘:概念与技术(第二版)》,中文版,机械工业出版社2.王欣等,《SQLServer2005数据挖掘实例分析》,中国水利水电出版社3.数据挖掘.实用机器学习工具和技术4.WEKA手册5.www.dwway.comwww.dmresearch.netwww.dmreview.comwww.datawarehouse.comwww.kdnuggets.com数据挖掘需要使用的部分软件SPSSWEKASQLServer2005标准版Excel数据挖掘第1章数据挖掘概述数据挖掘数据挖掘啤酒与尿布数据挖掘引例:啤酒与尿布沃尔玛超市建立数据仓库,按周期统计产品的销售信息,经过科学建模后提炼决策层数据。发现每逢周末,位于某地区的沃尔玛超市连锁店的啤酒和尿布的销售量很大,而且单张发票中同时购买尿布和啤酒的记录非常普遍。分析人员认为这并非偶然,经过深入分析得知,通常周末购买尿布的是男士,他们在完成了太太交给的任务后,经常会顺便买一些啤酒。得出这样的结果后,沃尔玛超市的工作人员尝试着将啤酒和尿布摆放在一起销售,结果尿布与啤酒的销售额双双增长。从上面的例子不难看出,数据管理的主要目的是获取信息和分析信息以指导我们的行动或帮助我们作决策。数据挖掘引言从大量数据中提取出隐藏在其中的有用信息数据挖掘,也可以称为数据库中的知识发现(KnowledgeDiscoverDatabase,KDD),是从大量数据中提取出可信、新颖、有效并能被人理解的模式的高级处理过程。数据挖掘本章内容一、数据挖掘技术的由来二、数据挖掘的定义三、数据挖掘发现的知识类型四、数据挖掘对象五、数据挖掘任务六、数据挖掘分类七、数据挖掘模型八、数据挖掘过程数据挖掘数据挖掘一、数据挖掘技术的由来信息爆炸但知识贫乏《纽约时报》一周报道的信息总量,比十八世纪一个人一生接触的信息总量还多“我们正在被信息所淹没,但我们却由于缺乏知识而感到饥饿。”可怕的数据有用的知识数据挖掘一、数据挖掘技术的由来数据挖掘是八十年代投资AI研究项目失败后,AI转入实际应用时提出的。它是一个新兴的,面向商业应用的AI研究。(AI(ArtificialIntelligence,人工智能))1989年8月,在美国底特律召开的第11届国际人工智能联合会议的专题讨论会上首次出现数据库中的知识发现(KnowledgeDiscoveryinDatabase,KDD)这一术语。随后,在1991年、1993年和1994年都举行KDD专题讨论会,汇集来自各个领域的研究人员和应用开发者,集中讨论数据统计、海量数据分析算法、知识表示、知识运用等问题。最初,数据挖掘是作为KDD中利用算法处理数据的一个步骤,其后逐渐演变成KDD的同义词。数据挖掘一、数据挖掘技术的由来现在,人们往往不加区别地使用两者。KDD常常被称为数据挖掘(DataMining),实际两者是有区别的。一般将KDD中进行知识学习的阶段称为数据挖掘(DataMining),数据挖掘是KDD中一个非常重要的处理步骤。数据挖掘是近年来出现的客户关系管理(CustomerRelationshipManagement,CRM)、商业智能(BusinessIntelligence,BI)等热点领域的核心技术之一。数据挖掘一、数据挖掘技术的由来支持数据挖掘技术的基础海量数据搜索强大的多处理器计算机数据挖掘算法数据挖掘二、数据挖掘的定义技术角度的定义数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。该定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。数据挖掘二、数据挖掘的定义关于知识的解释从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识。这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。实际上,所有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果。数据挖掘二、数据挖掘的定义模式:它给出了数据特性或数据之间的关系,是对数据所包含的信息更抽象的描述。模式按功能可以分为预测型模式和描述型模式。在实际应用中,可以细分为关联模式、分类模式、聚类模式和序列模式等。数据挖掘二、数据挖掘的定义“从数据中发现有用模式”历来有很多称法,如:数据挖掘(datamining)知识提取(knowledgeextraction)信息发现(informationdiscovery)信息收获(informationharvesting)数据考古(dataarchaeology)数据模式处理(datapatternprocessing)“数据挖掘”的称法大部分是由统计学家,数据分析学家和MIS团体使用的,在数据库领域也得到了广泛接受。数据挖掘二、数据挖掘的定义商业角度的含义数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。数据挖掘对于企业的价值简言之,数据挖掘其实是一类深层次的数据分析方法。因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证己知的规律性,并进一步将其模型化的有效方法。数据挖掘二、数据挖掘的定义从商业数据到商业信息的进化进化阶段商业问题支持技术产品厂家产品特点数据搜集(20世纪60年代)“过去五年中我的总收入是多少?”计算机、磁带和磁盘IBM,CDC提供历史性的、静态的数据信息数据访问(20世纪80年代)“在新英格兰的分部去年三月的销售额是多少?”关系数据库,结构化查询语言,ODBC、Oracle、Sybase、IBM、MicrosoftOracle、Sybase、Informix、IBM、Microsoft在记录级提供历史性的、动态数据信息数据仓库、决策支持(20世纪90年代)“在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论?”联机分析处理(OLAP)、多维数据库、数据仓库Pilot、Comshare、Arbor、Cognos、Microstrategy在各种层次上提供回溯的、动态的数据信息数据挖掘(正在流行)“下个月波士顿的销售会怎么样?为什么?”高级算法、多处理器计算机、海量数据库Pilot、Lockheed、IBM、SGI、其他初创公司提供预测性的信息数据挖掘数据挖掘与其他科学的关系数据挖掘作为一门新兴的交叉学科,涉及数据库系统、数据仓库、统计学、机器学习、可视化、信息检索和高性能计算等诸多领域。此外,还与神经网络、模式识别、空间数据分析、图像处理、信号处理、概率论、图论和归纳逻辑等等领域关系密切。数据挖掘数据挖掘与其他科学的关系数据挖掘受多学科的影响数据挖掘数据挖掘与传统数据分析数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是:在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知,有效和可用三个特征。(传统是假设驱动、数据挖掘是发现驱动)数据挖掘数据挖掘和数据仓库数据仓库和数据集市是数据挖掘的一种数据源数据挖掘是数据仓库的一个应用对于数据挖掘,数据仓库不是必需的。数据挖掘数据挖掘和在线分析处理(OLAP)OLAP分析是建立一系列的假设,然后通过OLAP来证实或推翻这些假设来最终得到自己的结论。OLAP分析过程在本质上是一个演绎推理的过程。数据挖掘与OLAP不同的地方是,数据挖掘不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型。他在本质上是一个归纳的过程。数据挖掘和OLAP具有一定的互补性。数据挖掘数据挖掘、机器学习和统计数据挖掘利用了人工智能(AI)和统计分析的进步所带来的好处。数据挖掘不是为了替代传统的统计分析技术。相反,他是统计分析方法学的延伸和扩展。数据挖掘就是利用了统计和人工智能技术的应用程序,他把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题数据挖掘数据挖掘的本质一种深层次的数据分析方法。数据分析本身已有多年的历史,只不过在过去数据收集和分析的一般目的是用于科学研究;另外,由于当时计算能力的限制,很难实现大量数据的复杂分析。现在,由于各行业业务自动化的实现,商业领域产生了大量的业务数据,这些数据并不是为了分析的目的而收集的,而是在商业运作过程中由于业务需要而自然产生的。数据挖掘实施数据挖掘的目的不再是单纯为了研究,更主要的是为商业决策提供真正有价值的信息,进而获得利润。所有企业面临的一个共同问题是:企业数据量非常大,而其中真正有价值的信息却很少,因此需要从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也由此而得名。数据挖掘三、数据挖掘发现的知识类型广义知识关联知识分类知识预测知识偏差知识。数据挖掘广义知识广义知识指类别特征的概括性描述知识。根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物共同性质。广义知识就是对大量数据的归纳、概括,提炼出带有普遍性的、概括性的描述统计知识。描述统计是数据挖掘最基本的应用之一,经常和统计图(如直方图,柱形图,折线图,散点图等)配合使用。如当月公司利润总额、比较不同区域的销售量等。广义知识的发现方法和实现技术有很多,如概念描述、多维数据分析、面向属性的归约、概念分层等。数据挖掘关联知识数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联知识可分为简单关联规则、多层关联规则、多维关联规则、量化关联规则和基于约束的关联规则。典型例子是购物篮分析发现关联规则的算法主要有Apriori算法和频繁模式树(FP-树)数据挖掘案例:某超市的数据挖掘应用美国的超市有这样的系统:当你采购了一车商品结账时,售货员小姐扫描完了你的产品后,计算机上会显示出一些信息,然后售货员会友好地问你:我们有一种一次性纸杯正在促销,位于F6货架上,您要购买吗?这句话决不是一般的促销。因为计算机系统早就算好了,如果你的购物车中有餐巾纸、大瓶可乐和沙拉,则86%的可能性你要买一次性纸杯。