华中农业大学信息学院1/1012019/8/1第六章数据仓库与数据挖掘华中农业大学信息学院2/1012019/8/1数据挖掘的发展动力---需要是发明之母•数据爆炸问题–自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。•我们拥有丰富的数据,但却缺乏有用的信息•解决方法:数据仓库技术和数据挖掘技术–数据仓库(DataWarehouse)和在线分析处理(OLAP)–数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束)华中农业大学信息学院3/1012019/8/1什么是数据挖掘?•数据挖掘(从数据中发现知识)–从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识–挖掘的不仅仅是数据(所以“数据挖掘”并非一个精确的用词)•数据挖掘的替换词–数据库中的知识挖掘(KDD)–知识提炼–数据/模式分析–数据考古–数据捕捞、信息收获等等。华中农业大学信息学院4/1012019/8/1数据挖掘:数据库中的知识挖掘(KDD)–数据挖掘——知识挖掘的核心数据清理数据集成数据库数据仓库任务相关数据选择数据挖掘模式评估华中农业大学信息学院5/1012019/8/1KDD的步骤•从KDD对数据挖掘的定义中可以看到当前研究领域对数据挖掘的狭义和广义认识1.数据清理:(这个可能要占全过程60%的工作量)2.数据集成3.数据选择4.数据变换5.数据挖掘(选择适当的算法来找到感兴趣的模式—狭义)6.模式评估7.知识表示(如图形等表示方法)华中农业大学信息学院6/1012019/8/1典型数据挖掘系统的体系结构数据仓库数据清洗过滤数据库数据库或数据仓库服务器数据挖掘引擎模式评估图形用户界面知识库数据集成华中农业大学信息学院7/1012019/8/1并非所有的东西都是数据挖掘•基于数据仓库的OLAP系统–OLAP系统专注于数据的汇总,而数据挖掘系统可以对数据进行多种复杂的处理。•机器学习系统,数据统计分析系统–这些系统所处理的数据容量往往很有限。•信息系统–专注于数据的查询处理。•相比于上述系统,数据挖掘系统关注更广的范围,是一个多学科的融合华中农业大学信息学院8/1012019/8/1在何种数据上进行数据挖掘•关系数据库•数据仓库•事务数据库•高级数据库系统和信息库–空间数据库–时间数据库和时间序列数据库–流数据–多媒体数据库–面向对象数据库和对象-关系数据库–异种数据库和历史(legacy)数据库–文本数据库和万维网(WWW)华中农业大学信息学院9/1012019/8/1数据挖掘的主要功能——可以挖掘哪些模式?•一般功能–描述性的数据挖掘–预测性的数据挖掘•通常,用户并不知道在数据中能挖掘出什么东西,对此我们会在数据挖掘中应用一些常用的数据挖掘功能,挖掘出一些常用的模式,包括:–概念/类描述:特性化和区分–关联分析–分类和预测–聚类分析–孤立点分析–趋势和演变分析华中农业大学信息学院10/1012019/8/1概念/类描述:特性化和区分•概念描述:为数据的特征化和比较产生描述(当所描述的概念所指的是一类对象时,也称为类描述)–特征化:提供给定数据集的简洁汇总。•例:对AllElectronic公司的“大客户”(年消费额$1000以上)的特征化描述:40-50岁,有固定职业,信誉良好,等等–区分:提供两个或多个数据集的比较描述。•例:华中农业大学信息学院11/1012019/8/1关联分析•关联规则挖掘:–从事务数据库,关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。–广泛的用于购物篮或事务数据分析。•例:%]70%,20[sup),()48...42,()39...30,(confidenceportcomputerXbuyskkXincomeXage华中农业大学信息学院12/1012019/8/1分类和预测1、分类在商业上应用最多,其目的是找出一组能够描述数据集合典型特征的模型和函数。2、数据分类实际上就是从数据库对象中发现共性,并将数据对象分成不同类别的过程。3、分类的目标首先是对训练数据进行分析,使用数据的某些特征属性,给出每个类的准确描述,然后使用这些描述,对数据库中的其他数据进行分类。4、分类通常和预测联系起来,这是因为分类可以用来预测数据对象的类标记,也可以用来预测不知道的数据值,当被预测的值是数值数据时,通常称之为预测。华中农业大学信息学院13/1012019/8/1分类和预测例:通过训练数据获得了如下规则:IF年龄=“31..40”AND收入=“较高”THEN信用程度=“优秀”规则的含义:年龄在31到40之间,收入较高的情况下,这类顾客群的信用程度被认为是“优秀”–IFage=“=30”ANDstudent=“no”THENbuys_computer=“no”–IFage=“=30”ANDstudent=“yes”THENbuys_computer=“yes”–IFage=“31…40”THENbuys_computer=“yes”–IFage=“40”ANDcredit_rating=“excellent”THENbuys_computer=“yes”–IFage=“40”ANDcredit_rating=“fair”THENbuys_computer=“no”华中农业大学信息学院14/1012019/8/1聚类分析•聚类分析:–将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。–最大化类内的相似性和最小化类间的相似性•例:对WEB日志的数据进行聚类,以发现相同的用户访问模式•聚类分析与分类分析相反,首先输入的是一组没有被标记的记录,系统按照一定的规则合理地划分记录集合(相当于给记录打标记,只不过分类标准不是用户指定的),然后可以采用分类分析法进行数据分析,并根据分析的结果重新对原来的记录集合(没有被标记的记录集合)进行划分,进而再一次进行分类分析,如此循环往复,直到获得满意的分析结果为止。华中农业大学信息学院15/1012019/8/1孤立点分析•孤立点分析–孤立点:一些与数据的一般行为或模型不一致的孤立数据–通常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论。•应用–信用卡欺诈检测–移动电话欺诈检测–客户划分–医疗分析(异常)华中农业大学信息学院16/1012019/8/1趋势和演变分析•是针对事件或对象行为随时间变化的规律或趋势,并以此来建立模型。例如:对股票市场交易数据进行时序演变分析,则可能得到这样的规则:AT&T股票连续上涨两天且DEC股票不下跌,那么第三天IBM股票上涨的可能性为75%。–趋势和偏差:回归分析–序列模式匹配:周期性分析–基于类似性的分析华中农业大学信息学院17/1012019/8/1所有模式都是有趣的吗?•数据挖掘可能产生数以千计的模式或规则,但并不是所有的模式或规则都是令人感兴趣的。•模式兴趣度的度量–一个模式是有趣的,如果(1)它易于被人理解;(2)在某种程度上,对于新的或测试数据是有效的;(3)具有潜在效用;(4)新颖的;(5)符合用户确信的某种假设•模式兴趣度的客观和主观度量–客观度量:基于所发现模式的结构和关于它们的统计,比如:支持度、置信度等等–主观度量:基于用户对数据的判断。比如:出乎意料的、新颖的、可行动的等等华中农业大学信息学院18/1012019/8/1能够产生所有有趣模式并且仅产生有趣模式吗?•找出所有有趣的模式:数据挖掘算法的完全性问题–数据挖掘系统能够产生所有有趣的模式吗?–试探搜索vs.穷举搜索–关联vs.分类vs.聚类•只搜索有趣的模式:数据挖掘算法的最优化问题–数据挖掘系统可以仅仅发现有趣的模式吗?–方法•首先生成所有模式然后过滤那些无趣的.•仅仅生成有趣的模式—挖掘查询优化华中农业大学信息学院19/1012019/8/1数据挖掘:多个学科的融合数据挖掘数据库系统统计学其他学科算法机器学习可视化华中农业大学信息学院20/1012019/8/1数据挖掘系统的分类(1)•数据挖掘的多学科融合的特性,决定了数据挖掘的研究将产生种类繁多的数据挖掘系统。•根据所挖掘的数据库分类–关系数据库,事务数据库,流式数据,面向对象数据库,对象关系数据库,数据仓库,空间数据库,时序数据库,文本数据库,多媒体数据库,异构数据库,历史数据库华中农业大学信息学院21/1012019/8/1数据挖掘系统的分类(2)–根据挖掘的知识类型•特征分析,区分,关联分析,分类聚类,孤立点分析/演变分析,偏差分析等等.•多种方法的集成和多层机挖掘–根据挖掘所用的技术•面向数据库的挖掘、数据仓库、OLAP、机器学习、统计学、可视化等等.–根据挖掘所用的应用•金融,电信,银行,欺诈分析,DNA分析,股票市场,Web挖掘等等.第二节:数据仓库和数据挖掘的OLAP技术华中农业大学信息学院23/1012019/8/1数据仓库-数据挖掘的有效平台•数据仓库中的数据清理和数据集成,是数据挖掘的重要数据预处理步骤•数据仓库提供OLAP工具,可用于不同粒度的数据分析•很多数据挖掘功能都可以和OLAP操作集成,以提供不同概念层上的知识发现–分类–预测–关联–聚集华中农业大学信息学院24/1012019/8/1数据仓库的定义与基本特性•1.数据仓库的定义WilliamH.Inmon在1993年所写的论著《BuildingtheDataWarehouse》首先系统地阐述了关于数据仓库的思想、理论,为数据仓库的发展奠定了历史基石。文中他将数据仓库定义为:adatawarehouseisasubject-oriented,integrated,non-volatile,time-variantcollectionofdatainsupportofmanagementdecisions.一个面向主题的、集成的、非易失性的、随时间变化的数据的集合,以用于支持管理层决策过程。华中农业大学信息学院25/1012019/8/1数据仓库关键特征一——面向主题面向主题表示了数据仓库中数据组织的基本原则,数据仓库中的数由数据都是围绕着某一主题组织展开的。由于数据仓库的用户大多是企业的管理决策者,这些人所面对的往往是一些比较抽象的、层次较高的管理分析对象。例如,企业中的客户、产品、供应商等都可以作为主题看待。从信息管理的角度看,主题就是在一个较高的管理层次上对信息系统的数据按照某一具体的管理对象进行综合、归类所形成的分析对象。从数据组织的角度看,主题是一些数据集合,这些数据集合对分析对象作了比较完整的、一致的描述,这种描述不仅涉及到数据自身,而且涉及到数据之间的关系。华中农业大学信息学院26/1012019/8/1数据仓库关键特征二——数据集成•一个数据仓库是通过集成多个异种数据源来构造的。–关系数据库,一般文件,联机事务处理记录(OLTP)•使用数据清理和数据集成技术。–确保命名约定、编码结构、属性度量等的一致性。–当数据被移到数据仓库时,它们要经过转化。华中农业大学信息学院27/1012019/8/1数据仓库关键特征三——随时间而变化•数据仓库是从历史的角度提供信息–数据仓库的时间范围比操作数据库系统要长的多。•操作数据库系统:主要保存当前数据。•数据仓库:从历史的角度提供信息(比如过去5-10年)–数据仓库中的每一个关键结构都隐式或显式地包含时间元素,而操作数据库中的关键结构可能就不包括时间元素–尽管数据仓库中的数据并不像业务数据库那样反映业务处理的实际状况,但是数据也不能长期不变,如果依据10年前的数据进行决策分析,那决策所带来的后果将是十分可怕的。华中农业大学信息学院28/1012019/8/1•因此,数据仓库必须能够不断捕捉主题的变化数据,将那些变化的数据追加到数据仓库中去,也就是说在数据仓库中必须不断的生成主题的新快照,以满足决策分析的需要。数据新快照生成的间隔,可以根据快照的生成速度和决策分析的需要而定。例如,如果分析企业近几年