数据仓库与数据挖掘陈昕chenxin@bistu.edu.cn2015.04数据挖掘的应用—人文地理数据挖掘的应用—娱乐传媒数据挖掘的应用—智慧城市数据挖掘的应用—商业零售数据挖掘的应用—Web推荐数据挖掘的应用—体育竞技VS数据挖掘的应用—大数据应用信息安全舆情分析能效优化商务智能与数据挖掘工具商务智能与数据挖掘工具商务智能与数据挖掘工具商务智能与数据挖掘功能计划预测预算实际分析没有绝对正确的答案依靠分析众多的预测方案灵活的要求核心:数据参考书目1.《数据挖掘概念与技术》,JiaweiHanMichelineKamber著,范明、孟小峰等译,机械工业出版社出版2.《数据仓库》,W.H.Inmon著,王志海等译,机械工业出版社出版3.《数据仓库技术与联机分析处理》,王珊等编著,科学出版社出版4.《数据挖掘实践》,OliviaParrRud著,朱扬勇、左子叶等译,机械工业出版社出版数据仓库以及数据挖掘是目前数据库领域最为活跃的一个方面,受到学术界与产业界的广泛关注。典型应用环境如DSS,EIS,ERP。大型数据库的数据仓库解决方案有:InformixMetaCubeOracleExpressSybaseQuickStartDataMartDB2DataWarehouseManagerSQLServerAnalysisservicesNCRTeradataWarehouse对各类海量数据需要自动分析、分类、汇总、发现和描述数据蕴涵的趋势、标记异常等课程简介各类管理人员需要从大量复杂的业务数据中获取各自权限内的决策信息,及时把握市场变化脉搏,作出正确有效的判断与抉择随着数据库系统的逐日运行,数据将堆积越来越庞大数据处理的重点需要从传统业务扩展到业务数据的联机分析处理,并得到面向各种管理主题的统计信息和决策支持信息数据仓库是基于大规模数据库的DSS环境的核心课程简介数据仓库的基本概念多维数据模型数据仓库的系统结构数据仓库的实现基于数据仓库的数据挖掘课程简介数据挖掘通常称为数据库中的知识发现(KDD),是自动的或方便的模式提取,这些模式代表隐藏在大型数据库、数据仓库或其他大量信息存储中的知识涉及的学科有:数据库技术、人工智能、机器学习、神经网络、统计学、模式识别、知识库、知识获取、信息检索、高性能计算和数据可视化课程简介数据挖掘的概念数据挖掘的功能数据挖掘的分类与主要问题数据挖掘系统的结构挖掘大型数据库中的关联规则分类与预测聚类分析复杂类型的数据挖掘数据仓库与数据挖掘的应用与发展趋势课程简介一、数据仓库与数据挖掘概述二、数据仓库的OLAP技术三、数据预处理四、数据挖掘的系统结构五、挖掘大型数据库中的关联规则六、分类与预测七、聚类分析八、复杂类型的数据挖掘九、数据仓库与数据挖掘的应用与发展趋势课程结构1.什么是数据仓库2.什么是数据挖掘3.数据挖掘的功能4.数据挖掘的分类5.数据挖掘的主要问题第一章数据仓库与数据挖掘概述第一节什么是数据仓库1.数据仓库的产生当前的数据处理与数据分为两类:操作型处理与数据分析型或信息型处理与数据第一节什么是数据仓库1.数据仓库的产生操作型处理:又称事务处理,是指对数据库联机的日常操作,通常是对一个或一组记录的查询和修改,主要为企业的特定应用服务,所关心的是响应时间,数据的安全性和完整性操作型环境是以单一数据库为中心的数据环境第一节什么是数据仓库1.数据仓库的产生分析型处理:又称信息型处理,是针对制定决策过程中管理方面的需求而进行的处理,通过浏览大量数据找出其中的趋势。如DSS,EIS等分析型环境是一种新的体系化环境操作型数据(原始数据)分析型数据(导出数据)细节的综合的,或提炼的在存取瞬间是准确的代表过去的数据可更新不更新操作需求事先可知道操作需求事先不知道生命周期符合SDLC完全不同的生命周期对性能要求高对性能要求宽松一个时刻操作一个单元一个时刻操作一个集合事务驱动分析驱动面向应用面向分析一次操作数据量小一次操作数据量大支持日常操作支持管理需求第一节什么是数据仓库第一节什么是数据仓库1.数据仓库的产生操作型数据和分析型数据的不同而导致的数据分离和自然扩展过程:操作型原子/数据仓库部门/数据集市个体第一节什么是数据仓库2.数据仓库的定义数据仓库之父W.H.Inmon给出了定义:数据仓库是一个面向主题的、集成的、不可更新的且随时间不断变化的数据集合,用来支持管理人员的决策第一节什么是数据仓库2.数据仓库的定义面向主题主题:是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象,即对应企业中某一宏观分析领域所涉及的分析对象面向主题的数据组织方式就是对分析对象的数据的一个完整、一致的描述,能完整、统一地刻画各个分析对象所涉及的企业各项数据,以及数据之间的联系第一节什么是数据仓库2.数据仓库的定义面向主题每个主题在数据仓库中都是由一组关系表实现的主题的实现基于关系数据库在具体实现中,一个主题可以划分成多个表,主题只是一个逻辑的概念基于一个主题的所有表都含有一个称为公共键码的属性作为其主码的一部分第一节什么是数据仓库2.数据仓库的定义面向主题CustomerIDFromdateTodateNameAddressPhoneSex…CustomerIDFromdateTodateNameAddressCreditratingemployerSex…CustomerIDActivitydateAmountLocationForitem…第一节什么是数据仓库2.数据仓库的定义数据仓库的数据是集成的要统一源数据中所有矛盾之处,如同名异义、字长不一致等等进行数据综合和计算。数据综合可以从原有数据库抽取数据生成,但许多是在数据仓库内部生成第一节什么是数据仓库2.数据仓库的定义数据仓库数据是不可更新数据仓库的数据主要供企业决策分析使用,所涉及的数据操作主要是数据查询,一般不进行修改操作数据库中进行联机处理的数据经过集成输入到数据仓库中,数据仓库中的数据超过存储期限,这些数据将从当前数据仓库中删去DWMS比DBMS简单,但查询要求高第一节什么是数据仓库2.数据仓库的定义数据仓库数据随时间不断变化数据仓库随时间变化不断增加新的内容数据仓库随时间变化不断删除旧的内容数据仓库中包含有大量的综合数据,这些数据随时间变化不断地进行重新综合数据仓库数据的码键包含时间项,标明历史时期第一节什么是数据仓库3.数据仓库的数据组织3.1组织结构元数据高度综合级轻度综合级当前细节级早期细节级2002~2003年每月销售表2002~2003年每周销售表2002~2003年销售情况表2000~2003年销售明细表第一节什么是数据仓库3.数据仓库的数据组织3.1组织结构数据仓库中的不同综合级别,称为“粒度”。粒度越大,表示细节程度越低,综合程度越高元数据(metadata):关于数据的数据操作型环境向数据仓库环境转换而建立的元数据数据仓库中用来与终端用户的多维商业模型/前端工具之间建立映射,也为DSS元数据第一节什么是数据仓库3.数据仓库的数据组织3.2粒度与分割粒度是数据仓库的重要概念粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别细化程度越高,粒度级就越小;细化程度越低粒度级就越大一般采用多重粒度级:高细节级、低细节级第一节什么是数据仓库3.数据仓库的数据组织3.2粒度与分割分割是数据仓库的重要概念分割是指将数据分散到各自的物理单元中去以便能分别独立处理,以提高数据处理效率数据分割后的数据单元称为分片数据分割标准依据实际情况确定,一般应包括日期项分割使数据更易重构、索引、重组、恢复、监控第一节什么是数据仓库3.数据仓库的数据组织3.2粒度与分割简单分割实例,分片以时间标准来组织:健康保险生命保险事故保险2001分片1分片2分片32002分片4分片5分片62003分片7分片8分片9第一节什么是数据仓库3.数据仓库的数据组织3.3数据组织形式简单堆积文件:数据逐天积累轮转综合文件:按日、周、月、年组织数据集简化直接文件:每隔一定时间的数据库快照连续文件:通过比较两个简单直接文件不同而生成...第二节什么是数据挖掘1.数据挖掘的提出数据挖掘是信息技术自然演化的结果数据收集、数据库创建数据管理:数据存储和检索,数据库事务处理数据分析与理解:涉及数据仓库和数据挖掘第二节什么是数据挖掘1.数据挖掘的提出数据库技术的发展历史20世纪60年代,功能强大的数据库系统70年代,从网状和层次到关系数据库系统、建模工具、索引和数据组织技术,联机事务处理OLTP80年代,使用先进的数据模型,如面向对象模型、对象关系模型、演绎模型第二节什么是数据挖掘1.数据挖掘的提出数据仓库技术数据清理:文件之间转换、存储介质转移、清除过期数据、层次转换(操作型到分析型)数据集成:从操作型环境到分析型环境联机分析处理OLAP:是一种分析技术,具有汇总、合并和聚集功能,以及从不同角度观察信息的能力第二节什么是数据挖掘1.数据挖掘的提出数据的丰富增强了对功能更强的数据分析工具的需求对海量数据的理解,远远超出人的能力,产生“数据坟墓”决策者缺乏从海量数据中提取有价值知识的工具,许多专家系统技术还是依赖经验数据挖掘工具进行数据分析,可以发现重要的数据模式,破除数据与信息的鸿沟第二节什么是数据挖掘2.数据挖掘的定义数据挖掘是指从大量数据中提取或“挖掘”知识。通常也可理解为数据库中的知识发现KDD,也可以理解为KDD的一个基本步骤。还有提法:数据库中知识挖掘知识提取数据/模式分析数据考古数据捕捞第二节什么是数据挖掘2.数据挖掘的定义知识发现过程7个步骤如下:1)数据清理:消除噪声或不一致2)数据集成:多种数据源组合在一起3)数据选择:从数据库中检索与分析任务相关的数据。4)数据变换:数据变换或统一成适合挖掘的形式,如汇总或聚集操作5)数据挖掘:使用智能方法提取数据模式第二节什么是数据挖掘2.数据挖掘的定义知识发现过程7个步骤如下:6)模式评估:根据某种兴趣度量,识别表示知识的真正有趣的模式7)知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识第二节什么是数据挖掘2.数据挖掘的定义知识发现过程7个步骤如下:数据仓库知识数据库清理与集成选择与变换数据挖掘模式评估与表示第二节什么是数据挖掘2.数据挖掘的定义数据挖掘的广义定义:数据挖掘是从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有趣知识的过程第二节什么是数据挖掘3.数据挖掘系统的主要成分数据库、数据仓库或其他信息库数据库或数据仓库服务器知识库数据挖掘引擎模式评估模块图形用户界面第二节什么是数据挖掘4.数据挖掘的应用环境关系数据库数据仓库事务数据库高级数据库系统和高级数据库第二节什么是数据挖掘3.数据挖掘的应用环境高级数据库系统和高级数据库:面向对象数据库对象-关系数据库空间数据库时间数据库和时间序列数据库文本数据库和多媒体数据库异种数据库和遗产数据库WWW第三节数据挖掘功能1.数据挖掘功能数据挖掘功能用于指定数据挖掘任务中要找的模式类型。数据挖掘任务一般分为两类:描述和预测描述性挖掘任务刻划数据库中数据的一般特性预测性挖掘任务在当前数据上进行推断,以进行预测第三节数据挖掘功能2.概念/类描述:特征化和区分数据可以与类或概念相关联。用汇总的、简洁的、精确的方式描述每个类和概念称为类/概念描述这种描述可以通过以下方法得到:数据特征化:目标类数据的一般特征或特性的汇总数据区分:将目标类对象的一般特性与一个或多个对比类对象的一般特性进行比较数据特征化和比较第三节数据挖掘功能3.关联分析关联分析发现关联规则,这些规则展示属性-值频繁地在给定数据集中一起出现的条件。关联分析适用于事务数据分析关联规则形式化描述为,解释为“满足X中条件的数据库元组也满足Y中的条件”多维关联规则一个以上属性或谓词之间的关联规则单维关联规则包含单个