第1章数据仓库与数据挖掘概述数据仓库•随着信息技术的不断推广和应用,许多企业都已经在使用管理信息系统处理管理事务和日常业务。这些管理信息系统为企业积累了大量的信息。企业管理者开始考虑如何利用这些信息海洋对企业的管理决策提供支持。因此,产生了与传统数据库有很大差异的数据环境要求和从这些海洋数据中获取特殊知识的工具需要。•本章目标:•(1)了解数据仓库的发展与展望。•(2)理解数据仓库的体系结构和参照结构。•(3)初步了解数据挖掘技术、数据挖掘技术与工具。•(4)掌握数据挖掘的应用。数据仓库数据仓库与数据挖掘概述•1.1数据仓库的发展与展望•1.2数据仓库的体系结构•1.3数据仓库的参照结构•1.4数据挖掘技术概述•1.5数据挖掘技术与工具•1.6数据挖掘的应用•练习数据仓库1.1数据仓库的发展与展望1.1.1从传统数据库到数据仓库随着市场竞争的加剧,信息系统的用户已经不满足于仅仅用计算机去处理每天所发生的事务数据,而是需要信息——能够支持决策的信息,去帮助管理决策。这就需要一种能够将日常业务处理中所收集到的各种数据转变为具有商业价值信息的技术,传统数据库系统无法承担这一责任。因为传统数据库的处理方式和决策分析中的数据需求不相称。这些不相称性主要表现在决策处理中的系统响应问题、决策数据需求的问题和决策数据操作的问题。数据仓库1.1数据仓库的发展与展望1.决策处理的系统响应问题2.决策数据需求的问题3.决策数据操作的问题4.数据仓库与传统数据库的对比数据仓库对比内容数据库数据仓库数据内容当前值历史的、存档的、归纳的、计算的数据数据目标面向业务操作程序、重复处理面向主题域、管理决策分析应用数据特性动态变化、按字段更新静态、不能直接更新、只定时添加数据结构高度结构化、复杂、适合操作计算简单、适合分析使用频率高中到低数据访问量每个事务只访问少量记录有的事务可能要访问大量记录对响应时间的要求以秒为单位计量以秒、分钟、甚至小时为计量单位1.1数据仓库的发展与展望数据仓库定义:“一个面向主题的、集成的、随时间变化的、非易失性数据的集合,用于支持管理层的决策过程”。特性:面向主题性数据集成性数据的时变性数据的非易失性数据的集合性支持决策作用。1.1.2数据仓库的定义与基本特性数据仓库基于关系对象数据库的数据仓库网络的影响操作型数据仓库要求Web中的代理技术1.1.3数据仓库的未来发展数据仓库1.2数据仓库的体系结构1.2.1数据仓库的概念结构从数据仓库的概念结构看,应该包含:数据源、数据准备区、数据仓库数据库、数据集市/知识挖掘库以及各种管理工具和应用工具。数据源业务系统外部数据源数据准备区数据仓库数据库应用工具管理工具数据集市/知识挖掘库应用工具数据集市/知识挖掘库图1.1数据仓库的概念结构数据仓库1.2.2虚拟数据仓库结构用户图1.2虚拟数据仓库结构数据仓库查询管理服务器业务系统数据库虚拟数据仓库利用描述了业务系统中数据位置和抽取数据算法的元数据直接从业务系统中抽取查询的数据进行概括、聚合操作后,将最终结果提供给用户数据仓库数据集市结构或称为主题结构的数据仓库是按照主题进行构思所形成的数据仓库,没有一个独立的数据仓库。系统的数据不存储在同一数据仓库中,每个主题有自己的物理存储区。数据仓库查询管理服务器业务系统数据库主题1主题21.2.3数据集市结构数据仓库将所有的主题都集中到一个大型数据库中的体系结构。数据源中数据被按照同一标准抽取到独立的数据仓库中,用户在使用时再根据主题将数据仓库中的数据发布到数据集市中。数据仓库查询管理服务器业务系统数据库数据仓库数据集市1数据集市21.2.4单一数据仓库结构数据仓库在企业各个分公司具有相当大的独立性时,企业总部设置一个全局数据仓库,各个分公司设置各自的局部数据仓库。局部数据仓库主要存储各自的未经转换的细节数据,全局数据仓库中主要存储经过转换的综合数据站点A站点B站点C站点D全局数据仓库局部数据仓库局部数据仓库局部数据仓库局部数据仓库总部1.2.5分布式数据仓库结构数据仓库•数据仓库的基本功能包含:数据抽取,数据筛选、清理,清理后的数据加载,设立数据集市,完成数据仓库的查询、决策分析和知识的挖掘等操作。•数据仓库的管理层分成数据管理与元数据管理两部分,主要负责对数据仓库中的数据抽取、清理、加载、更新与刷新等操作进行管理。•数据仓库环境支持层包含数据传输和数据仓库基础两部分。数据仓库基本功能层数据仓库管理层数据仓库环境支持层1.3数据仓库的参照结构数据仓库数据源数据准备区数据仓库结构数据集市/知识挖掘库存取与使用数据来源主要包含:业务数据、历史数据、办公数据、Web数据、外部数据以及数据源元数据数据准备区的功能结构部分由数据标准化处理、数据的过滤与匹配、数据的净化处理、标明数据的时间戳、确认数据质量与元数据抽取和创建等操作组成数据仓库的功能结构部分由数据重整和数据仓库创建以及元数据管理组成数据集市/知识挖掘库的功能结构与数据仓库的功能结构极为相似数据仓库的数据存取与使用结构主要为数据仓库的最终用户提供进行决策分析和挖掘知识的功能。数据仓库的数据存取与使用结构应该包含数据仓库存取与检索、元数据管理以及数据仓库分析与报告1.3.1数据仓库基本功能层数据仓库•数据管理层中的数据抽取、新数据需求与查询管理主要负责完成从数据源中抽取数据的管理。•数据仓库中的数据加载、存储、刷新和更新系统则负责对从数据源中所抽取的数据在完成筛选、净化处理以后,将这些数据加载、存储到数据仓库中;捕获数据源中的数据变化,用最新数据充实数据仓库;根据用户的需求和数据仓库管理的要求对数据仓库进行更新等工作。•安全性与用户授权管理系统主要负责数据仓库的安全管理工作。•数据仓库的数据归档、恢复及净化系统主要负责定期对数据仓库中的数据进行归档、备份。净化系统则负责对从数据源所抽取的数据进行数据的筛选、数据标准的统一、数据内容的统一等各种求精、重整净化工作的管理。数据抽取与新数据需求与查询管理数据加载、存储、刷新和更新系统安全性与用户授权管理系统数据归档、恢复及净化系统1.3.2数据仓库的管理层数据仓库•负责管理数据仓库所使用的元数据,其中包括:•数据仓库、数据集市/知识挖掘库和词汇表管理•元数据抽取、创建、存储和更新管理•预定义的查询和报表以及索引管理•刷新与复制管理,登录、归档、恢复与净化管理数据仓库、数据集市和词汇表管理元数据抽取、创建、存储和更新管理预定义的查询、报表和索引管理刷新与复制管理登录、归档、恢复与净化管理1.3.3数据仓库的元数据管理层数据仓库•数据传输层包含了:•数据传输和传送网络•客户/服务器代理和中间件•复制系统•数据传输的安全保障系统数据传输和传送网络客户/服务器代理和中间件复制系统安全和保障系统1.3.4数据仓库的环境支持层数据仓库1.4.1数据挖掘的发展在促进数据挖掘诞生、发展和应用的众多原因中主要有:超大规模数据库的出现先进的计算机技术经营管理的实际需要数据的精深计算能力。1.4数据挖掘技术概述数据仓库1.4.2数据挖掘的定义从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们所不知道的、但又是潜在有用的信息和知识的过程。从商业应用角度看,数据挖掘是一种崭新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转化、分析和模式化处理,从中提取辅助商业决策的关键知识。数据仓库数据挖掘工具与传统数据分析工具的比较传统数据分析工具(DSS/EIS)数据挖掘工具工具特点回顾型的、验证型的预测型的、发现型的分析重点已经发生了什么预测未来的情况、解释发生的原因分析目的从最近的销售文件中列出最大客户锁定未来的可能客户,以减少未来的销售成本数据集大小数据维、维中属性数、维中数据均是少量的数据维、维中属性数、维中数据均是庞大的启动方式企业管理人员、系统分析员、管理顾问启动与控制数据与系统启动,少量的人员指导技术状况成熟统计分析工具已成熟,其他工具正在发展中数据仓库1.5数据挖掘技术与工具1.5.1常用数据挖掘技术数据挖掘的发展受到数据库系统、统计学、机器学习、可视化技术、信息技术以及其它学科的影响,例如神经网络、模糊/粗糙集理论、知识表示、归纳技术与高性能计算等。从常用的数据挖掘技术来看可以分成三大类:传统分析类知识发现类其它最新发展的一些数据挖掘技术。数据仓库1.5.2常用数据挖掘工具•数据挖掘工具按照使用方式,可以分成:决策方案生成工具、商业分析工具和研究分析工具三大类。•按照数据挖掘的技术可以分成:基于神经网络的工具、基于规则和决策树的工具、基于模糊逻辑的工具和综合性数据挖掘工具等。•按照数据挖掘的应用范围可以将挖掘工具分成专用型数据挖掘工具和通用型数据挖掘工具。数据仓库1.5.3数据挖掘工具的评价标准•模式种类的数量•解决复杂问题的能力•操作性能•数据获取能力•挖掘结果的输出•噪声数据的处理及挖掘工具的鲁棒性1.5.4常用数据挖掘工具选择数据仓库1.6数据挖掘的应用1.6.1数据挖掘与数据仓库大多数数据挖掘工具需要在集成的、一致的、经过清理的数据上进行挖掘。数据挖掘过程中所需要的数据处理与分析工具完全可以在数据仓库的数据处理与数据分析工具中找到,数据仓库中的OLAP完全可以为数据挖掘提供有关的数据操作支持数据挖掘技术在数据仓库中的应用,正好弥补了数据仓库只能提供大量数据,而无法进行深度信息分析的缺陷。数据仓库1.6.2数据挖掘过程确定挖掘对象准备数据建立模型数据挖掘结果分析知识应用阶段业务对象源数据集成数据目标数据预处理数据商业模式知识应用方案数据仓库业务分析人员数据分析人员数据管理人员1.6.3数据挖掘的用户数据仓库练习1.为什么不能依靠传统的业务处理系统进行决策分析?2.在将数据源中的数据加载到数据仓库之前需要完成那些工作?为什么要进行这些工作?3.如果创建一个数据仓库,主要是分析关于客户的人口统计(收入、家庭人口、家庭位置、爱好等)。数据仓库的目的在于将特定的产品推销给合适的潜在客户群。这个数据仓库应该从哪些地方获取数据源,数据仓库的体系结构应该包含哪些部分。数据仓库4.从数据挖掘与数据库、统计学、机器学习的关系来讨论什么是数据挖掘?5.在数据挖掘过程中需要涉及到哪些过程?6.在现实中有哪些人需要使用数据挖掘技术来帮助他的工作?