E-MAIL:BXXHS@SINA.COM数据仓库与数据挖掘技术IstituteOfMISAndLMS,wuse()E-MAIL:BXXHS@SINA.COM第三部分主要内容讲解第一章数据仓库与数据挖掘概述1.1数据仓库引论11.1.1为什么要建立数据仓库11.1.2什么是数据仓库21.1.3数据仓库的特点71.1.4数据进入数据仓库的基本过程与建立数据仓库的步骤111.1.5分析数据仓库的内容121.2数据挖掘引论131.2.1为什么要进行数据挖掘131.2.2什么是数据挖掘181.2.3数据挖掘的特点211.2.4数据挖掘的基本过程与步骤221.2.5分析数据挖掘的内容261.3数据挖掘与数据仓库的关系281.4数据仓库与数据挖掘的应用311.4.1数据挖掘在零售业的应用311.4.2数据挖掘技术在商业银行中的应用361.4.3数据挖掘在电信部门的应用401.4.4数据挖掘在贝斯出口公司的应用421.4.5数据挖掘如何预测信用卡欺诈421.4.6数据挖掘在证券行业的应用43思考练习题一44E-MAIL:BXXHS@SINA.COM1.1.1为什么要建立数据仓库数据仓库的作用建立数据仓库的好处E-MAIL:BXXHS@SINA.COM1.1.2什么是数据仓库1.数据仓库的概念W.H.Inmon在《BuildingtheDataWarehouse》中定义数据仓库为:“数据仓库是面向主题的、集成的、随时间变化的、历史的、稳定的、支持决策制定过程的数据集合。”即数据仓库是在管理人员决策中的面向主题的、集成的、非易失的并且随时间而变化的数据集合。“DW是作为DSS基础的分析型DB,用来存放大容量的只读数据,为制定决策提供所需的信息。”“DW是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的。即与企业定义的时间区段相关,面向主题且不可更新的数据集合。”数据仓库是一种来源于各种渠道的单一的、完整的、稳定的数据存储。这种数据存储提供给可以允许最终用户的可以是一种他们能够在其业务范畴中理解并使用的方式。数据仓库是大量有关公司数据的数据存储。仓库提供公司数据以及组织数据的访问功能,其中的数据是一致的(consistent),并且可以按每种可能的商业度量方式分解和组合;数据仓库也是一套查询、分析和呈现信息的工具;数据仓库是我们发布所用数据的场所,其中数据的质量是业务再工程的驱动器(driverofbusinessreengineering)。定义的共同特征:首先,数据仓库包含大量数据,其中一些数据来源于组织中的操作数据,也有一些数据可能来自于组织外部;其次,组织数据仓库是为了更加便利地使用数据进行决策;最后,数据仓库为最终用户提供了可用来存取数据的工具。E-MAIL:BXXHS@SINA.COM数据仓库的定义综合对数据仓库的各种理解以及其特征,我们可以定义数据仓库是一种为信息分析提供了良好的基础并支持管理决策活动的分析环境,是面向主题的、集成的、稳定的、不可更新的、随时间变化的、分层次的多维的集成数据集合。E-MAIL:BXXHS@SINA.COM2.与数据仓库相关的几个概念数据(data)是一组表示数量、行动和目标的非随机的可以鉴别的符号,是对客观事物记录下来的,可以鉴别的符号。这些符号包括数字、字符、文字、图形、图像、声音。操作数据原子数据汇总数据特定查询响应查询响应汇总数据原子数据操作数据数据仓库环境E-MAIL:BXXHS@SINA.COM数据类型的分类元数据是指用来描述数据仓库数据库内容的数据。以后将详细讨论元数据。数据库是一组内部相关联的数据集合。其中关系数据库是表的集合,每个表都有惟一的名字,且每个表都由一组字段(属性)所存放的记录组成。数据库管理系统(DBMS)是用来管理和存取数据库的一组软件。该软件具有如下机制:数据库结构定义,数据的存储、并发、共享或分布的数据访问,数据的一致性和安全性。数据库系统是一个由硬件、软件、数据库和管理人员组成的复杂系统。随着信息技术不断的发展,对数据处理的技术和人们对数据的需求也在不断的进化,如图1.2所示的数据库系统及相关技术的演化。数据集市(datamarts)通常是指较为小型化、针对特定目标且建设成本较低的一种数据仓库。为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据(subjectdata)。E-MAIL:BXXHS@SINA.COM数据库系统及相关技术的演化数据收集和数据库创建((20世纪60年代或更早)和数创建数据6年代184-1992和更早1984-1992数据库管理系统(20世纪70年代)层次和网状数据库系统关系数据OLTP原始处理数据建模工具:ER模型索引和数据组织技术:B+树,散列查询语言:SQL等用户界面:表单、报告等查询处理和查询优化事务处理:恢复和并发控制等联机事务处理高级数据库管理系统(20世纪80年代中期~现在)数据仓库与数据挖掘(20世纪80年代后期~现在)基于Web的数据库系统(20世纪90年代~现在)新一代综合信息系统(2000年~现在)高级数据模型:扩充关系、面向对象、对象关系、演绎面向应用:空间的、时间的、多媒体的、主动的、科学的知识库基于XML的数据库系统Web挖掘数据挖掘和知识发现数据仓库技术和OLAP图1.2数据库系统及相关技术的演化E-MAIL:BXXHS@SINA.COM1.1.3数据仓库的特点1.主题与面向主题2.数据仓库数据的集成性3.数据仓库数据的不可更新性4.DW数据的时态性E-MAIL:BXXHS@SINA.COM1.1.4数据进入数据仓库的基本过程与建立数据仓库的步骤1.数据进入数据仓库的基本过程操作数据向数据仓库的移动包括以下五个过程:提取、变换、净化、加载和汇总。2.建立数据仓库的步骤1)收集和分析业务需求;2)建立数据模型和数据仓库的物理设计;3)定义数据源;4)选择数据仓库技术和平台;5)从操作型数据库中提取、转换和净化数据到数据仓库;6)选择访问和报表工具;7)选择数据库连接软件;8)选择数据分析和数据展示软件;9)更新数据仓库;E-MAIL:BXXHS@SINA.COM1.1.5分析数据仓库的内容操作型数据分析型数据细节的综合的,或提炼的在存取期间是准确的代表过去的数据可更新不更新操作需求事先可知道操作需求事先不知道生命周期符合SDLC完全不同的生命周期(CLDS)对性能要求高对性能要求宽松一个时刻操作一单元一个时刻操作一人集合事务驱动分析驱动面向应用面向分析一次操作数据最小一次操作数据量大支持日常操作支持管理需求操作型数据和分析型数据的区别E-MAIL:BXXHS@SINA.COM1.2.1为什么要进行数据挖掘1.数据挖掘的作用数据挖掘解决诸如欺诈甄别(frauddetection)、保留客户(customerretention)、消除摩擦(attrition)、数据库营销(databasemarketing)、市场细分(marketsegmentation)、风险分析(riskanalysis)、亲和力分析(affinityanalysis)、客户满意度(customersatisfaction)、破产预测(bankruptcyprediction)、职务分析(portfolioanalysis)等业务问题提供了有效的方法。E-MAIL:BXXHS@SINA.COM2.数据挖掘的背景(1)数据挖掘的商业背景(2)数据挖掘的技术背景(3)数据挖掘的社会背景E-MAIL:BXXHS@SINA.COM3.数据挖掘对企业的影响零售业业务问题增加对直接信函(directmail)的响应率解决方案销售人员通过数据挖掘建立的预测模型以了解哪些人最有可能对直接信函作出响应获得的收益由于将直接信函发送给正确的客户而增加了销售额保险业业务问题减少保险欺诈案件的发生数量解决方案业务人员通过数据挖掘建立预测模型识别出哪些赔偿要求最可能具有欺诈性获得的收益由于减少欺诈造成的费用而增加了利润金融业业务问题改进预测市场波动的能力,在金融市场建模中得到广泛应用。如何采用神经网络方法提高金融增益和在采用数据挖掘技术建立股票市场模型。解决方案金融分析员通过数据挖掘建立预测模型以识别出历史上曾引起过市场被动的因素所具有的模式获得的收益由于投资更加准确而增加了收入E-MAIL:BXXHS@SINA.COM1.2.2什么是数据挖掘1.数据挖掘概念定义1G.PiatetskyShapior,W.J.Frawley等定义数据挖掘为从数据库的大量数据中揭示出隐含的、先前未知的、潜在有用的信息的非平凡过程。定义2有人简单认为,数据挖掘就是数据库中知识的发现。定义3有人认为,数据挖掘为发现数据中隐藏的模式和关系的过程。定义4有人认为,数据挖掘就是从大量数据中提取或挖掘知识。定义5Fayyad等在“知识发现96国际会议上”认为,知识发现是从数据库中发现知识的全部过程,而数据挖掘则是此全部过程中一个特定的关键一步。这种观点将数据挖掘的对象局限于数据库。定义6数据挖掘广义的定义为在一些事实或观察数据的集合中寻找模式的决策支持的过程。综上所述,我们定义数据挖掘为在不同的数据源中包括结构化的数据、半结构化的数据和非结构化的数据,即既可以是数据库,也可以是文件系统,或其他任何组织在一起的数据集合,通过一定的工具与方法寻找出有价值的知识的一类深层次的数据分析方法。E-MAIL:BXXHS@SINA.COM2.数据挖掘的分类分类标准类别按数据挖掘方法的直接性直接数据挖掘、间接数据挖掘按数据分析的角度分类描述式数据挖掘、预测式数据挖掘按挖掘的数据库分类关系型、事务型、面向对象型、主动型、空间型、文本型、多媒体、异构数据库按挖掘的规则类关联规则、分类规则、聚类规则、趋势分析、偏差分析、模式分析、特征规则、总结规则按采用的技术分类模糊和粗集方法、人工神经网络、遗传算法、决策树、最近邻技术、规则归纳、可视化技术按挖掘知识的抽象层次分类原始层次、高层次和多层次按挖掘知识的反映事物之间的性质分类同类共性广义知识、特征型知识、属性差别知识、关联型知识、预测型知识、离群型知识、E-MAIL:BXXHS@SINA.COM3.与数据挖掘相关的几个概念1)直接数据挖掘利用可用的数据建立一个模型,模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述,分类、估值、预言属于直接数据挖掘。2)间接数据挖掘不是选出某一具体的变量用模型进行描述;而是在所有的变量中建立起某种关系。相关性分组或关联规则、聚集、描述和可视化属于间接数据挖掘。3)描述式数据挖掘以简洁概要的方式描述数据,并提供数据的有意义的一般知识。4)预测式数据挖掘分析数据,建立一个或一组模型,并试图预测新数据集的行为。E-MAIL:BXXHS@SINA.COM3.与数据挖掘相关的几个概念(续)5)数据库查询工具和数据挖掘工具之间的差异查询工具能帮助用户从数据库数据中找到新的、有意义的事实。这类问题是查询所要访问的是对象是否在某一特定的位置。这与目前数据库系统中大部分的查询操作是相似的。通过这类问题使你可以确定对象将到达的位置。6)信息7)知识(knowledge)8)数据、信息与知识的转化关系识别、检测、表达转变、处理获取、创造数据知识信息对象图1.3数据、信息与知识的关系E-MAIL:BXXHS@SINA.COM1.2.3数据挖掘的特点1)处理的数据规模十分庞大;2)由于用户不能形成精确的查询要求,因此需要靠DM技术来寻找其可能感兴趣的东西;3)DM对数据的迅速变化做出快速响应,以提供决策支持信息;4)DM既要发现潜在规则,还要管理和维护规则,随着新数据的不断加入,规则需要随着新数据更新;5)DM中规则的发现基于统计规律,发现的规则不必适合于所有数据,而且当达到某一阈值时,便认为有此规则。E-MAIL:BXXHS@SINA