主要内容数据挖掘综述数据仓库和数据挖掘的OLAP技术数据预处理数据挖掘原语、语言和系统结构概念描述:特征化与比较挖掘大型数据库中的关联规则分类和预测聚类分析复杂类型数据的挖掘数据挖掘的应用和发展趋势我们拥有丰富的数据,但却缺乏有用的信息解决方法:数据仓库技术和数据挖掘技术数据仓库(DataWarehouse)和在线分析处理(OLAP)数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束)数据库技术的演化1960s和以前:文件系统1970s:层次数据库和网状数据库(1973年查理士·巴赫曼)1980s早期:关系数据模型,关系数据库管理系统(RDBMS)的实现1980s晚期:各种高级数据库系统(扩展的关系数据库,面向对象数据库等等.)面向应用的数据库系统(spatial数据库,时序数据库,多媒体数据库等等)1990s:数据挖掘,数据仓库,多媒体数据库和网络数据库2000s流数据管理和挖掘基于各种应用的数据挖掘XML数据库和整合的信息系统什么是数据挖掘?数据挖掘(从数据中发现知识)从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识挖掘的不仅仅是数据(所以“数据挖掘”并非一个精确的用词)数据挖掘的替换词数据库中的知识挖掘(KDD)、知识提炼、数据/模式分析、数据考古、数据捕捞、信息收获等等。并非所有东西都是“数据挖掘”查询处理.专家系统或是小型的数学计算/统计程序知识挖掘的步骤了解应用领域了解相关的知识和应用的目标创建目标数据集:选择数据数据清理和预处理:(这个可能要占全过程60%的工作量)数据缩减和变换找到有用的特征,维数缩减/变量缩减,不变量的表示。选择数据挖掘的功能数据总结,分类模型数据挖掘,回归分析,关联规则挖掘,聚类分析等.选择挖掘算法数据挖掘:寻找感兴趣的模式模式评估和知识表示可视化,转换,消除冗余模式等等运用发现的知识数据挖掘的主要方法(1)概念/类描述:特性化和区分归纳,总结和对比数据的特性。比如:对每个月来网站购物超过5000元的顾客的描述:40-50岁,有正常职业,信用程度良好。关联分析发现数据之间的关联规则,这些规则展示属性-值频繁的在给定的数据中所一起出现的条件。广泛的用于购物篮或事务数据分析。分类和预测通过构造模型(或函数)用来描述和区别类或概念,用来预测类型标志未知的对象类。比如:按气候将国家分类,按汽油消耗定额将汽车分类导出模型的表示:判定树、分类规则、神经网络可以用来预报某些未知的或丢失的数字值聚类分析将类似的数据归类到一起,形成一个新的类别进行分析。最大化类内的相似性和最小化类间的相似性孤立点分析孤立点:一些与数据的一般行为或模型不一致的孤立数据通常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论。趋势和演变分析描述行为随时间变化的对象的发展规律或趋势趋势和偏差:回归分析序列模式匹配:周期性分析、基于类似性的分析、其他定向模式或统计分析所有模式都是有趣的吗?数据挖掘可能产生数以千计的模式或规则,但并不是所有的模式或规则都是令人感兴趣的。模式兴趣度的度量一个模式是有趣的,如果(1)它易于被人理解;(2)在某种程度上,对于新的或测试数据是有效的;(3)具有潜在效用;(4)新颖的;(5)符合用户确信的某种假设模式兴趣度的客观和主观度量客观度量:基于所发现模式的结构和关于它们的统计,比如:支持度、置信度等等主观度量:基于用户对数据的判断。比如:出乎意料的、新颖的、可行动的等等多种数据挖掘的视角根据所挖掘的数据库分类关系数据库,事务数据库,流式数据,面向对象数据库,对象关系数据库,数据仓库,空间数据库,时态数据库,文本数据库,多媒体数据库,异构数据库,历史数据库,根据挖掘的知识类型特征分析,区分,关联分析,分类,聚类,孤立点分析/演变分析,偏差分析等等.多种方法的集成和多层次挖掘根据挖掘所用的技术面向数据库的挖掘、数据仓库、OLAP、机器学习、统计学、可视化等等.根据挖掘所用的应用金融,电信,银行,欺诈分析,DNA分析,股票市场,Web挖掘等等.什么是数据仓库?数据仓库的定义很多,但却很难有一种严格的定义它是一个提供决策支持功能的数据库,它与公司的操作数据库分开维护。为统一的历史数据分析提供坚实的平台,对信处理提供支持“数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程.”—W.H.Inmon(数据仓库构造方面的领头设计师)建立数据仓库(datawarehousing):构造和使用数据仓库的过程。数据仓库关键特征一——面向主题围绕一些主题,如顾客、供应商、产品等关注决策者的数据建模与分析,而不是集中于组织机构的日常操作和事务处理。排除对于决策无用的数据,提供特定主题的简明视图。数据仓库关键特征二——数据集成一个数据仓库是通过集成多个异种数据源来构造的。关系数据库,一般文件,联机事务处理记录使用数据清理和数据集成技术。确保命名约定、编码结构、属性度量等的一致性。当数据被移到数据仓库时,它们要经过转化。数据仓库关键特征三——随时间而变化数据仓库的时间范围比操作数据库系统要长的多。操作数据库系统:主要保存当前数据。数据仓库:从历史的角度提供信息(比如过去5-10年)数据仓库中的每一个关键结构都隐式或显式地包含时间元素,而操作数据库中的关键结构可能就不包括时间元素。数据仓库关键特征四——数据不易丢失尽管数据仓库中的数据来自于操作数据库,但他们却是在物理上分离保存的。操作数据库的更新操作不会出现在数据仓库环境下。不需要事务处理,恢复,和并发控制等机制只需要两种数据访问:数据的初始装载和数据访问(读操作)数据仓库与操作数据库系统操作数据库系统的主要任务是联机事务处理OLTP日常操作:购买,库存,银行,制造,工资,注册,记帐等数据仓库的主要任务是联机分析处理OLAP数据分析和决策OLTP和OLAP的主要区别:用户和系统的面向性:顾客VS.市场数据内容:当前的、详细的数据VS.历史的、汇总的数据数据库设计:实体-联系模型(ER)和面向应用的数据库设计VS.星型/雪花模型和面向主题的数据库设计视图:当前的、企业内部的数据VS.经过演化的、集成的数据访问模式:事务操作VS.只读查询(但很多是复杂的查询)为什么需要一个分离的数据仓库?提高两个系统的性能DBMS是为OLTP而设计的:存储方式,索引,并发控制,恢复数据仓库是为OLAP而设计:复杂的OLAP查询,多维视图,汇总不同的功能和不同的数据:历史数据:决策支持需要历史数据,而这些数据在操作数据库中一般不会去维护数据汇总:决策支持需要将来自异种源的数据统一(如聚集和汇总)数据质量:不同的源使用不一致的数据表示、编码和格式,对这些数据进行有效的分析需要将他们转化后进行集成数据仓库和数据仓库技术基于多维数据模型。这个模型把数据看作是数据立方体形式。多维数据模型围绕中心主题组织,该主题用事实表表示。事实是数值度量的。数据立方体允许以多维数据建模和观察。它由维和事实定义。维是关于一个组织想要记录的视角或观点。每个维都有一个表与之相关联,称为维表。事实表包括事实的名称或度量以及每个相关维表的关键字在数据仓库的研究文献中,一个n维的数据的立方体叫做基本方体。给定一个维的集合,我们可以构造一个方体的格,每个都在不同的汇总级或不同的数据子集显示数据,方体的格称为数据立方体。0维方体存放最高层的汇总,称作顶点方体;而存放最底层汇总的方体则称为基本方体。数据仓库的概念模型种类:最流行的数据仓库概念模型是多维数据模型。这种模型可以以星型模式、雪花模式、或事实星座模式的形式存在。星型模式(Starschema):事实表在中心,周围围绕地连接着维表(每维一个),事实表含有大量数据,没有冗余。雪花模式(Snowflakeschema):是星型模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加表中。结果,模式图形成类似于雪花的形状。事实星座(Factconstellations):多个事实表共享维表,这种模式可以看作星型模式集,因此称为星系模式(galaxyschema),或者事实星座(factconstellation)多维数据模型上的OLAP操作上卷(roll-up):汇总数据通过一个维的概念分层向上攀升或者通过维规约下钻(drill-down):上卷的逆操作由不太详细的数据到更详细的数据,可以通过沿维的概念分层向下或引入新的维来实现切片和切块(sliceanddice):投影和选择操作转轴(pivot):立方体的重定位,可视化,或将一个3维立方体转化维一个2维平面序列其他OLAP操作钻过(drill_across):执行涉及多个事实表的查询钻透(drill_through):使用关系SQL机制,钻到数据立方体的底层,到后端关系表数据仓库设计:一个商务分析框架数据仓库设计的四种视图自顶向下视图:允许我们选择数据仓库所需的相关信息数据源视图:揭示被操作数据库系统所捕获、存储和管理的信息数据仓库视图:有事实表和维表所组成商务查询视图:从最终用户的角度透视数据仓库中的数据数据仓库的设计过程自顶向下法、自底向上法或者两者的混合方法自顶向下法:由总体设计和规划开始(成熟)自底向上法:以实验和原型开始(快速)从软件过程的观点瀑布式方法:在进行下一步前,每一步都进行结构化和系统的分析螺旋式方法:功能渐增的系统的快速产生,相继版本之间间隔很短典型的数据仓库设计过程:选取待建模的商务过程、选取商务过程的粒度、选取用于每个事实表记录的维选取将安放在事实表中的度量OLAP服务器类型关系OLAP服务器(ROLAP)使用关系数据库或扩展的关系数据库存放并管理数据仓库的数据,而用OLAP中间件支持其余部分包括每个DBMS后端优化,聚集导航逻辑的实现,附加的工具和服务较大的可扩展性多维OLAP服务器(MOLAP)基于数组的多维存储引擎(稀疏矩阵技术)能对预计算的汇总数据快速索引混合OLAP服务器(HOLAP)结合上述两种技术,更大的使用灵活性特殊的SQL服务器在星型和雪花模型上支持SQL查询数据仓库的实现难点海量数据快速反应OLAP服务器要在几秒内响应决策支持查询方法高效的数据立方体计算技术高效的存取方法高效的查询处理技术数据立方体的有效计算数据立方体可以被看成是一个方体的格最底层的方体是基本方体最顶端的方体(顶点)只包含一个单元的值一个n维的数据立方体,每维L层,可能产生的方体总数是多少?数据立方体的物化预先计算所有方体(全物化),不预先计算任何“非基本”方体(不物化),有选择的计算一个所有方体的适当子集(部分物化)确定物化哪些方体考虑工作负荷下的查询、它们的频率和它们的开销等等方体计算:关系型OLAP的方法(ROLAP)方体计算的有效方法基于ROLAP的方体算法(Agarwaletal’96)基于数组的算法(MOLAP)(Zhaoetal’97)自底向上的计算方法(Beyer&Ramarkrishnan’99)H-cubing技术(Han,Pei,Dong&Wang:SIGMOD’01)基于ROLAP的方法将排序、散列(hashing)和分组操作应用于维的属性,以便对相关元组重新排序和聚类在某些子聚集上分组,作为“部分分组步骤”。可以由以前计算的聚集计算新的聚集,而不必由基本事实表计算元数据存储在数据仓库中,元数据就是定义数据仓库对象的数据。有以下几种:数据仓库结构的描述仓库模式、视图、维、层次结构、导出数据的定义,以及数据集市的位置和内容操作元数据包括数据血统(datalineage)、数据类别(currencyofdata),以及监视信息汇总用的算法由操作环境到数据仓库的映射关于系统性能的数据索引,profiles,数据刷新、更新或复制事件的调度和定时商务元数据商务术语和定义、数据拥有者信息、收费政策等元数据的