数据仓库与决策支持系统2015.10.12-2-一、数据仓库数据仓库:面向主题的、集成的、稳定的、随时间变化的数据集合–面向主题指数据仓库的建立有一个主体的对象,而非单一的事务–集成表示数据仓库是将围绕该主题的各类数据集成在一起而形成–稳定意味着不可更新–随时间变化指对应不同时间点,有不同批次的数据-3-一、数据仓库数据仓库VS数据库比较内容数据仓库数据库目标OnlineAnalyticalProcessingOnlineTransactionProcessing作用面向主题面向过程活动分析事务处理构成集成分散内容不可更改可更改系统需求事先可以不知道事先已知数据量一次操作数据量大一次操作数据量小时间性时序性当前基础结构多维型关系型关系结构星型、雪花3NF终端用户管理者、决策者事务操作人员-4-一、数据仓库分析型处理VS事务型处理比较内容分析型处理事务型处理性能特性运行时间较长、消耗大量系统资源数据存取频率高、处理时间短数据集成问题需要大量的、集成的数据作为分析基础大多数应用数据是分散的、不一致的动态集成需要集成数据的周期性更新仅在开始阶段对数据进行静态集成历史数据问题许多分析方法要以大量的历史数据为依据一般只需要当前或短期数据数据综合问题主要关注综合性数据积累了大量的细节数据-5-一、数据仓库数据仓库体系结构-6-一、数据仓库元数据(Metadata):关于数据的数据。在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据;元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据(TechnicalMetadata)和业务元数据(BusinessMetadata)。技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据,它主要包括以下信息:数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的定义,以及数据集市的位置和内容;业务系统、数据仓库和数据集市的体系结构和模式;汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、汇总、预定义的查询与报告;由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分割、数据提取、清理、转换规则和数据刷新规则、安全(用户授权和存取控制)。-7-一、数据仓库业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。业务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析方法以及公式和报表的信息;具体包括以下信息:企业概念模型:这是业务元数据所应提供的重要的信息,它表示企业数据模型的高层信息、整个企业的业务概念和相互关系。以这个企业模型为基础,不懂数据库技术和SQL语句的业务人员对数据仓库中的数据也能做到心中有数。多维数据模型:这是企业概念模型的重要组成部分,它告诉业务分析人员在数据集市当中有哪些维、维的类别、数据立方体以及数据集市中的聚合规则。这里的数据立方体表示某主题领域业务事实表和维表的多维组织形式。-8-一、数据仓库元数据的作用在数据仓库系统中,元数据机制主要支持以下五类系统管理功能:–描述哪些数据在数据仓库中;–定义要进入数据仓库中的数据和从数据仓库中产生的数据;–记录根据业务事件发生而随之进行的数据抽取工作时间安排;–记录并检测系统数据一致性的要求和执行情况;–衡量数据质量。-9-二、数据仓库在决策支持系统中的应用-10-二、数据仓库在决策支持系统中的应用决策支持系统中的模型库可以为决策者提供推理、比较、选择和分析的工具。模型库中一般包含两类模型:–数学模型–图形与报表模型由上述两者可以集成为规划模型、推理模型、分析模型、预测模型、优化模型与评价模型而这些模型的建立、仿真与训练都需要大量的数据来解析与验证。-11-二、数据仓库在决策支持系统中的应用决策支持系统中使用的大量数据通常为多维数据,需要利用切片,切块,钻取等操作从多个角度进行观察,并把结果用直观的表格或图形展现出来,以支持决策。故需要引入数据挖掘的相关算法(之一)——关联规则-12-三、关联规则关联规则是数据一种简单实用的规则,而关联规则挖掘就是从大量的数据中挖掘出有价值的描述数据项之间相互联系的信息以下是关联规则相关的一些概念–关联规则:设I={I1,I2,I3…,Im}为数据项集合;设D为与任务相关的数据集合,也就是一个交易数据库;其中每个交易T是一个数据项子集,即T包含于I;每个交易均包含一个识别编号TID。设A为另一个数据项集合,当且仅当A包含于T时称交易T包含A。一个关联规则就是具有“A=B”的蕴含式;其中有A包含于I,B包含于I且A与B交集非空。规则A=B在交易数据集D中成立,且具有S支持度与C信任度,也就意味着交易数据集D中有S比例的交易T包含A或B的数据项,且D中有C比例的交易T满足“若包含A就包含B(B|A)”满足最小支持度阈值和最小信任度阈值的关联规则称为强规则-13-三、关联规则–可信度:设事务集D中支持物品集X的事务中,有C%的事务同时支持物品集Y,则C%称为关联规则X、Y的可信度,简单来说,可信度是指在出现了项集X的事务T中,项集Y也同时出现的概率-14-三、关联规则–支持度:事务集D中有S%的事务同时支持物品集X,Y,则称S%为关联规则的支持度,即支持度描述了X与Y的并集在所有事务中出现的频率-15-三、关联规则–频繁项集:一个数据项的集合就称为项集,包含K个数据项的项集称为K-项集。一个项集的出现频度就是整个交易数据集D中包含该项集的交易记录数,也称为该项集的支持度。若一个项集的出现频度大于最小支持度阈值乘以交易记录集D中的记录数,那么就称该项集满足最小支持度阈值;而满足最小支持度阈值所对应的交易记录数称为最小支持频度;满足最小阈值的项集称为频繁项集-16-三、关联规则–关联规则挖掘的步骤:发现所有事务中支持度大于最小支持度的项集,即频繁项集根据所获得的频繁项集,产生相应的强关联规则(对于两个频繁项集,由于本事具有大于最小支持度的支持度,故所组成的关联规则的支持度必然大于最小支持度)–可以看出,如果找到频繁项集,那么很容易得出关联规则,因此第一步是关联规则挖掘的关键。对于第二步,只需要在已经挖掘出的频繁项集上列出所有可能的关联规则,然后用最小支持度阈值和最小可信度阈值来衡量这些关联规则,并取出我们感兴趣的关联规则即可。对于第一步,介绍一下经典的频繁项集挖掘算法——Apriori算法-17-四、Apriori算法–Apriori算法首先计算所有1-项集C1,找出所有频繁1-项集L1,然后根据频繁1-项集确定候选2-项集C2,从C2中找出所有频繁2-项集L2,在L2中选出C3,以此类推,直到不再有候选项集为止。–其过程如下:Lk:所有频繁k项集的集合;Ck:所有候选k项集的集合通过单趟遍历数据库D,计算出各个1-项集的支持度,构成L1在Lk中,用联合(join)运算生成候选项集Ck+1–联合运算:若p,q包含于Lk,p={p1,p2,...,pk-1},q={q1,q2,…,qk-1},且当1ik-1时有pi=qi,当i=k-1时有pk-1qk-1,则p与q的并集是候选项集Ck+1中的一个项集。计算Ck中的支持度,将小于最小支持度的候选集删除,满足的构成频繁项集Lk+1,继续迭代循环,直到不再有新的频繁项集为止。-18-五、参考文献–数据仓库应用技术的研究与实现_方红萍–数据仓库和数据挖掘在决策支持系统中的应用研究_卢硕–基于数据仓库的决策支持系统的研究与开发_杨士哲–基于数据仓库技术的决策支持系统的研究与应用_李敏强–基于数据仓库和数据挖掘技术的温室决策支持系统_王成