第四讲联机分析处理联机分析处理(OLAP)OLAP:On-LineAnalyticalProcessing►目标OLAP的主要特性和功能掌握维度分析中的错综复杂的事务,学习超立方体、下钻和概括化、多层次/多视角查看的含义考察不同的OLAP模型并且确定哪个模型适合你的环境通过研究步骤和工具来考虑OLAP执行的情况OLAP►Contents联机分析处理的要求主要的特征和功能OLAP模型OLAP实施的考虑事项一、联机分析处理的要求1.对多维分析的需要2.快速的访问和强大的计算能力一个查询得到的结果集形成下一个查询的基础整个企业的利润急剧下降最近3个月内的销售额没有问题,但利润下降了欧洲区域内的利润急剧下降了欧洲一些国家的利润率上升了,一些持平,一些急剧下降最近2个月内欧盟国家的利润急剧下降了直接的成本没有问题,间接成本提高了对该企业在欧盟的产品征收附加税是企业利润急剧下降的原因一个分析会话中的查询步骤联机分析处理的要求3.其他分析方法的局限性传统的工具和方法:报表、电子表格、SQL语句OLTP和数据仓库环境的区别特征OLTP系统数据仓库分析性能非常低适中用在单一会话中的数据非常有限小型到中型结果集的大小小大反映时间非常迅速迅速到适中数据粒度细节细节和汇总数据流通当前的当前和历史的访问方法预定义预定义和特别的基本目的收集和输入数据提供信息数据模型为数据更新设计的为查询设计的数据库的优化为了交易为了分析更新频率非常频繁通常是只读的用户交互的范围单个交易遍及所有数据内容联机分析处理的要求4.OLAP是用户需要的答案OLAP的一些基本优点►使分析员、主管能够更深入地了解数据的显示方法►能够沿着几个维度重新构造指标,并允许用户从不同的角度来查看数据►支持多维分析►能够在每个维度里面进行下钻和概括化的操作►能够在测量中应用数学公式和计算►能够对分析做出快速的反映,提供边思考边分析的方式►与其他信息传递技术互补(如:DM)►通过使用图像和表格来实现数据的可视化形式,使用户更容易地理解结果集的含义►能够在Web上运行►能够实现交互式分析►Etc.联机分析处理的要求►OLAP是用户需要的答案Example:行业总销售额服装*********电子*********视频*********炊具*********器具*********总计*********行业200220032004总计服装************************************电子************************************视频************************************炊具************************************器具************************************总计************************************年服装电子视频炊具器具总计2002******************************************************2003******************************************************2004******************************************************总计******************************************************联机分析处理的要求5.OLAP的定义和规则E.F.Codd,《为分析员提供联机分析处理》,1993年OLAP委员会的定义►OLAP是一种软件技术,它使分析员、经理和主管人员能够通过快速的、一致的和交互式的访问来获取并理解各种可能的信息视图的数据,这些信息由原始数据转换而成,用来反映一个企业实际的维度。OLAP的12条原则联机分析处理的要求►OLAP的12条原则1.多维概念的视图:提供直观、易用的多维数据模型2.透明度:技术、数据库、体系结构、元数据对用户透明,用户只需熟悉前台工具3.可访问性:向用户显示单一的、一致的、连贯的视图4.一致的报表性能:特定查询时,保证运行时间、反应时间和机器使用性能的一致性5.客户-服务器体系结构6.等价的维度:每个维度在结构和操作性能上是等价的►OLAP的12条原则(cont.)7.动态稀疏矩阵的处理8.支持多用户:提供多数据访问、数据安全性和访问安全9.无限制的跨维度操作10.直观的数据操作11.灵活的报表12.无限的维度和聚集层次OLAP的7条补充原则1.下钻到细节层次2.OLAP分析模型3.非标准化数据处理4.存储OLAP结果5.遗失值6.数据库增量更新7.SQL接口联机分析处理的要求6.OLAP的特征让商业用户对数据仓库的数据有一个多维的逻辑的视图使用户更方便地进行交互式的查询和复杂的分析允许用户沿着单一的商业维度或跨越维度进行下钻操作,以获得更详细的数据,或者进行概括化操作以获得指标的聚集使用户能够进行复杂的计算和比较等操作用许多有意义的方式来显示结果,包括图表和图像Chapter15OLAP►Contents联机分析处理的要求主要的特征和功能OLAP模型OLAP实施的考虑事项二、主要的特征和功能1.一般特征►高级特征多维分析一致性能交互式查询,具有快速的反应时间下钻和概括化查询在细节内导航多层次/多视角查看多种查看模式扩展简单容易时间智能强大的计算跨维计算预计算和预合并跨越维度或细节分析准确的表示、显示协同策略制定通过公式推倒出数值报警技术的应用使用代理技术来生成报表主要的特征和功能2.维度分析任何缺乏多维分析的OLAP系统是绝对没有用的必须了解和掌握OLAP系统提供的维度分析功能Example:简单星型模型立方体的一个切片►一个三维的显示页面查询:1、显示所有商店过去5年内所有产品的销售总计2、比较所有商店在2000年和2001年逐个产品的销售统计3、比较所有商店在2000年和2001年间逐个产品的销售总计,只比较销售额下降了的产品4、比较2000年和2001年间单个商店逐个产品的销售额,只比较销售额下降了的产品三个维度可以用立方体的边来表示每个维度,也可以用行、列和页来显示结果。超过三个维度,怎么办?3.超立方体(Hypercube)►超立方体是对多维数据表示方法的常见比喻。►可以用多维域结构(MDS)表示多于三个维度的数据。►问题:如何显示多维数据?同一个显示组里结合多个逻辑维度6维的表示6维的页面显示►产品维度的层次结构4.Drill-Down&Roll-Up300000600001500050001200部门生产线产品分类子类产品某个商店某个月的销售额汇总数据数据仓库细节数据细节数据OLAP的概括化和下钻的特征另一个OLAP的例子跨到另一个OLAP的例子下钻和概括化下钻到细节数据显示也要跟着做相应的变化显示如何相应变化Q1:产品维从“产品”上卷到“子类”,如何显示?Q2:接着,商店维从“商店”上卷到“地域”,如何显示?5.切片、切块与旋转(Slice-and-DiceorRotation)多维分析-切片►在多维分析过程中,如果要对多维数据集的某个维选定一维成员,这种选择操作称为切片(slice)►如果有(维1,维2,……,维i,……,维n,观察变量)多维数据集,对维i选定了某个维成员,那(维1,维2,·…,维i成员,……,维n,观察变量)就是多维数据集(维1,维2,……,维i,…,维n,观察变量)在维i上的一个切片。►切片的数量完全取决于维上的成员个数,维数越多,可做的切片越多。►切片的维数取决于原来多维数据集的维数。只有在多维数据集是三维的情况下,才能获得一个二维的“平面”切片。►注意:多维数据集的切片数量多少是由所选定的那个维的维成员数量的多寡所决定的。进行切片操作的目的是使人们能够更好地了解多维数据集,通过切片的操作可以降低多维数据集的维度,使人们能将注意力集中在较少的维度上进行观察。多维分析-切块►与切片类似,如果在一个多维数据集上对两个及其以上的维选定维成员的操作可以称为切块(Dice)。►在(维1,维2,……,维i,……维k,……维n,观察变量)多维数据集上,对维i,……,维k,选定了维成员,那么(维1,维2,……,维i成员,……维k成员,……维n,观察变量)就是该多维数据集在维i,……,维k上的一个切块。►i=k时,切块操作就退化成切片操作。►切块操作也可看成进行多次切片操作以后,将每次切片操作所得到的切片重叠在一起而形的。►下钻drilldown和上卷(卷取rollup)钻取是对数据进行更为细节性的观察,上卷是对数据进行更为宏观的观察。钻取和卷取的深度与维所划分的层次相对应。►旋转(rotate,pivot)改变一个报告或页面所显示的维方向。例如,旋转可能包含了交换行和列;或是把某一个行维移到列维中去,或是把页面中显示的一个维和页面外的维进行交换(令其成为新的行或列中的一个)。能够提高业务经理、主管人员和分析员的生产率OLAP固有的灵活性意味着无需IT人员的帮助,用户就可以自己执行他们的分析使IT开发人员得到好处,因为使用专门为系统开发而设计的软件能够缩短应用系统的交付时间使用户能够自给自足使一些应用系统能够更快地交付给用户能够利用商业指标和维度来模拟现实世界的一些问题6.OLAP的使用和好处7.OLAP的FASMI特性►OLAP的特点:FastAnalysisofSharedMultidimensionalInformation(共享多维信息的快速分析)1.Fast(快速性)用户对OLAP的快速反应能力有很高的要求2.Analysis(可分析性)系统应能处理与应用有关的任何逻辑分析和统计分析,用户无需编程就可定义新的专门计算,将其作为分析的一部分,并以用户理想的方式给出报告。用户可以在OLAP平台上进行数据分析,也可以连接到其他外部分析工具上,同时应提供灵活开放的报表处理功能,以保存分析结果。3.Shared(共享性):系统要能够符合数据保密的安全要求,即使多个用户同时使用,也能够根据用户所属的安全级别,让他们只能看到他们应该看到的信息。4.Multidimensional(多维性):OLAP的关键属性。OLAP的显著待征就是它能提供数据的多维视图,系统必须提供对数据分析的多维视图租分析,包括对层次维和多重层次维的完全支持。5.Information(信息性):不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。这里有许多因素需要考虑,如数据的可复制性、可利用的磁盘空间、OLAP产品的性能及与数据仓库的结合度等。►数据分析过程都是基于以DW为基础,OLAP和DM相辅相成的分析模式。DW将来自于各种数据源的数据,根据不同的主题进行存储,并对原始数据进行抽取、转换和加载等一系列筛选和清理工作。OLAP则将数据通过多维视角和多种层次向用户进行多方式的呈现。DM则应用不同的算法,向用户揭示数据间的规律性,从而辅助商业决策8.DWOLAPDMOLAPvs.DM►在辅助决策时,OLAP是基于用户建立的一系列假设驱动,通过OLAP来证实或者推翻这些假设,是一个演绎推理的过程;►DM是通过归纳的方式,在海量数据中主动找寻模型,自动发掘隐藏在数据中的价值信息。由挖掘工具自动建立模型。►数据结构:OLAP限于结构化数据,侧重与用户的交互、快速响应以及提供多维视图,而数据挖掘还可以分析诸如文本的、空间的和多媒体的非结构化数据。►互补性:OLAP本身的分析结果能够为数据挖掘提供分析依据,数据挖掘可以拓展OLAP的分析深度,发掘更为复杂、细致的信息Chapter15OLAP►Contents联机分析处理的要求主要的特征和功能OLAP模型OLAP实施的考虑事项►MOLAP:MultidimensionalOLAP►ROLAP:RelationalOLAP►DOL