第5章数据仓库的管理与应用5.1数据仓库管理5.2数据仓库的决策支持与决策支持系统5.3数据仓库应用实例5.1数据仓库管理5.1.1用户使用数据仓库的管理5.1.2数据管理数据仓库中的数据也会随时间的延伸迅速的增长。(1)数据仓库收集历史数据。(2)数据仓库包含满足未知需求的数据集。(3)数据仓库既包括了详细数据也包括了汇总数据。(4)数据仓库还包含外部数据。5.1.1用户使用数据仓库的管理1.信息使用者使用数据仓库的性能优化2.探索者使用数据仓库的性能优化1.信息使用者使用数据仓库的性能优化非规格化创建数据阵列预连接表格预聚集数据聚类数据压缩数据定期净化数据合并查询2.探索者使用数据仓库的性能优化(1)概括分析分析数据的完整性和准确性(数据质量)。(2)抽取数据抽取的任务就是从数据仓库中抽取指定的数据,并组织起来,送入支持探索者分析的探索仓库中。(3)建模通过概括分析来理解数据,通过抽取来准备数据,通过建模来分析数据。5.1.2数据管理5.1.2.1休眠数据5.1.2.2脏数据的产生和清理5.1.2.3监视数据5.1.2.4元数据管理5.1.2.1休眠数据1.休眠数据概念休眠数据是那些存在于数据仓库中当前不使用,将来也很少使用或不使用的数据。数据仓库中的数据随着时间的延续,数据被使用的情况会减少,休眠数据随之逐年增加。国外的统计表明:第1年内,数据仓库近期数据和综合数据几乎被全部使用。第2年内,休眠数据开始出现,数据仓库中的数据不少未被使用。第3年内,休眠数据在增长。第4年内,休眠数据迅速增长。设数据仓库的数据量为D,数据处理次数为n,平均每次处理数据的字节数为d,则一年中数据处理的总数据量为:nd。在各次数据处理过程中,可能会出现数据的重复使用,我们用系数a表示为:2.休眠数据的产生与查找(1)休眠数据的产生①在数据仓库中输入了过多的近期基本数据。②过多的增加了不必要的综合数据。③超过预测需求的历史数据均是休眠数据(2)查找休眠数据查找休眠数据的最好方法是监视用户查询数据仓库的活动。①监视用户查询的SQL语句。②监视返回给用户的查询结果数据集。数据仓库管理员能知道哪些数据没有被使用,它们很可能就是休眠数据。3.删除休眠数据(1)直接删除休眠数据①删除用户不访问的数据。②通过数据访问模型来删除休眠数据。(2)对休眠数据归档存储(3)邻线(NearLine)存储“邻线”存储是一种二级数据存储方式。“邻线”介于“在线(OnLine)”和“离线(OffLine)”之间,将休眠数据从数据仓库的在线存储中转移到邻线存储中,平时不参与数据仓库的运行。5.1.2.2脏数据的产生和清理脏数据是指在数据源中抽取、转换和装载到数据仓库的过程中出现的多余数据和无用数。1.产生脏数据的途径(1)开始时定义了一些多余的数据或由于一些不合适的转换规则在转换过程中产生的无用数据。(2)来自不同数据源的数据在数据结构、数据编码、数据定义等方面是不兼容的,在集成这些数据时未对所有不同情况的数据都转换成统一形式,产生遗漏或用了不匹配的转换方法而产生脏数据。(3)输入的数据已经过期。(4)用户需求的改变或数据质量有了新的要求时,那些没有适应改变要求的数据成了无用的脏数据。2.清理脏数据(1)检查抽取数据的定义和数据转换规则的正确性,对那些不合适的定义与规则所造成的脏数据进行清理。(2)在对多个数据源进行集成时,清除那些遗漏或不匹配方法而产生的脏数据。(3)对过期数据,对数据量较少时进行重新整理;对数据量大时,增加一些时间限制的规则来帮助对数据的使用。5.1.2.3监视数据1.监视休眠数据2.监视脏数据5.1.2.4元数据管理1.评估元数据的价值(1)在应用程序中:描述应用程序的操作数据的机制和控制运行机制的元数据,使系统开发人员就能够理解应用程序内部结构和数据之间相互关系。(2)在数据仓库环境中元数据通过三种方式发挥作用。描述源数据和目标的数据模型在填充数据时描述转换集成的数据流允许终端用户使用有意义的导航数据(3)获取数据和使用数据的元数据是元数据价值最大的用途。2.管理元数据(1)支持企业范围内的体系结构理解各种元数据目录,以及它们在企业范围内的体系结构的作用。(2)基于知识库的方法元数据一般存储在属性知识库中。转移到一个共享的、公共的元数据知识库中。(3)配置管理元数据知识库必须提供标准的管理能力,如注册、退出、版本控制等。(4)支持开放的元数据交换标准企业元数据应该支持MDIS(元数据交换标准)。(5)动态交换和同步企业应该采用MDIS标准,实现动态交换或同步,否则需要一个开放的元数据交换工具。5.2数据仓的决策支持与决策支持系统5.2.1查询与报表5.2.2多维分析与原因分析5.2.3预测未来5.2.4实时决策5.2.5自动决策5.2.6决策支持系统数据仓库是一种能够提供重要战略信息,并获得竞争优势的新技术,从而得到迅速的发展。具体的战略信息有:给出销售量最好的产品名单找出出现问题的地区追踪查找出现问题原因(向下钻取)对比其他的数据(横向钻取)显示最大的利润当一个地区的销售低于目标值时,提出警告信息。建立数据仓库的目的不只是为了存储更多的数据,而是要对这些数据进行处理并转换成商业信息和知识,利用这些信息和知识来支持企业进行正确的商业行动,并最终获得效益。数据仓库的功能是在恰当的时间,把准确的信息传递给决策者,使他能作出正确的商业决策。5.2.1查询与报表1.查询(1)能向用户提供查询的初始化,公式表示和结果显示等功能。(2)由元数据来引导查询过程(3)用户能够轻松地浏览数据结构(4)信息是用户自己主动索取的,而不是数据仓库强加给他们的(5)查询环境必须要灵活地适应不同类型的用户2.报表(1)预格式化报表。(2)参数驱动的预定义报表。(3)简单的报表开发。(4)公布和订阅。(5)传递选项。(6)多数据操作选项。(7)多种展现方式选项。5.2.2多维分析与原因分析1、多维分析通过多维分析将获得在各种不同维度下的实际商业活动值(如销售量等),特别是他们的变化值和差值,达到辅助决策效果。例如通过多维分析得到如下信息:今年以来,公司的哪些产品量是最有利润的?最有利润的产品是不是和去年一样的?2、原因分析查找问题出现的原因是一项很重要的决策支持任务,一般通过多维数据分析的钻取操作来完成。某公司从分析报表中得知最近几个月来整个企业的利润在急速下滑,通过人机交互找出该企业利润下滑的原因。(1)查询整个公司最近3个月来各个月份的销售额和利润,显示销售额正常,但利润下降。(2)查询全世界各个区域每个月的销售额和利润,显示欧洲地区销售额下降,利润急剧下降。(3)查询欧洲各国销售额和利润。显示一些国家利润率上升,一些国家持平,欧盟国家利润率急剧下降。(4)查询欧盟国家中的直接和间接成本。得到直接成本没有问题,但间接成本提高了。(5)查询间接成本的详细情况。得出企业征收了额外附加税,使利润下降。通过原因分析,得到企业利润下滑的真正原因是欧盟国家征收了额外附加税造成。5.2.3预测未来预测未来使决策者了解“将要发生什么”。数据仓库中存放了大量的历史数据,从历史数据中找出变化规律,将可以用来预测未来。在进行预测的时候需要用到一些预测模型。最常用的预测方法是采用回归模型,包括线性回归或非线性回归。采用聚类模型或分类模型也能达到一定的预测效果。5.2.4实时决策企业需要准确了解“正在发生什么”,从而需要建立动态数据仓库(实时数据库),用于支持战术型决策,即实时决策。战术性决策支持的重点则在企业外部,支持的是执行公司战略的员工。第四种侧重在战术性决策支持。以货运为例卡车上的货物常常需要把某些货物从一辆车转移到另一辆车上,以便最终送抵各自的目的地。当某些卡车晚点时,就要做出艰难的决定:是让后继的运输车等待迟到的货物,还是让其按时出发。如果后继车辆按时出发而未等待迟到的包裹,那么迟到包裹的服务等级就会大打折扣。反过来说,等待迟到的包裹则将损害在后继的运输车上的其他待运包裹的服务等级。运输车究竟等待多长时间,取决于需卸装到该车辆的所有延迟货物的服务等级和已经装载到该车辆的货物的服务等级。5.2.5自动决策利用动态数据库自动决策,达到“希望发生什么”。为了寻求决策的有效性和连续性,企业就会趋向于采取自动决策。动态数据仓库可以为整个企业提供战略决策支持,也可提供战术决策支持。确切地说,动态数据仓库同时支持这两种方式。随着技术的进步,越来越多的决策由事件触发,自动发生。5.2.6决策支持系统数据仓库整合了企业的各种信息来源,能确保一致与正确详细的数据。它是一个庞大的数据资源。要将数据转换成商业智能,就需要利用数据仓库来建立决策支持系统。基于数据仓库的决策支持系统是针对实际问题,利用分析工具或者编制程序,采用一种或多种组合的决策支持能力,对数据仓库中的数据进行多维分析,从而掌握企业的经营现状,找出现状的原因,并预测未来发展趋势,协助企业制定决策增强竞争优势。5.3数据仓库应用实例5.3.1航空公司数据仓库决策支持系统简例5.3.2统计业数据仓库解决方案5.3.3沃尔玛数据仓库系统5.3.1航空公司数据仓库决策支持系统简例1.航空公司数据仓库系统的功能2.数据仓库系统的决策支持3.决策支持系统简例1.航空公司数据仓库系统的功能航空公司数据仓库功能模块有:市场分析:分析国内、国际、地区航线上的各项生产指标;航班分析:分析某个特定市场上所有航班的生产情况;班期分析:分析某个特定市场上各班期的旅客、货运分布情况;2.数据仓库系统的决策支持利用数据仓库系统提供的决策支持有:l一段时间内某特定市场占有率、同期比较、增长趋势;l各条航线的收益分析;l计划完成情况;l流量、流向分析;l航线上各项生产指标变化趋势的分析;通过查询“北京到各地区的航空市场情况”,发现西南地区总周转量出现了最大负增长量。该决策支持系统简例就是完成对此问题进行多维分析和原因分析,找出出现原因。决策支持系统运行结构图如下:3.决策支持系统简例数据仓库服务器客户端查询:全国各地区航空总周转量并比较去年同期状况显示:图1查询:全国各地区航空客运周转量并比较去年同期状况查询:全国各地区航空货运周转量并比较去年同期状况显示:图3查询:全国各地区客运、货运、总周转量并比较去年同期状况具体数据显示:表1查询:西南地区昆明、重庆两地航空总周转量并比较去年同期状况显示:图4查询:昆明航线按不同机型的总周转量,并比较去年同期状况显示:图5查询:昆明航线按不同机型的周转量,并比较去年同期周转量的具体数据显示:表2显示:图2结束检索:数据仓库中今年、去年两年总周转量综合数据,并比较。绘制直方图下钻:从总周转量下钻到今年、去年两年客运周转量,并比较。绘制直方图下钻:从总周转量下钻到今年、去年两年货运周转量,并比较。绘制直方图制表:从数据仓库中取数据并制表下钻:从西南地区总周转量下钻,取昆明、重庆两地的今年、去年两年数据并比较。绘制直方图下钻:从昆明航线总周转量下钻,取各机型今年、去年两年数据并比较。绘制直方图制表:从数据仓库中取数据并制表图1全国各地区航空周转量与去年对比状况返回(其中,1:东北地区;2:华北地区;3:华东地区;4:西北地区;5:西南地区;6:新疆地区;7:中南地区)从图1中看到从北京到国内各地区的总周转量以及与去年同期的比较情况,发现“北京-西南地区”出现的负增长最大。图2全国各地区航空客运周转量及与去年同期比较返回从图2中看到客运周转量及与去年同期比较,西南地区负增长在全国是最大的,其次是东北地区。图3北京到国内各地区货运周转量及与去年同期比较返回从图3中看到货运周转量及与去年同期比较,华东地区负增长在全国是最大的,西南地区也有负增长。表1客运、货运、总周转量及其去年同期比较客运周转量对比去年增长量货运周转量对比去