数据仓库与OLAP郑国禹zhengguoyu@126.com黑龙江科技学院计算机学院什么是数据仓库以1992年WHInmon出版《BuildingtheDataWarehouse》为标志,数据仓库发展速度很快。W.H.Inmon被誉为数据仓库之父。W.H.Inmon对数据仓库所下的定义:数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程。事务型处理:即操作型处理,是指对数据库的联机操作处理OLTP。事务型处理是用来协助企业对响应事件或事务的日常商务活动进行处理。它是事件驱动、面向应用的,通常是对一个或一组记录的增、删、改以及简单查询等(大量、简单、重复和例行性)。在事务型处理环境中,数据库要求能支持日常事务中的大量事务,用户对数据的存取操作频率高而每次操作处理的时间短。事务型处理分析型处理分析型处理:用于管理人员的决策分析,例如DSS、EIS(经理信息系统)和多维分析等。它帮助决策者分析数据以察看趋向、判断问题。分析型处理经常要访问大量的历史数据,支持复杂的查询。分析型处理过程中经常用到外部数据,这部分数据不是由事务型处理系统产生的,而是来自于其他外部数据源。数据库系统的局限性1、数据库适于存储高度结构化的日常事务细节数据,而决策型数据多为历史性、汇总性或计算性数据,多表现为静态数据,不需直接更新,但可周期性刷新。2、决策分析型数据是多维性,分析内容复杂。3、在事务处理环境中,决策者可能并不关心具体的细节信息,在决策分析环境中,如果这些细节数据量太大一方面会严重影响分析效率,另一方面这些细节数据会分散决策者的注意力。数据库系统的局限性4、当事务型处理环境和分析型处理环境在同一个数据库系统中,事务型处理对数据的存取操作频率高,操作处理的时间短,而分析型处理可能需要连续运行几个小时,从而消耗大量的系统资源。5、决策型分析数据的数据量大,这些数据有来自企业内部的,也有来自企业外部的。来自企业外部的数据又可能来自不同的数据库系统,在分析时如果直接对这些数据操作会造成分析的混乱。对于外部数据中的一些非结构化数据,数据库系统常常是无能为力。多库系统的限制可用性:源站点或通信网络故障将导致系统瘫痪,源站点不能通过网络在线联入多库系统。响应速度:全局查询多级转换和通信传输,延迟和低层效率影响响应速度。系统性能:总体性能取决于源站点中性能最低的系统,影响系统性能的发挥;系统开销:每次查询要启动多个局部系统,通信和运行开销大。实施数据仓库的条件数据积累已达到一定规模面临激烈的市场竞争在IT方面的资金能得到保障操作型数据与分析型数据操作型数据与分析型数据区别数据仓库的发展自从NCR公司为WalMart建立了第一个数据仓库。1996年,加拿大的IDC公司调查了62家实现了数据仓库的欧美企业,结果表明:数据仓库为企业提供了巨大的收益。早期的数据仓库大都采用当时流行的客户/服务器结构。IBM的实验室在数据仓库方面已经进行了10多年的研究,并将研究成果发展成为商用产品。其他数据库厂商在数据仓库领域也纷纷提出了各自的解决方案。BI系统VS决策盲点某大型国有企业老总当他查看近十年企业的生产和运营数据时,手边得到了各种各样不同的数据报表。这些数据报表大致可以分成两种类型:一种是两年前、即ERP上线之前的,这是一些简单、杂乱而又枯燥的数字;另一种是有了ERP以后的,数据变得清楚而有条理起来,同时还有来自ERP、CRM、SCM以及计费业务等不同应用的数据和各种分析报告。在仔细查看这些报表之后,这位国企老总惊讶地发现,不同的系统可以得出截然相反的两种结论。例如某一产品,它的动态成本反映在ERP系统和CRM、SCM系统里面相差很大,如果引用ERP和CRM里面的数据,它就是一款很成功、销量很好的产品,但在SCM里面来看,它的采购和物流成本过高,导致了这款看起来很成功的产品实际上是一笔赔钱的买卖。BI系统VS决策盲点其实从这些来自不同系统的数据基础产生不同的判断很正常,因为这些系统并不会去周密地“思考”在自己“职责”之外的事情。这样就给企业的领导提交了相当多顾此失彼的分析报告,结果就是导致了许多市场决策上的混乱和失误。把企业的内部数据和外部数据(企业内部数据就是指上述通过业务系统SCM、ERP、CRM等收集到的数据,这些数据可能在不同的硬件、数据库、网络环境中,为不同的业务部门服务。外部数据是市场信息和外部竞争对手的信息)。进行有效的集成,形成直观的、易于理解的信息,再进行分析和思考,为企业的各层决策及分析人员使用。面向主题数据仓库中的数据是按照各种主题来组织的。主题在数据仓库中的物理实现是一系列的相关表,这不同于面向应用环境。如保险公司按照应用组织可能是汽车保险、生命保险、伤亡保险,而数据仓库是按照客户、政策、保险金和索赔来组织数据。面向主题的数据组织方式可在较高层次上对分析对象的数据给出完整、一致的描述,能完整、统一的刻画各个分析对象所涉及的企业的各项数据以及数据之间的联系,从而适应企业各个部门的业务活动特点和企业数据的动态特征,从根本上实现数据与应用的分离。集成性数据仓库中的数据是从原有分散的源数据库中提取出来的,其每一个主题所对应的源数据在原有的数据库中有许多冗余和不一致,且与不同的应用逻辑相关。为了创建一个有效的主题域,必须将这些来自不同数据源的数据集成起来,使之遵循统一的编码规则。稳定性数据仓库内的数据有很长的时间跨度,通常是5-10年。数据仓库中的数据反映的是一段时间内历史数据的内容,是不同时点的数据库快照的集合,以及基于撰写快照进行统计、综合和重组的导出数据。主要供企业高层决策分析之用,所涉及的数据操作主要是查询,一般情况下并不进行修改操作.数据仓库中的数据是不可实时更新的,仅当超过规定的存储期限,才将其从数据仓库中删除,提取新的数据经集成后输入数据仓库。时变性时变性:许多商业分析要求对发展趋势做出预测,对发展趋势的分析需要访问历史数据。因此数据仓库必须不断捕捉OLTP数据库中变化的数据,生成数据库的快照,经集成后增加到数据仓库中去;另外数据仓库还需要随时间的变化删去过期的、对分析没有帮助的数据,并且还需要按规定的时间段增加综合数据。支持管理决策数据仓库支持OLAP(联机分析处理)、数据挖掘和决策分析。OLAP从数据仓库中的综合数据出发,提供面向分析的多维模型,并使用多维分析的方法从多个角度、多个层次对多维数据进行分析,使决策者能够以更加自然的方式来分析数据。数据挖掘则以数据仓库和多维数据库中的数据为基础,发现数据中的潜在模式和进行预测。因此,数据仓库的功能是支持管理层进行科学决策,而不是事务处理。数据仓库的技术要求复杂分析的高性能体现:涉及大量数据的聚集、综合等,在进行复杂查询时经常会使用多表的联接、累计、分类、排序等操作。对提取出来的数据进行集成:数据仓库中的数据是从多个应用领域中提取出来的,在不同的应用领域和不同的数据库系统中都有不同的结构和形式,所以如何对数据进行集成也是构建数据仓库的一个重要方面。对进行高层决策的最终用户的界面支持:提供各种分析应用工具。海波龙公司简介海波龙(Hyperion)为企业绩效管理领域全球领导企业。海波龙的解决方案让数据收集、管理和分析自始至终贯穿企业,使企业绩效管理便捷有力。海波龙新一代整合平台—Hyperion®System™9,是当今市场上最完整和灵活的企业绩效管理系统,让企业全面实现绩效突破。海波龙在90多个国家拥有12000家以上用户,600余家合作伙伴致力于海波龙的客户创新,以及解决方案和服务的定制化。截至2005年6月30日,海波龙财年收入累计达到7.3亿美元,在Nasdaq股票交易代号为HYSL。编辑本段海波龙在中国2002年,海波龙进入中国,在北京、上海、广州设立了分支机构,为中国企业用户提供商务智能和企业绩效管理解决方案,截至目前,已有超过300家中国企业采用了海波龙企业绩效管理解决方案,涵盖了银行、证券、保险、制造业、电信、消费品、能源、烟草和政府等行业。中国高速增长的经济为中国企业提供了难得的发展良机,也给中国企业带来前所未有的挑战,遭遇巨大的管理压力。海波龙提供的解决方案将帮助中国企业消除在快速发展中所遭遇的管理压力,提升企业的管理水平。海波龙目前在中国拥有良好的合作伙伴关系,并在北京大学设有北京大学光华海波龙企业绩效管理研究中心(PKUGH-BPMRESEARCHINSTITUTE),共同探讨研究绩效管理在中国的应用与推广。相关产品OracleHyperionEnterprisePerformanceManagementSystemInstaller,FusionEditionRelease11.1.2.0.0forMicrosoftWindows(32-bit)HyperionEnterprisePerformanceManagementSystemFoundationServicesRelease11.1.2.0.0forMicrosoftWindows(32-bit)Part1of4HyperionEnterprisePerformanceManagementSystemFoundationServicesRelease11.1.2.0.0forMicrosoftWindows(32-bit)Part2of4HyperionEnterprisePerformanceManagementSystemFoundationServicesRelease11.1.2.0.0forMicrosoftWindows(32-bit)Part3of4HyperionEnterprisePerformanceManagementSystemFoundationServicesRelease11.1.2.0.0Part4of4OracleHyperionCalculationManagerRelease11.1.2.0.0OracleHyperionEnterprisePerformanceManagementArchitect,FusionEditionRelease11.1.2.0.0OracleEssbaseRelease11.1.2.0.0Part1of2OracleEssbaseRelease11.1.2.0.0Part2of2forMicrosoftWindows(32-bit)OracleEssbaseClientsRelease11.1.2.0.0forMicrosoftWindowsOracleEssbaseSpreadsheetAdd-inRelease11.1.2.0.0forMicrosoftWindowsOracleHyperionFinancialReporting,FusionEditionRelease11.1.2.0.0OracleHyperionEnterprisePerformanceManagementReportingandAnalysisCoreComponentsRelease11.1.2.0.0HyperionInteractiveReportingRelease11.1.2.0.0Part1of2HyperionInteractiveReportingRelease11.1.2.0.0Part2of2forMicrosoftWindows(32-bit)HyperionSQRProductionReportingRelease11.1.2.0.0Part1of2HyperionSQRProductionReportingRelease11.1.2.0.0Part2of2forMicrosoftWindows(32-bit)HyperionWebAnalysisRelease11.1.2.0.0OracleHyperionFinancialManagement,FusionEditionR