数据仓库一数据仓库简介随着处理信息量的不断加大,企业需要多角度处理海量信息并从中获取支持决策的信息,面向事务处理的操作型数据库就显得力不从心,面向主题集成大量数据的数据仓库技术产生。数据仓库因其面向主题性,集成性,稳定性和时变性,不仅在数据的集成,存储上效果好,在从操作系统提取信息和支持系统造作者的前端工具上更是充分利用了数学严谨的逻辑思维和统计学知识,以及先进的信息技术,使企业的信息利用更有价值。数据仓路按照特定的方法(ETL)从数据源中提取数据,以特定主题作维度利用特定的算法集成数据,给数据用户提供实时查询,最终集成有效信息供决策者使用。数据仓库是个过程而不是一个项目,是一个解决方案而不是一个产品。数据仓库之父比尔·恩门(BillInmon)在1991年出版的“BuildingtheDataWarehouse”(《建立数据仓库》)一书中所提出的定义被广泛接受,数据仓库是一个面向主题的(SubjectOriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策。二数据仓库历史1.1981年NCR公司(nationalcashregistercorporation)为Walmart建立了第一个数据仓库,总容量超过101TB(十年的会计文档还不足1TB)2.商务智能的瓶颈是从数据到知识的转换。1979年,一家以决策支持系统为已任、致力于构建单独的数据存储结构的公司Teradata诞生了。Tera,是万亿的意思,Teradata的命名表明了公司处理海量运营数据的决心。1983年,该公司利用并行处理技术为美国富国银行(WellsFargoBank)建立了第一个决策支持系统。这种先发优势令Teradata至今一直雄居数据行业的龙头榜首。3.1988年,为解决企业集成问题,IBM公司的研究员BarryDevlin和PaulMurphy创造性的提出了一个新的术语:数据仓库(DataWarehouse)4.1992年,比尔·恩门(BillInmon)出版了《如何构建数据仓库》一书,第一次给出了数据仓库的清晰定义和操作性极强的指导意见,真正拉开了数据仓库得以大规模应用的序幕。5.1993年,毕业于斯坦福计算机系的博士拉尔夫·金博尔,也出版了一本书:《数据仓库的工具》(TheDataWarehouseToolkit),他在书里认同了比尔·恩门对于数据仓库的定义,但却在具体的构建方法上和他分庭抗礼。最终拉尔夫金博尔尔由下而上,从部门到企业的数据仓库建立方式迎合人们从易到难的心理,得到了长足的发展。6.1996年,加拿大的IDC(internationaldatecorporation)公司调查了62家实现数据仓库的欧美企业,结果表明:数据仓库为企业提供了巨大的收益、进行数据仓库项目开发的公司在平均2.72年内的投资回报率为321%。7.到如今,数据仓库已成为商务智能由数据到知识,由知识转化为利润的基础和核心技术。8.在国内,因数据仓库的实施需要较多的投入,再加之需要足够的数据积累才能看到结果,不能很好的被企业普遍接受。对数据仓库的发展产生了一些负面影响。但实时的,多维的处理海量数据已成为信息时代企业发展所必须的工作。三主流数据仓库产品IBM、Oracle、Sybase、CA、NCR、Informix、Microsoft和SAS等有实力的公司相继通过收购或研发的途径推出了自己的数据仓库解决方案。BO和Brio等专业软件公司也前端在线分析处理工具市场上占有一席之地。根据各个公司提供的数据仓库工具的功能,可以将其分为3大类:解决特定功能的产品(主要包括BO的数据仓库解决方案)、提供部分解决方案的产品(主要包括Oracle、IBM、Sybase、Informix、NCR、Microsoft及SAS等公司的数据仓库解决方案)和提供全面解决方案的产品(CA是目前的主要厂商)。1、BusinessObjects(BO)数据仓库解决方案BO是集查询、报表和OLAP技术为一身的IDSS,它使用独特的语义层和动态微立方技术来表示数据库中的多维数据,具有较好的查询和报表功能,提供钻取等多维分析技术,支持多种数据库,同时还支持基于Web浏览器的查询、报表和分析决策。虽然BO在不断增加新的功能,但从严格意义上讲,只能算是一个前端工具。也许正是因为如此,几乎所有的数据仓库解决方案都把BO作为可选的数据展现工具。BO支持多种平台和多种数据库,同时支持Internet/Intranet。BO主要作为第三方产品或其它公司的产品结合进行使用。BO是集成查询,报表和分析功能工具,它还提供了世界上第一个通过Web进行查询、报表和分析的决策支持工具Webintelligence,第一个可以在MicrosoftExcel集成企业公共数据源中数据的工具Businessquery和面向主流商业用户的数据挖掘工具Businessminer,用其可以实现深入的分析用以发掘深层次的数据之间的关系。BO是商务智能行业不折不扣的领导者,在美国加利福尼亚圣何塞和法国巴黎设有两个总部。BusinessObjects还在业内创建了最强大、最全面的合作伙伴社区,在全球拥有3000多家合作伙伴,包括Accenture、BearingPoint、Capgemini、HP、IBM、Microsoft、Oracle(PeopleSoft)、Sysbase、BEA、Teradata和SAP等企业。另外,公司还提供咨询和培训服务,以帮助客户有效地部署商务智能项目。2007年10月被SAP收购,但是保持独立运营。BusinessObject是一个由多个产品组成的产品族,主要包BusinessObject,Designer,DocumentAgent,Supervisor,BusinessMiner五个产品。这几个产品功能如下:(1)supervisor:Supervisor是BO自身的安全管理工具。在Spervisor中可以建立和维护资料库,在资料库中可以建立BO的用户和用户组,通过对不同用户赋予不同的操作权限,来实现对BusinessObject的使用用户、定制查询(universe)以及查询报告的安全管理。实际上多个用户定制查询及查询结果的共享时通过资料库实现的。(2)Designer:Designer是一个多编模型构建工具,它可以将关系库中的表通过类、对象及对象明细等工具映射到多维模型的维、维元素及度量指标上,使用户在符合业务逻辑的多维模型上构建查询。(3)BusinessObject:BusinessObject是一个查询定制和统计报表(图形)生成工具。它利用Designer建立多维模型定制各类查询,查询方式包括BusinessObject定制查询语义层(universe)、手写SQL语句、存储过程及个人数据文件等,在BusinessObject41版中还将支持OLAPPannel,从而使其可以利用其他厂商的OLAP服务器的功能。BusinessObject将查询结果以多种报表形式及统计图形的方式提交给用户。用户可以在查询结果上进行进一步的分析,如向下/向上钻取(DrillUp/DrillDown)等。另外,在BusinessObject中还提供了一种script语言,?该语言风格类似VisualBasic,在程序中可以以面向对象的编程风格调用BusinessObject提供的丰富类库。得script语言可以定制出更为友好的查询界面。(4)DocumentAgent:DocumentAgent是专为工作组用户的文档管理及查询结果刷新而建立的。一组用户对应一个DocumentAgent,不同用户的查询报表(图形)均可发送到DocumentAgent供同组的其他用户共享。DocumentAgent还可以定义统计报表(图形)的刷新频度。BusinessObject具有以下几个特点:前端分析手段灵活,表现方式多样,语义层构建工具应用面广,应用简单,具有文档管理的数据刷新功能,可以利用资料库对不同用户的操作权限进行管理【文来自百度空间】2、IBM数据仓库解决方案IBM公司提供了一套基于可视数据仓库的商业智能解决方案,具有集成能力强,高级面向对象SQL等特性。包括:VisualWarehouse(VM)、Essbase/DB2OLAPServer5.0和IBMDB2UDB,以及来自第三方的前端数据展现工具(如BO)和数据挖掘工具(如SAS)。其中,VW是一个功能很强的集成环境,既可用于数据仓库建模和元数据管理,又可用于数据抽取、转换、装载和调度。Essbase/DB2OLAPServer支持:“维”的定义和数据装载,它不是关系型OLAP,而是混合型的OLAP。IBM采取合作伙伴战略,例如其前端数据展现工具可以使BusinessObjects的BO、Lotus的Approach、Cognos的Impromptu或IBM的QueryManagementFacility,多维分析工具支持ArborSoftware的Essbase和IBM的DS2OLAP服务器,统计分析工具采用SAS系统。IBM公司推出的DB2UDB7.1主要实现以下功能:电子商务,包括e-commerce、ERP、客户关系管理、供应链管理、网络自助和商业智能,帮助企业实现电子商务。商业智能利用已有的数据资源来支持企业决策,包括数据访问、数据分析、成本控制、获取新的商业机会和提高客户忠诚度;数据管理包括准确高效的运行查询和应用、安全的存储、访问数据、数据恢复和在复杂的硬件环境下实现应用;增强DB2家族产品,满足当今异构计算环境的需要,实现开放时机决方案。IBM联合了550多家合作伙伴,可以提供多达800种商业信息应用和工具。在世界范围内,IBM的9500多家合作伙伴为支持DB2通用数据库设计了16300种应用程序。它主要有以下特性:◆集成能力强主要包括通用数据支持、免费新增数据仓库中心和DB2OLAPstarterkit。用户可以使用DB2的数据连接器(DataJoiner),象访问DB2数据资源一样访问Oracle、Sybase、Informix、SQLServer等数据库。DB2UDB的用户现在可以跨越DB2数据库、Oracle数据库或者一个OLEDB资源进行分布式的查询,也就是可以通过使用DB2通用数据库的SQL句法和API在一个工作单元的查询内访问和处理保存在异构数据资源中的数据。◆高级面向对象SQLDB2UDBV7中包含了一些先进的SQL功能,对开发人员和分析员都非常有用。DB2可以提供临时表格支持、应用存储点(savingpoint)、标识栏(IDColumn)和嵌套存储过程。◆Windows集成DB2UDB7.1增加了对于Windows环境集成的支持:OLE-DB2.0版本的客户端支持功能;OLE存储过程的集成支持;VisualStudio集成;LDAPonWin2000支持;扩展用户ID支持。DB2V7.1加强了对OLE-DB的支持功能。现在用户可以用OLE-DB的应用工具通过本地的OLE界面来访问或查询DB2数据,也可以通过OLE-DB的表格功能把数据装载到DB2中。提供三个新的扩展器:◆空间扩展器(SpatialExtender)新版DB2提出了空间SQL查询概念(SpatiallyEnabledSQLQueries),使用户可以在关系型数据库中集成空间数据(通过坐标确定位置)和普通的SQL数据。这两种技术的结合使用户可以进行新型查询。新的空间扩展器将能够存储和索引空间数据(坐标信息),并使用户通过特定的空间数据查询对其进行访问。◆DB2XML扩展器IBMDB2XMLExtender体现了IBM全面的XML技术策略,在电子商务领域居业界领导地位。XML扩展器是IBMB2B服务器的组成部分,使DB2服务器可以支持XML。通过XML扩展器提供了XML文档在DB2中的存储和恢复机制,并可高效地查询XML内容。通过数据交换,XML扩展器提供新的和