数据仓库未来趋势的发展的看法摘要:数据仓库技术是决策支持系统处理中的核心技术。本文说明了数据仓库在未来发展中的相关发展趋势,以及数据仓库的现状。关键词:数据仓库数据仓库的发展趋势一、郑晓军,《数据仓库的技术和发展现状》,微电脑世界周刊,2003-10数据仓库发展的十个趋势1、数据仓库规模不断增长所有企业的数据仓库规模都将呈指数增长,数据源的增长以及企业对数据更好的获取能力推动了这种增长。另外存储成本也越来越便宜,因此企业能够保存更长期的数据。但数据增长也将使企业面临一些新问题,包括数据仓库的可升级性以及可能出现的性能问题。2、数据集市的整合这是一个比较有趣的话题,我会在稍后的文章中作详细分析。3、客户数据集成许多企业如今很想跨越产品线、业务单位、渠道和地理各方面来综合地得到一个关于客户的单一视图,一种称之为客户数据集成(CDI)的解决方案应声而出,其核心部分由数据仓库和相关技术构成。客户数据集成提供了对客户数据360°的全方位视图,并使企业可以从任何一个接触点上对客户进行认识和做出反应。4、开发商的整合由于企业都想得到完备的产品套件,数据仓库和商务智能开发商因此将越来越多的功能融合到他们的产品中去。5、EAI和ETL工具的集成6、快速反应的决策支持电子商务的不断增长驱使着企业去寻找共享数据和对机会快速反应的方法,虽然真正的实时决策支持基本是不可能的,但数据仓库技术的进步却使快速反应的决策支持得以实现。在数分钟或数秒钟内对数据进行分析和对事件做出反应的能力有助于企业在各方面的行动,比如供应链管理、客户服务和商务性能管理等。7、非结构化信息的增长企业正面临着非结构化和半结构化数据的增长,包括图像、声音、视频、XML以及其它的数据类型。同时,相关的技术也在不断出现,使企业可以采用跟以前处理传统的结构化数据资源的方式,来存储和挖掘这些数据。8、越来越了解如何对“成功或失败”问题做出正确分析——知识管理在企业仓促着手建立数据仓库或其它分析型知识库时,数据质量或元数据这些重要问题经常被忽视,其后果就是,很多企业现今发现他们的行动成功性打了不少折扣,因为他们不能确定“成功或失败”问题。数据质量问题和元数据的缺乏会严重影响用户对数据仓库的接受程度,也只能得到可怜的分析结果和不正确的决策。这是一个相当复杂的问题,需要花费时间和精力去确定他们。9、强调应用程序VS数据仓库对大多企业来说,数据仓库不再是单独的一件事。需要确定投资回报率。数据仓库项目跟以前一样是必需的,但可能会尽量跟应用程序联系起来以便于计算投资回报率和调整项目成本。10、越来越注重盈亏问题艰难的经济环境迫使企业除了收入增长外,还得认真考虑收益率问题。这种不断增加的对盈亏问题的注意力影响到了IT项目,其中包括数据仓库,最终导致各级水平上的成本削减。新的数据仓库项目仍将不断进行,但是企业不会再妄想一步登天去做那些对盈利没有直接影响的事;它们还想有一个明确的商业案例,明确的投资回报率和更短的回报周期。二、彭涛,《数据仓库及其应用》,北京联合大学信息学院,2003年4月20号数据仓库带来了什么每一家公司都有自己的数据。并且,许多公司在计算机系统中储存有大量的数据,记录着企业购买、销售、生产过程中的大量信息和客户的信息。通常这些数据都储存在许多不同的地方。使用数据仓库之后,企业将所有收集来的信息存放在一个唯一的地方——数据仓库。仓库中的数据按照一定的方式组织,从而使得信息容易存取并且有使用价值。目前,已经开发出一些专门的软件工具,使数据仓库的过程实现可以半自动化,帮助企业将数据导入数据仓库,并使用那些已经存入仓库的数据。数据仓库给组织带来了巨大的变化。数据仓库的建立给企业带来了一些新的工作流程,其他的流程也因此而改变。数据仓库为企业带来了一些“以数据为基础的知识”,它们主要应用于对市场战略的评价,和为企业发现新的市场商机,同时,也用来控制库存、检查生产方法和定义客户群。每一家公司都有自己的数据。数据仓库将企业的数据按照特定的方式组织,从而产生新的商业知识,并为企业的运作带来新的视角。三、数据仓库应用的近期发展趋势分析1.行业模型使用得越来越多。自己研发模型,优点是省钱、灵活、切合公司现状。然后现在越来越多客户需要的BI是既需要长远建设框架,又需要尽快见到BI的价值,以便不断累积经验产出更多价值,而不是一直在IT层面的研发。那么行业模型的三大优势,成就了这些可能:上线快、关注面全、包含了业界同行经典经验。至于灵活性的考虑,需要在实施的时候,在DW的架构上下功夫,让模型有衍生扩展空间。价格问题就需要在投入和产出中去平衡了,对于大中型优质企业来说,这点风险还是能承担的,关键是实施人员和业务人员是否能产出更多。2.元数据不仅仅停留在为管理而管理、简单查询这种初级阶段。在03年中国电信行业开始尝试元数据的建设时候,也不过使用初级阶段,对整个系统影响很小。当前趋势当然不能这样表面功夫,而是解决各种关于元数据的跟踪、解析和展示(业务元数据的展现),全面解决数据流的困惑。从技术角度来看,目前厂商的产品已经可以实现,但在实施上,就看能做到什么程度,能多大程度满足用户以及实施维护者自己的需求。当前元数据的目标仍然是两个方面,一是满足IT人员的维护方便,也就是几年前就开始,不过当前已经注重图形化解析,让IT人员快速发现技术元数据的路径,同时满足多方产品元数据的import和export,而非早期元数据管理还需太多人工操作和干预。另一方面就是针对最终用户的业务元数据应用。简单地可以用前端工具加个指标注释这样的简单功能,如果想功能强大,就需要专业产品,在前端展现工具上安装相关插件,不但可以显示其指标的解释和公式,还能自动显示相关联的指标等更多智能东西。3.主数据,这在前2年也仅仅停留在初级阶段,也就是用户定义好主数据后,然后集中在主数据库里统一管理。说到主数据,可能已经超出数据仓库的范畴,因为当前主数据的趋势,不仅仅是统一集中管理,还要和多业务系统交互、甚至SOA,达到真正的信息及时、统一、一致性。4.元数据仓库和指标库的建设。如果元数据不建立专门的库管理起来,也就是散兵游勇,对于长期建设来看,会有很大的隐患。所以当前的趋势是将元数据统一在一个库管理起来,成为所谓的元数据仓库,使元数据真正从源到展现的结果这一条大段数据线都能串联起来。5、指标库的建设,目的同样是为了方便管理和维护。不同部门和分公司的用户也许对于指标有重复定义或者相关性,那么有了指标库,再结合业务元数据,可以更快给业务用户产出BI分析的数据准备,同时也能有效管理不同指标的相关性,以及方便产出更多衍生指标和扩展指标来满足行业的快速发展的分析需求。四:参考文献:[1]郑晓军,《数据仓库的技术和发展现状》,微电脑世界周刊,2003-10[2]彭涛,《数据仓库及其应用》,北京联合大学信息学院,2003年4月20号