企业数据仓库在大数据分析时代的角色变迁Kimball集团白皮书作者:RalphKimball目录引言........................................................................................................................1关于作者.................................................................................................................1简介........................................................................................................................2数据也是资产负债表上的一种资产..................................................................3揭开大数据分析的面纱...........................................................................................4大数据分析使用案例........................................................................................4使大数据分析使用案例获得价值......................................................................7大数据分析系统要求...............................................................................................9扩展关系数据库管理系统...............................................................................10MapReduce/Hadoop系统.............................................................................13MapReduce如何在Hadoop中工作.............................................................13Hadoop环境的工具.......................................................................................15未来十年中的技术汇聚..................................................................................18可复用分析.....................................................................................................19复杂事件处理(CEP)....................................................................................20未来十年中的数据仓库文化变迁..........................................................................20沙盒...............................................................................................................20低延迟............................................................................................................21永远精益求精.................................................................................................21低干涉数据的相关性正待揭示........................................................................22所有数据的简单分析胜过部分数据的复杂分析..............................................22数据结构应在查询时而非数据加载时声明.....................................................23支持大数据分析的EDW必须有磁性、灵活性和深入性...............................23抽象和控制之间的冲突..................................................................................23未来十年中的数据仓库组织变化..........................................................................24需要的技术技能集..........................................................................................24需要的新组织.................................................................................................25需要的新开发范式..........................................................................................26数据仓库时代早期得到的教训........................................................................27云中分析........................................................................................................27EDW的前景如何?.......................................................................................28致谢和参考资料....................................................................................................29企业数据仓库在大数据分析时代的角色变迁企业数据仓库在大数据分析时代的角色变迁1引言在本白皮书中,我们描述了设计企业数据仓库(EDW)为“大数据”时代的业务分析提供支持的快速发展场景。我们还介绍了构建和发展EDW来满足新业务要求的范围和挑战。这包括高度集成、半结构化和非结构化数据源、以拍字节计的行为和图像数据(通过MapReduce/Hadoop进行访问)以及大规模并行关系数据库,然后是构造EDW来支持高级分析。本文为设计和管理部署所需的必要流程提供了详细的指导。在EDW需要如何对大数据分析挑战作出响应,以及需要什么必要的设计元素来支持这些新的要求等方面,业内缺乏具体的指导,本白皮书就是针对这种情况编写的。关于作者RalphKimball是Kimball集团的创始人。他从1980年代中期开始就是数据仓库/商业智能(DW/BI)行业维度方法方面的思想领袖,培训了超过10,000名IT专业人才。Ralph在施乐的PaloAlto研究中心(PARC)共同发明了Star工作站,其后在Metaphor工作,之后成立了RedBrickSystems。Ralph在斯坦福大学获得电子工程博士学位。Kimball集团是维度DW/BI咨询和教育的资源提供者,这与我们昀畅销的Toolkit丛书、设计小贴士和获奖文章相一致。请访问www.kimballgroup.com了解更多信息。企业数据仓库在大数据分析时代的角色变迁2简介什么是大数据?大数据的大实际上并不是昀令人关注的特征。大数据是很多不同格式的结构化、半结构化、非结构化和原始数据,在某些情况下看起来与过去30年来我们存储在数据仓库中清一色的标量数字和文本完全不同。很多大数据不能使用任何类似SQL这样的工具进行分析。但是昀重要的是,大数据是我们如何看待数据资产、在哪里收集、怎样分析以及如何将分析得到的见解转化为利润的一种范式转换。大数据革命关乎发现常规数据源内部和外部的新价值。因为过去的软件和硬件环境还不能在合理的开发时间或处理时间内捕获、管理或处理新形式的数据,所以需要一种新的方法。我们面临的挑战是要重新组织信息管理布局,从相当稳定的EDW体系架构前进到大数据分析的新时代。在阅读本白皮书的过程中,请时刻牢记,本文作者的观点始终认为“数据仓库”包含提取、清洗、集成数据并将数据交付给决策者的完整生态系统,因此包括提取-转换-加载(ETL)和商业智能(BI)功能,而更保守的作者则认为这些功能在数据仓库之外。本文作者始终所持的观点是,数据仓库在捕获所有形式的企业数据以及在其后准备这些数据供全企业决策者使用的过程中起到非常广泛的作用。本白皮书认为企业数据仓库将被赋予重托,承担非常激动人心的新职责。EDW的范围将会显著扩大。还有,在本白皮书中,尽管我们一直使用术语“ETL”来描述数据在企业数据仓库中的运动,这条术语的常规用法却并没有正确体现大数据分析世界中跨网络并在系统间以及完全不同流程之间运动的数据所担负的更大责任。ETL所属的技术远大于此,这种技术被称为数据集成(DI)。因为我们很多年来一直在我们的专著和课堂中使用ETL这个词,所以本文中仍旧沿用这条术语,但是牢记ETL指的是更大意义上的DI范畴。本白皮书根据2011年初的市场的情况,突出说明大数据革命所带来的全新趋势。大数据本身就是一场革命。Informatica的执行副总裁兼首席技术官JamesMarkarian评论道:“数据库市场昀终又重获关注。”因为很多新型大数据工具和方法还处于第1版甚至第0版的开发阶段,所以局面将继续快速变化。市场普遍认识到进行此类新型分析的可能性,重要的竞争者尤其是电子商务企业已经开始利用这种新范式的优势。本白皮书旨在成为商业智能、数据仓库和信息管理专业人员及管理团队了解大数据并为大数据做好准备的一个指南。企业数据仓库在大数据分析时代的角色变迁3数据也是资产负债表上的一种资产企业日益认识到数据本身是一种资产,应该和制造业时代始终在资产负债表出现的设备和土地这样的传统资产一样,也在其中体现出来。确定数据资产的价值有多种方法,其中包括:产生数据的成本数据丢失时替换数据的成本数据所带来的收入或获利机会如果数据落入竞争对手手中所造成的收入或利润损失如果数据向错误对象公开而面临罚款和诉讼的法律风险但是比数据本身更重要的是,企业已经展示了对数据的洞察可以转化为利润。在电子商务网站通过实验性广告处理探测到偏好点