通过归档降低数据仓库的基础设施成本

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

利用存档优化数据仓库 基础设施作者:BillInmon本文档含有InformaticaCorporation的保密、专有信息和商业秘密信息(“机密信息”),事先未经Informatica的书面同意,不得进行拷贝、散发、复印或以任何其它方式复制。尽管我们尽最大努力确保本文档中信息的准确性和完整性,但仍可能存在一些印刷错误或技术 误差。如因使用本文档所含信息而造成任何损失,Informatica概不负责。本文档中包含的信息随时可能更改,恕不另行通知。Informatica 将自行决定是否将这些材料中讨论的产品属性纳入其任何软件产品的发布或升级中,并自行安排任何此类发布或升级的时间。受下列一项或多项美国专利 保护:6,032,158;5,794,246;6,014,670;6,339,775;6,044,374;6,208,990;6,208,990;6,850,947;6,895,471;或受下列正在申请的美国专利保护:09/644,280;10/966,046;10/727,700。此版本发布于2010年4月1利用存档优化数据仓库基础设施白皮书目录引言.....................................................2数据仓库的演变...........................................3数据仓库内的数据生命周期.........................................3数据仓库中的休眠数据..............................................4数据仓库2.0..............................................6对数据仓库中的数据分区...........................................6使用存储层来管理仓库数据.........................................6数据存档帮助优化存储层...........................................8为存档数据编制索引................................................8随时间变化的数据结构..............................................9InformaticaDataArchive™:全面的数据仓库存档解决方案.......11强大的存档技术实现存储层最优化..................................11多种方法轻松访问存档数据........................................13自动索引存档数据.................................................13自动管理变化数据结构.............................................13通用连接.........................................................13与其他存档平台、ECM和存储解决方案集成..........................13总结....................................................14关于BillInmon............................................152引言自从二十世纪五十年代后期计算机的首次使用以来,数据和信息的世界一直在不断地发展。随着时间的过去,很明显数据像许多实体一样都有生命周期,并且特定于生命周期中的每个时点、不同的一组特性、存储和访问需求。数据仓库的概念由 业务需求演变而来,业务需要在不同数据源之间基于其生命周期内的不同点进行 可靠、统一和集成的数据报告和分析。就总的感觉而言,数据仓库只是组织以电子方式存储数据的一个资料库;重要的是必须意识到,任何仓库都会受限于在仓库中查找和访问项目以及将项目移入和移出仓库的流程。对于数据而言,数据仓库系统的主要组成部分包括有选择地存储数据的能力、检索和分析数据的能力(不管数据在哪里),以及管理数据字典的能力。为了有效操作数据仓库,组织需要了解数据仓库中存储的信息在数据生命周期内的不同点存在的固有差异。随着数据变旧:• 访问数据的可能性会降低。简言之,数据变得越旧,它的使用频率就越低。• 数据结构会改变。随着软件逐渐发展得更加复杂以更有效率地处理更多数据, 数据库体系架构必然也要改变。透过一系列利用越来越强大的硬件和软件技术的软件版本稳定发布可看到这一点。• 存储的数据量呈指数方式增长。受行业及政府法规的制约,数据必须存储和保持可访问达数年之久。然而只有第一年的数据价值被有效利用,维护历史数据可能轻易地让数据存储激增到比当前生产数据库多20倍。本白皮书将解决由数据仓库内的复杂数据生命周期产生的问题,并且解释数据存档如何更好地管理不断增长的数据量。通过了解管理数据仓库中的数据量激增的工作动力,以及如今可基于数据在生命周期内的不同时点有效存档和检索数据的技术,数据仓库的操作和成本将更易于管理、更具生产力以及更高效率。实施强大存档技术将为数据仓库提供最佳的和经济高效的存档基础设施:• 在多种格式之间保持数据完整性• 实现方便的按需访问存档数据• 提供通用连接,并与多种存档平台集成以确保卓越和经济高效的可扩展性和性能• 高效存储存档数据以节约存储容量,同时促进快速检索数据白皮书3利用存档优化数据仓库基础设施数据仓库的演变数据仓库最重要的成就是能够创建一个平台来集成多个企业应用程序中的公司数据以便于分析和报告。这个意义深远的转变让组织第一次拥有了单一、集成的公司 数据库。这一整套集成数据库让组织能够从真正的组织角度查看整个企业范围内的信息。随着从不断增长的各种数据源集成越来越多的数据,组织在处理数据方面变得更有经验,同时面临扩展信息处理能力的需求。基本的数据仓库只是一些聚合的历史 数据的集合,现在逐渐演变为需要第二代数据仓库体系结构和设计。数据仓库内的数据生命周期随着组织对第一代数据仓库越来越有经验,数据库管理员注意到大部分查询都针对最近六个月的有效数据。数据仓库内数据生命周期的这种表现,让我们逐渐认识到,随着数据变旧,访问这些数据的可能性就会降低。数据变得越旧,数据的访问频率就越低。更重要的是让我们明白,随着数据仓库的使用,数据量也在增加。数据仓库中的数据以爆炸式的速度不断增长。在数据仓库的前一到两年,数据量通常以每年 200%至 500% 的速度增长。这个速度会继续增大,直到第四到五年,数据仓库的增长速度降至每年大约 100% 至 200%。但是到那个时候,数据仓库中收集的数据量已经非常巨大。由于各种各样的原因,数据仓库导致了公司所管理数据的激增。图1.通过ETL传递遗留数据和运行应用程序数据来构建传统数据仓库4数据仓库中的数据激增有两个主要影响:• 数据增长对性能的影响可导致整个公司效率降低,从而产生对每个用户有消极 影响的瓶颈,让他们无法及时访问数据• 添加磁盘存储设备而增加的成本,以及维护IT基础设施来支持存储设备而增加的成本只要IT组织能够保持系统只有相应数量的当前数据(需要经常访问这些数据进行日常操作),性能就是最优的。但是随着系统累积大量历史数据,只有一小部分数据在使用,性能将会恶化。因为系统必须处理大量不使用的数据,所以性能会降低。这就好比身体内的胆固醇。在年轻的马拉松运动员的循环系统中,胆固醇含量非常少,年轻运动员的心脏机能就非常有效率。但是在一位 65 岁不爱运动的老年人的循环系统中,累积的胆固醇会对心脏造成压力,心脏需要花费更多的精力来维持正常的循环流通。对于系统中包含了大量未使用数据的大型数据仓库来说,情况也是如此。系统必须管理海量的无用数据,管理这些数据占用了机器的工作周期,而这是不必要的。通过在数据仓库中维护激增的数据,虽然实际使用数据的百分比降低了,IT基础设施及维护成本仍将以指数方式增长。使事态更加复杂的是,在达到特定的数据量 之后,成本将显著上升,因为支持这些数据不仅仅需要物理磁盘。基础设施开始 需要额外的处理器、复杂的磁盘阵列、附加的软件以及必然需要员工花更多时间来操作和维护不断发展的系统,这导致了关联的IT成本以指数级增加。数据仓库中的休眠数据使用模式分析显示,大部分查询只使用最新的数据,数据仓库中越来越多的数据 不再使用。在只有两年的数据收集期内,大部分组织发现只有前六个月的数据 被分析,而大约 18 个月的数据未触动过,随着在更长周期收集数据,这种趋势有增无减。其结果是数据仓库中的绝大部分数据从未被任何人使用过。图2.随着数据仓库中数据量的增长,实际使用的数据量和数据百分比都将下降。白皮书5利用存档优化数据仓库基础设施组织也才是发现了“休眠数据”这个词。数据仓库中的休眠数据就像两人小船上的2000 磅的锚。休眠数据导致问题比想象中严重得多。了解数据仓库中休眠数据影响的一种方法基于访问概率。在第一代成熟的数据仓库中,通常有一些当前数据使用非常频繁,而许多数据很少使用或根本从未使用过。数据仓库体系架构演变的下一阶段已经很明显,将休眠数据从生产系统移出到不同数据层的另一些存储介质上,这在经济方面和技术方面都有意义。将休眠数据移出第一代数据仓库环境有三个主要原因:• 通过将数据从第一代数据仓库移至另一个比较便宜的存储介质,数据仓库基础 设施的成本将大大降低。• 通过将休眠数据从第一代数据仓库移至在下一代数据仓库中可用的不同存储层,组织现在可以处理的数据量比第一代数据仓库可处理的数据量大得多。• 通过减轻由于维护巨大的数据库基础设施而产生的压力,可以提升性能。图3.数据可以按不同的访问概率分组6数据仓库2.0由于第一代数据仓库的局限性,第二代数据仓库 2.0 逐渐演变为可识别和支持数据仓库内的生命周期。第一代数据仓库与数据仓库 2.0 之间有一些本质区别,最值得注意的是数据使用年限的识别、数据特性及访问需求更改。因此,数据仓库 2.0 中的基础设施根据数据的使用年限划分为不同的存储类型。数据先放入高性能存储 类型,随着时间的推移基于数据访问的概率从高端存储类型移至下一个较低成本和较低性能的存储类型。第二代数据仓库识别数据库分区、索引和存储层的需求。对数据仓库中的数据分区管理数据仓库环境的一种标准做法是能够将存档数据划分为分区。虽然有多种方法对仓库数据分区,但是最常用的方法是按日期划分数据。一个分区包含2003年的数据,下一个分区包含2004年的数据,再下一个分区包含2005年的数据,依此类推。此分区模式很自然,因为数据是按日期到达的。当然也可以使用其他策略,例如按组织单位、按地理位置等分区。数据也可以根据 多组参数进行分区。例如数据可以按日期和地理位置或按日期和组织职能进行 分区,诸如此类。通过将数据划分为分区,数据可以根据用户访问模式进行结构化处理。在搜索时能够同时排除多个分区中的数据,从而能够更快、更有效地执行 搜索,从而降低访问数据的成本并减少处理需求。使用存储层来管理仓库数据为进一步优化数据仓库基础设施,可根据数据的访问需求将数据分区放到不同的 存储层,让它拥有不同的性能、访问、可用性和成本特性。有许多原因促使将 第一代数据仓库分成物理分离的子分区,这些子分区位于不同的存储层并在这些 层上进行管理。图4.为数据分区的不同方法图5.访问概率低的数据可以移至替代存储白皮书7利用存档优化数据仓库基础设施其中最明显且有说服力的原因是经济原因。通过将第一代数据仓库分成为不同的 物理存储层,少量经常使用的数据存储在昂贵的高性能磁盘存储上,而大量不使用的数据存储在比较便宜的存储介质上。可以采用不同的存储分层策略。一种可能的策略是根据数据访问和数据更新的性能需求来定义存储层:• 交互层是执行事务处理的地方。交互

1 / 18
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功