Isilon技术白皮书

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

Isilon技术白皮书:集群存储革命“集群存储正在逐步普及,并成为以前多代存储产品的主要转变趋势,这与CD淘汰唱片十分相似。”——TonyAsaro,EnterpriseStrategyGroup,2005年10月1962年,ThomasKuhn出版了一部极具开创性的名为《科学革命的结构》的专著。他指出,科学进步不是渐进式的,而是呈现为一种伴有划时代变革的断续性平衡,这与我们所理解的生物进化颇为相似。1981年,当IBM推出IBM个人计算机的标准化架构时,计算机行业便经历了这样的一场革命。与以往的行业惯例背道而驰,IBM选择了使用现成组件来构建其计算机。结果,IBM个人计算机架构最后成为了行业标准。这种架构体不仅取代了其他个人计算机设计,而且在以后几十年里,微型计算机和大型机也经历了这种变化,以适应IBM标准并开始使用现成组件构建。本白皮书的目的是向您介绍目前数据存储行业正在发生的新思维转变:转向集群存储架构。数据存储行业的分布式存储集群与IBM在1981年的处境大致相同,后者准备改变计算机行业的规则。集群存储架构正在改变数据的存储和访问规则。在本白皮书中,我们将讨论一些趋势,这些趋势明确地将集群存储架构定义为数据存储的未来。我们将详细说明这一新存储类别的要求,并介绍率先这一思维转变的Isilon®IQ集群存储解决方案。1推动集群存储革命的三大宏观趋势三大宏观趋势推动了向集群存储架构的转换:——非结构化数据和数字内容(数字图像、计算机模型、数字视频、数字音频、计算机模拟、扫描文档、参考信息)的爆炸性增长——向集群计算的思维转换——更廉价、更快的行业标准企业级硬件的激增宏观趋势1:非结构化数据和数字内容的爆炸性增长今天参与竞争的企业都面临着用于执行日常业务的数据的急剧增加,这在很大程度是由于非结构化数据爆炸性增长造成的。IT管理人员知道,使用并存储视频、音频、图像、研究数据及其他大型数字文件和非结构化数据的应用程序正在挑战传统存储系统的容量和性能禁区。Pratt&Whitney对非结构化数据的爆炸性增长深有体会。作为全球先进的商用和军用飞机以及宇宙飞船引擎的领先设计、制造和支持供应商,它所进行的详尽测试生成了许多TB量级的引擎测试数据,其中每项高带宽测试每秒将记录100,000多个样本。Cedars-Sinai肿瘤研究中心位于加利福尼亚的洛杉矶市;该肿瘤研究中心整理从多种渠道收集的数据,包括临床质谱分析和基因组数据,他们也知道存储大量研究数据时会遇到的一些难题。对Cedars–Sinai而言,一滴血将生成超过60GB的非结构化数据供蛋白质组学研究使用。用这个数字乘以从研究中心的患者身上采集的数百个(如果不是上千个)血液标本,非结构化数据的急剧增加是显而易见的。最后,SportsIllustrated(体育画报)于2004年在雅典夏季奥运会上率先开创了一个百分之百的数字化工作流。这一工作流在为期17天的赛事中生成了250,000多张数字图像(图像平均大小为18至24MB)。这一数字化趋势扩展到了所有使用非结构化数据和数字内容的行业领域,包括传媒娱乐业、数字成像、生命科学、石油和天然气、制造业以及政府,而且非结构化数据的迅速增长非常明显。据企业战略集团(ESG)预测,到2006年底,参考信息将占企业和政府新信息的58%。ESG将参考信息定义为“为随时参考和创造价值而保留的数字资产”。这些信息包括但不限于电子文档、CAD/CAM设计、历史文献、医学影像、生物信息学、地球物理数据和语音数据。ESG预计,参考信息将以92%的复合年增长率(CAGR)增长。同时,ESG还预计,在此期间迁移参考资产(即从磁带迁移到基于磁盘的存储资源的数据)会额外占用420PB的容量。那么,对IT管理人员来说这意味着什么呢?由于非结构化内容的存储规模和复杂程度不断提高,它们使得传统存储系统捉襟见肘,因为这些系统主要是为含有小型文件和高级别事务(例如关系数据库和电子邮件服务器)的结构化数据设计的。另一方面,非结构化数据具有传统存储系统在设计时并未考虑到的独特特征,包括大型文件和数据量、高吞吐量要求、读取密集型访问方式以及大量并行文件访问。由于缺乏更好的替代方案,许多公司曾尝试通过拓展专为结构化事务数据或文本数据而设计的传统存储系统,以此来满足他们的非结构化数据需求。甚至最新的NAS和SAN系统也采用了存在先天不足的架构,造成了管理的极度复杂。这都是由于它们的“存储孤岛”、可扩展性限制、性能瓶颈和可用性问题造成的,而且将此类系统用于非结构化数据还会造成高额成本。这些限制也激发了企业对新存储架构的需求——一个完全为非结构化数据和数字内容专门设计并经过优化的存储架构。宏观趋势2:向集群计算的思维转变第二个宏观趋势是集群计算的广泛应用。企业数据中心已经从“大型”专有主机和对称式多处理(SMP)服务器时代发展到运行Linux或indows的基于标准(使用行业标准硬件)的集群设备时代。这一趋势的最有力证据是全球服务器收入的变化。自二十世纪九十年代中期起,这个年收益500亿美元的市场约有四分之一或更大的比例从每台价格几万或几十万美元的中端服务器转向了每台2,000到3,000美元的小型服务器。IT管理人员的首要动机是,采用具有更高性能、可靠性、可扩展性以及整体工作负荷管理的服务器集群架构。这可以通过集合行业标准服务器来实现,而所有这些只有传统大型设备解决方案成本的一小部分。企业不再在一个拥有200个处理器的大型机上部署大型数据库。今天,IT管理人员可以购买一组现成的服务器,并将其组合成一个可无缝扩展的大型系统。网络服务器库便是集合优点的一个例证。通过服务器集群,最佳地实现了因特网全天候实时在线所需的可用性、可靠性和性能,同时也采用了经济合理的解决方案。服务器集群库通过在服务器库的各个组件之间分配工作负荷来简化内部流程率,并利用多台服务器的功能加快计算过程。如果一台服务器发生故障,其他服务器可以介入并承担该工作负荷。将服务器和处理功能组合到一个实体中在以前只是研究和学术机构的一种做法,但它现在也广泛深入到了企业市场中。今天,越来越多的企业使用服务器集群方法来处理大量计算机化的关键任务和服务。集群存储革命将这一集群趋势从服务器应用领域扩大到了数据存储领域。出于同样的原因,服务器应用领域正在以同样的方式向集群架构转变,而存储领域也已开始转向这一主流架构。宏观趋势3:更廉价、更快的行业标准企业级硬件的激增推动转向集群存储的第三个宏观趋势是行业标准硬件组件的性价比曲线明显下降。这一趋势是摩尔定律所预示的持续运动的一部分:随着时间的推移,企业将以更低的成本获得更高的计算能力,并实现商品硬件的经济效应。商品硬件组件的低成本造就了集群架构经济实惠的优点。集群如何利用行业标准硬件的性价比曲线,以传统定制系统的小部分成本来实现行业领先的性能和可靠性的呢,Google便是一个主要例子。平均而言,Google的一次查询会读取数百MB的数据,占用几百亿个CPU周期。为了处理这一“高性能计算”工作负荷,Google的架构采用了数千个商品级PC、现成组件以及容错软件的集群。该集群架构实现了卓越的性能,而其成本远远低于使用数量更少但更昂贵的高端服务器打造的系统。企业级行业标准硬件的利用直接产生了转向集群存储解决方案的趋势。根据存储磁盘产品(即SATA)的价格历史和密度,过去5年每MB的单价降低了100多倍。(见下图)加上处理器、内存和带宽成本的显著下降,IT管理人员现在可以通过商品化的存储组件实现集群的全部价值。这些宏观趋势说明了三个基本意义:——存储行业正在经历一场革命——集群存储正成为新的主流存储架构——用户将从集群存储中收获巨大的业务价值和好处从大型单片机到集群架构,存储领域正在跟随服务器应用领域业已发生的思维转换步伐。集群存储是一种迅速崛起的新存储架构,它由智能软件驱动,并基于行业标准硬件打造。客户知道,集群架构能够处理企业迅速增长的非结构化数据,最好地提供前所未有的性价比、可靠性和可扩展性,从而满足他们的需求,而这一切的运营成本明显更低。集群存储革命已经开始!2一个新的存储类别:集群存储直接连接存储(DAS)、存储区域网络(SAN)和网络连接存储(NAS)都是典型的存储方法,大多数IT管理人员在谈到存储架构时都会想到它们。今天,第四种存储方式——集群存储出现了。集群存储架构可以将两个或多个存储设备集结到一起,使其在行为上表现得像一个实体。集群存储可以细分为三种类型:——双向简单故障转移集群——命名空间聚合——带有分布式文件系统(DFS)的集群存储双向简单集群:过去在存储行业中,“集群”是指在一对冗余节点(“节点”定义为服务器/控制器磁头和磁盘)之间的主动故障转移。尽管更准确的说这种方式是一种冗余技术而非集群技术,但NAS供应商通常称其为“双向集群”。双向集群激起了继续改进旧式和传统单头存储架构的容错和冗余性能的需求。通常,这些解决方案能使一个控制器磁头接替故障控制器磁头,并允许新控制器磁头继续访问和写入故障控制器的数据卷。内在的限制性能和可扩展性、小型文件系统规模、管理复杂性以及实现高可用性的相对较高的成本是这一方式的主要制约因素。加上非结构化数据的迅速增长,这些解决方案明显不能满足企业发展的未来需求。命名空间聚合:实质上,这些类型的集群存储解决方案构成了将存储管理连为一体的一块玻璃或薄板。这些解决方案完全基于软件(即软件虚拟化)或是软件与硬件的组合(即设备和开关),并创建了存储资源的单一命名空间和集群,它们看起来像一个大型数据管理池。一般来说,这些解决方案会启用包括NAS服务器或存储设备集群的“综合树”,把各存储仓库向网络用户呈现为一个整体(一个统一的命名空间),并将数据归到任何既定仓库中。换句话说,通过它们创建的网关,可以重新定向几种不同文件和异构系统以便从公共点进行访问。此类解决方案能够把横跨不同磁盘卷的文件布局(块级拆分数据)控制在某个特定仓库——而不是构成集群的所有仓库,同时仍然允许不同存储层之间的数据移动,且客户端中断有限。尽管从最初成本角度来看,这种架构方法有时不乏吸引力,但IT管理员仍在管理、发展和配置“存储孤岛”(异构型存储仓库),不过现在他们又多了一个虚拟化层。最终,这种解决方案会带来更高的复杂性、更重的管理负担以及更高的长期运营成本。带有DFS的集群存储:第三种类型是分布式集群存储,它是超越N向简单集群和命名空间聚合的自然发展。分布式集群存储是一种网络存储系统,它允许用户组合和添加存储节点,所有这些节点皆访问同一个数据池。这些解决方案直接驻留在存储层上,其中文件系统可以完全分布在任意数量的节点/存储控制器。由于软件驻留在存储层上,因此它可以完全控制数据在构成集群的所有存储节点中的布局(数据块级拆分),乃至每个数据块的ECC纠错水平。这与命名空间聚合/虚拟化产品形成了对比,后者只控制特定存储仓库写入哪些数据。智能软件可以使节点对称和分布均衡,从而使集群作为一个统一的智能团队协同工作,同时每个节点可以独立运行,并与其他节点进行通信以传输文件,从而满足用户的需求。集群中的每个节点都是一个连贯的对等体,也就是说每个节点都了解对方的一切信息。由于分布式集群存储的这些特征,与上述任何其他解决方案相比,它的可用性、可靠性、可扩展性、总吞吐量以及易管理性最高。三种集群存储解决方案在数据控制方式上的差异3集群存储的定义定义集群存储解决方案时,我们会发现六个共性:——对称的集群架构——可扩展的分布式文件系统——固有的高可用性——单一管理层——线性性能特征——企业就绪性对称的集群架构:分布式集群存储解决方案背后的关键设计原理是节点之间的对称性,所谓的节点可以是独立的存储控制器磁头、磁盘、CPU、内存和网络连接。集群必须执行的任务在其成员中均匀分配,与采用基于主服务器方法的传统存储架构相比增强了可扩展性、数据访问、性能和可用性,后者的存储节点并不对称,而且可扩展性和性能受到限制。即使在集群中添加更多节点,它仍然有一个逻辑控制中心。不管解决方案中的节点数量是多少,仍然只有一个逻辑系统。

1 / 16
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功