云计算环境下的分布存储关键技术

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

软件学报ISSN1000-9825,CODENRUXUEWJournalofSoftware,2012,23(4):962986[doi:10.3724/SP.J.1001.2012.04175]©中国科学院软件研究所版权所有.E-mail:jos@iscas.ac.cn:+86-10-62562563云计算环境下的分布存储关键技术王意洁,孙伟东+,周松,裴晓强,李小勇(国防科学技术大学计算机学院并行与分布处理国家重点实验室,湖南长沙410073)KeyTechnologiesofDistributedStorageforCloudComputingWANGYi-Jie,SUNWei-Dong+,ZHOUSong,PEIXiao-Qiang,LIXiao-Yong(NationalKeyLaboratoryofParallelandDistributedProcessing,CollegeofComputer,NationalUniversityofDefenseTechnology,Changsha410073,China)+Correspondingauthor:E-mail:wd.sun@qq.comWangYJ,SunWD,ZhouS,PeiXQ,LiXY.Keytechnologiesofdistributedstorageforcloudcomputing.JournalofSoftware,2012,23(4):962986.:Consideredasthenextgenerationcomputingmodel,cloudcomputingplaysanimportantroleinscientificandcommercialcomputingareaanddrawsgreatattentionfrombothacademiaandindustryfields.Undercloudcomputingenvironment,datacenterconsistofalargeamountofcomputers,usuallyuptomillions,andstorespetabyteevenexabyteofdata,whichmayeasilyleadtothefailureofthecomputersordata.Thelargeamountofcomputerscompositionnotonlyleadstogreatchallengestothescalabilityofthedatacenteranditsstoragesystem,butalsoresultsinhighhardwareinfrastructurecostandpowercost.Therefore,fault-tolerance,scalability,andpowerconsumptionofthedistributedstorageforadatacenterbecomeskeypartinthetechnologyofcloudcomputing,inordertoensurethedataavailabilityandreliability.Inthispaper,asurveyismadeonthestateofartofthekeytechnologiesincloudcomputinginthefollowingaspects:Designofdatacenternetwork,organizationandarrangementofdata,strategiestoimprovefault-tolerance,methodstosavestoragespace,andenergy.Firstly,manykindsofclassicaltopologiesofdatacenternetworkareintroducedandcompared.Secondly,kindsofcurrentfault-tolerantstoragetechniquesarediscussed,anddatareplicationanderasurecodestrategiesareespeciallycompared.Thirdly,themaincurrentenergysavingtechnologyisaddressedandanalyzed.Finally,challengesindistributedstoragearereviewedaswellasfutureresearchtrendsarepredicted.Keywords:cloudcomputing;datacenter;distributedstorage;fault-tolerance;datacenternetwork;replication;erasurecode;energysaving摘要:云计算作为下一代计算模式,在科学计算和商业计算领域均发挥着重要作用,受到当前学术界和企业界的广泛关注.云计算环境下的分布存储主要研究数据在数据中心上的组织和管理,作为云计算环境的核心基础设施,数据中心通常由百万级以上节点组成,存储其上的数据规模往往达到PB级甚至EB级,导致数据失效成为一种常态基金项目:国家重点基础研究发展计划(973)(2011CB302601);国家自然科学基金(60873215);湖南省自然科学杰出青年基金(S2010J5050);高等学校博士学科点专项科研基金(200899980003)收稿时间:2011-05-24;修改时间:2011-08-31;定稿时间:2011-12-31;jos在线出版时间:2012-02-06CNKI网络优先出版:2012-02-0617:04,王意洁等:云计算环境下的分布存储关键技术963行为,极大地限制了云计算的应用和推广,增加了云计算的成本.因此,提高可扩展性和容错性、降低成本,成为云计算环境下分布存储研究的若干关键技术.针对如何提高存储的可扩展性、容错性以及降低存储的能耗等目标,从数据中心网络的设计、数据的存储组织方式等方面对当前分布存储的关键技术进行了综述.首先,介绍并对比了当前典型的数据中心网络结构的优缺点;其次,介绍并对比了当前常用的两种分布存储容错技术,即基于复制的容错技术和基于纠删码的容错技术;第三,介绍了当前典型的分布存储节能技术,并分析了各项技术的优缺点;最后指出了当前技术面临的主要挑战和下一步研究的方向.关键词:云计算;数据中心;分布存储;容错;数据中心网络;复制;纠删码;节能中图法分类号:TP316文献标识码:A信息技术的发展极大地促进了社会和科学的发展与进步,同时,各行各业不断推进的信息化又给信息技术带来了巨大的挑战,推动着信息技术不断向前发展.随着科学、商业和日常生活中信息化程度的不断加深,产生的数据量越来越庞大,在高能物理、生物学、天文学、气候建模、气象预报和地震预测等科学计算领域以及Web搜索和社会网络等商业计算领域中尤为突出.云计算是随着计算、存储以及通信技术的快速发展而出现的一种崭新的共享基础资源的商业计算模型,被誉为“革命性的计算模型”(张亚勤,未来计算在“云-端”,).云计算不同于传统的以个人计算机为中心的本地计算,它以互联网为中心,通过构建一个或多个由大量(百万级以上)普通机器和网络设备连接构成的数据中心,把海量的数据存储到数据中心上,向上层的服务和应用提供安全、可靠、快速、便捷、透明的数据存储和计算服务.数据中心是云计算的基础,企业依靠数据中心进行业务操作,服务提供商依靠数据中心提供服务而盈利,内容提供商依靠数据中心提供有用的内容并获得利润.云计算环境下的分布存储技术主要研究数据在数据中心上的存储、组织和管理,并向上层应用提供安全的、可靠的、可扩展的、高效的数据存储服务;为了提供更好的数据存储服务,还需要关注数据中心网络的构建;为了推广应用,还需要关注硬件基础设施与设备运行的能耗问题.1引言随着信息技术的发展,在科学计算、商业计算等众多应用领域中产生了规模巨大的数据,而且数据量仍在快速增加,呈海量形式发展.在科学计算方面,如高能物理()、天文学()、生物学[1]、地球科学()等领域都产生了规模庞大的数据,据估计,每年的数据规模达到若干PB[2].在商业计算方面,Web搜索、社会网络等需要处理的数据规模也非常庞大,例如,Google和Facebook等应用产生的数据达到了PB甚至EB级.按照摩尔定律,处理器的速度每18个月就会翻一番,光纤技术的发展也使得数据在网络上的传输速度大大加快.但是,数据存取受限于存储介质的机械运动,使得数据存取成为制约信息技术发展的主要瓶颈.在云计算环境下,海量数据集中存储在若干数据中心上,数据的规模扩大,也使得数据存取的瓶颈更加严重.为了提高数据存取的速度,海量数据一般被分布存储到数据中心不同的节点上以支持并行存取.在云计算环境下,海量数据存储的组织和管理在可扩展性、容错性以及成本控制方面表现出了更高的需求.云计算是一个为用户提供可配置的、共享基础资源的计算模型,它使得用户能够在云服务提供商很少参与的情况下,方便、实时地访问网络、存储、计算等资源[3].云计算提供商通过把大量的节点和网络设备连接在一起,构建一个或若干个大规模的数据中心,然后以数据中心为基础向用户提供各种层次的服务,例如基础设施服务、平台服务、存储服务和软件服务等[4].云计算具有超大规模、高可扩展性、高可靠性、虚拟化、按需服务和价格低廉等特点,能够很好地满足海量数据存储的要求.在云计算环境下,海量数据被存储到同一个数据中心的不同节点上,甚至不同数据中心的节点上,但是数据的位置和组织方式对用户是透明的,用户只需要通过服务商提供的一套简便的使用接口(如数据访问接口)向数964JournalofSoftware软件学报Vol.23,No.4,April2012据中心存取数据即可.数据的存储、组织、管理以及可靠性、可用性保证均由云提供商负责.云计算使得用户不必构建自己的数据中心,降低了用户的成本.他们只需要根据自身需求支付一定的费用,就能够方便地把数据存储到数据中心上.在处理时向数据中心提交任务,最后获得结果.虽然云计算被誉为一个“革命性的计算模型”,但是它和传统的P2P计算、网格计算是一脉相承的.P2P强调把分散在互联网上的各种资源组织起来提供服务,但是受限于网络因素,性能较低,而且节点的高度动态性降低了数据的可用性;网格技术强调的是分布在不同位置的各个组织和团队之间的资源共享.与P2P技术相比,云计算环境下数据中心内部和数据中心之间的网络状况更好,节点也更加稳定;与网格计算相比,云计算的规模更加庞大[5].云计算环境虽然构建成本和管理成本较高,但是用户只需要按需付费,成本较低,服务提供商则保证了数据的可靠性、可用性.对用户而言,极大地降低了海量数据管理带来的负担.分布存储技术是云计算的基础,主要研究如何存储、组织和管理数据中心上的大规模海量数据.由于面临的数据规模和用户规模更加庞大,在可扩展性、容错性以及成本控制方面面临着更加严峻的挑战.可扩展性传统的提高可扩展性的方法一般通过冗余的磁盘预留的方式实现,这种方法可以在一定程度上保证有足够的存储空间.但是,

1 / 6
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功