一种云存储方案郑纬民清华大学计算机系提纲•云存储概念•云存储的特征和应用现状•云存储现状•云存储计算挑战•我们的解决方案–分布式文件系统Carrier–分布式文件管理系统Corsair背景云存储专注于向用户提供以互联网为基础,几乎可以无限扩展的高可靠在线存储服务,很好的满足了新兴Web2.0应用的存储需求。用户无需考虑存储容量的大小、数据存储的位置、以及数据的可用性、可靠性和安全性等繁琐的技术细节,用户只需要按需付费就可以从云存储服务提供商那里获得近乎无限大的存储空间和可靠的服务质量,从而完全专注于自身应用与业务的发展。云存储的基本特征和应用领域基本特征•分布于网络(互联网或局域网、公有云和私有云)•易于扩展•易于管理应用范围•大规模数据处理:MapReduce•数据共享与分发:GigaVoxMedia、Jamglue、SmugMug、……•数据归档与备份:37signals、Altexa、BeInSync、Sonian、Zmanda已有的商业应用:•AmazonS3、MicrosoftLiveSkyDrive、EMCAtmos、……云计算工业界发展现状5GoogleCloudGoogleFileSystemBigTableGoogleAppEngineMapReduceAmazonCloudS3(SimpleStorageService)SimpleDBServiceEC2(ElasticComputeCloud)SimpleQueueServiceMircoSoftAzureLiveServicesSQLServices.NETServicesSharePointServicesDynamicsCRMServicesIBMBuleCloudHadoopDB2Xen&PowerVMWebSphereTivoliSoftware存储数据库虚拟化并行计算设计云存储系统面临的技术挑战效率并发性可靠性可管理性可扩展性6数据中心数据中心我们的解决方案(1)存储:分布式文件系统Carrier(2)共享:虚拟文件管理系统Corsair7数据中心数据中心云计算平台分布式文件系统Carrier(存储)云存储平台GUI(Corsair)fuseAPIWeb流媒体搜索引擎……容灾业务分布式文件系统Carrier8Carrier分布式文件系统9CarrierFolderCloudStorageAppsCorsairEntertainmentPersonalAppsCarrier功能将地理位置分布且异构的存储节点虚拟化为一个集中的存储系统,存储节点可以热插拔。文件被组织成一个传统的目录树,文件被按32M大小进行分块存储。系统自动保证负载均衡、故障恢复、副本恢复和垃圾回收。提供RPC、API和Shell访问接口。对于用户的读写操作实现自动负载均衡。10MetaSeverChunkServerChunkServerChunkServerDir0Dir1File1File2S1BatchSlicesTranferBatchSlicesTranferMetadatarequest/responeS2S12S22SnS2nS1mS2mSnm…………………S1S2ClientappsNamespaceChunkSetBulkofSlicesClientappsSliceCarrier架构松耦合的体系结构多个元数据服务器MetadataServer多个块数据服务器DataServer多个Supervisor负责系统监控与故障恢复、副本管理、垃圾回收等事务特色:支持多样化的文件负载(大文件、小文件都支持)、高可扩展和容错接口:RPC、Shell、API11ClientsMetadataServersDataServersSupervisorsC1C2C3C4分布式数据库Mnesia与相关系统比较GoogleFileSystem,S3不开源Hadoop为MapReduce计算量身定做,适合并行处理,不适合数据共享不适合处理多样化负载,譬如大量的小文件功能和性能不够完善:访问权限控制读写锁小文件操作异常并发操作自主拥有--性能分析、比较和优化12虚拟文件管理系统Corsair13Corsair功能统一视图集成本地资源和网络资源的统一文件管理视图数据传输并行文件传输、断点续传、三方传输、流量控制资源检索提供对Corsair存储空间的资源搜索功能为个人用户提供私人存储服务为社区用户提供共享存储服务为全部用户提供公共存储服务Corsair系统架构分布式异构存储资源层适配层FTP接口Carrier接口……虚拟目录服务书签管理服务搜索服务用户管理服务数据传输服务社区管理服务服务层应用层GUIShellAPIWebPortalext2@node1ext3@node3ntfs@node2zetta@node5nfs@node416Corsair的特性快速共享简单的申请操作和审批就可以拥有100GB的社区空间移动U盘简单的申请操作就可以拥有2GB的个人空间“硬盘扩容”每个用户都可以拥有40TB的网络共享资源用户响应速度和数据传输速度快(清华校内5MBps)简单易用开源网络硬盘挂载FTP服务器挂载Corsair的三个版本单机版()服务于中小企业校园版()服务于高校师生网格版()服务于网格用户Corsair支持操作系统WindowsLinuxMac版本开发中Corsair的传输性能19Corsair在清华校内的实际部署及使用情况部署情况:70TBytes的总存储空间,三个数据中心使用情况:2008年12月1日正式发布至2009年5月1日止下载次数15744注册用户5002注册社区126数据总量40TB日流量1.3TB使用频率(人次/日)2552注册用户增长趋势