云存储架构的发展杨钢2013/11/25内容体验•存储技术发展简史•金山云存储的技术路线•简单的存储系统架构讨论•主要开源方案简介•部分新技术点的简介存储技术发展简史主要阶段•存储设备–DAS/SAN/NAS–控制器架构•存储集群控制器架构的基本原理•硬盘级别数据冗余–RAID5/6和LUN–RS码–纠错–热备盘•条带化RAID•RAID6–N+2容错–控制器实现复杂,效率降低,较少使用云存储集群的基本原理•多台服务器集群•物理设备级别冗余•内网修复金山云存储技术路线需求•按部署模型区分–公有云存储–私有云存储–混合云存储•按使用场景区分–高性能计算–虚拟机平台(云主机/VDI/etc)–Key-Value对象存储(网盘/Hadoop/etc)–冷数据(备份/视频监控/etc)–其他需求•按分布模型分–集中式–异地容灾式–有主控分布式–对等分布式需求维度•功能•性能•可靠性•价格发展历程•2008年存储实验室•2009年WPS在线办公空间•2010年金山快盘•2011年小米Cloud•2012年金山云技术路线规划•开源软件•部分定制•完全自主开发简单存储架构讨论存储集群的基础架构•API•[Scheduler/调度器]•Namenode/元数据节点•Datanode/存储节点存储集群的基础架构调度与元数据•静态Hash•一致性Hash•弹性Hash[一致性Hash]错误检测和修复•R+WN•Logging•Fixonreading数据块组织•大文件–条带化•小文件–块组织快速元数据管理快速元数据管理多机房•主控式•对等式异步备份•独立设备/物理位置独立•兼顾写入效率和带宽现状•具有较好的独立容错性•原子版本功能•适合对数据保全要求高的领域开源方案简介较多使用的开源方案•HDFS–数据分析场景:HadoopMapReduce/HIVE–适用于大文件流式追加和读取–非通用接口•Lustre•GlusterFS–使用NFS/CIFS代理提供通用服务–使用Hash而不是元数据服务–效率问题,大规模应用案例缺失•Ceph•FUSE•ZFS各存储方案基本原理HDFS各存储方案基本原理GlusterFS各存储方案基本原理Ceph部分新技术点简介镜像模式VSErasureCode•镜像模式优势–速度快,不论写入和恢复–结构简单,易实现和维护•EC–较少冗余Erasurecode•Vandermonde-RSandCauchy-RS•常用开源库–Jerasure基于EC的存储系统基础设计•输入效率•ECCodec(Encoder/Decoder)谢谢