Author:陈坚Version:V1.0(201404)华为分布式存储技术与应用实践1Content华为分布式存储应用实践技术趋势123华为分布式存储技术原理与优势2IT架构演进趋势传统IT架构NetworkCPUMemoryExternalstorageI/Oacceleration(exclusive)应用整合High-speednetworkCPUI/Oacceleration(exclusive/shared)PhysicalandvirtualresourcepoolmanagementManagementPlatformApplicationdeploymenttemplate系统性能和灵活性不断增强,OPEX不断降低融合架构I/Oacceleration(exclusive/shared)虚拟化架构CPUMemoryI/Oacceleration(exclusive)VirtualizationServerServerServerNetworkExternalstorageCPUMemoryNetworkStorageUnifiedphysicalmachineandvirtualmachinemanagementMemoryStorageServerIT架构演进方向:计算、存储架构融合;资源统一管理;业务按需部署3创新公司不断涌现,传统IT软硬件厂商也纷纷加入计算存储融合阵营一体机解决方案纯软件解决方案数据系统计算、网络、存储、管理深度融合与上下游产品或者其他公司产品配套,形成完整的解决方案软件架构、协议和部件的实现4FusionCube解决方案FusionStorage分布式存储池存储节点PCI-eSSD存储节点PCI-eSSD存储节点PCI-eSSD存储节点PCI-eSSD计算节点CPUCPU计算节点CPUCPU计算节点CPUCPU56GbpsFDRInfiniBand融合架构:计算网络存储融合设计,计算刀片和存储刀片灵活配置,大内存,内置GE/10GE/IB多协议交换板FusionStorage:Scale-Out架构,计算存储深度融合,分布式存储解决集中式机头的瓶颈无阻塞IB交换:高速互联,降低时延,提高带宽,提高数据库多节点横向扩展能力PCI-ESSD:作为主存,提升随机读写IO能力,优化数据读写模型华为解决之道:计算存储融合架构一体机FusionCube5FusionCube:业界领先的计算、存储、交换组件计算节点交换模块CH121计算节点CH221IO扩展型计算节点CH222存储扩展型计算节点CH240计算节点CH223IO扩展型计算节点CX110GE交换模块CX31110GE/FCoE/FC融合交换模块CX610InfinibandQDR/FDR融合交换模块CX31010GE交换模块CX91110GE/FC多平面交换模块CX116GE直通模块CX31710GE直通模块前视图半宽槽位全宽单槽位E9000后视图交换模块电源模块风扇模块管理模块单刀片:未来四代CPU;756G~1.5T内存;15块硬盘;4PCIE标准扩展卡;网络:GE/10GE/IB40G/IB56G交换;15.6Tbps无源背板;存储:无须外置San存储;3~5倍IOPS;单机框64颗cpu6Content华为分布式存储应用实践技术趋势123华为分布式存储技术原理与优势7OLAP过程JoinGroupAvg/Sum由于内存大小限制,需要将Group操作的临时数据写入磁盘,瓶颈在于网络和磁盘IO。读瓶颈数据仓库性能瓶颈在于IO吞吐SwitchFCSwitchSAN服务器/小机传统架构写瓶颈内存限制读写瓶颈时延瓶颈可视化图表星型/雪花型模型全表扫描,瓶颈在于磁盘IO需要从磁盘读取大量的临时数据,,瓶颈在于网络和磁盘IO数据仓库主要的瓶颈是计算和存储节点间的网络IO和主存的磁盘IO!8华为分布式存储FusionStorage主要特点AppAppAppAppAppApp计算网络(10GE)/IB/FOCEFusionStorage分布式存储系统Server2Server3Server1CacheHDDSSDFusionStorage分布式一体化存储主要特点•水平扩展、超大容量:分布式系统,无管理机头瓶颈,容量几乎不受限制•高IOPS:应用大容量分布式Cache技术,提升IOPS•低时延:应用程序通过Cache/SSD直达存储,时延更低•数据重建快:并行重建,重建数据量小•管理简单:结构简单带来管理简单CacheHDDSSDCacheHDDSSD9FusionStorage总体架构Page9SAS/SATAX86CPU硬件设备层存储引擎层MDC状态控制强一致性复制协议存储服务层备份分布式Cache分布式链接克隆存储驱动层SCSI驱动/iSCSIDHT数据分布并行数据重建集群故障自愈分布式快照分布式精简配置容灾IBE9000计算、存储融合刀片式服务器PCI-ESSD卡存储接口层:通过SCSI驱动接口向操作系统、数据库提供卷存储服务层:提供各种存储高级特性,如快照、链接克隆、精简配置、分布式cache、容灾备份等存储引擎层:FusionStorage存储基本功能,包括MDC总控集群、DHT数据路由、分布系统、强一致性复制协议;及在单节点故障时,集群故障自愈与并行数据重建子系统硬件设备层:基于E9000计算、存储融合刀片式服务器,无需外置SAN,支持IB高速交换、PCI-ESSD卡存储管理10资源池2资源池1FusionStorage基本原理-卷映射资源池:类似于SAN的RAID组概念,与RAID相比,其优点是:大容量:最大96块盘,提升超大存储空间,避免高IO应用导致热点瓶颈动态热备:所有硬盘都可用作资源池的热备盘简单结构:资源池、Volume二层结构,没有LUN结构,服务器直接看到Volume…DiskP1P2P3资源池2DiskDiskDiskDiskDiskVolume1Volume2Volume3P1P2P3资源池1Volume10Volume12ServerServerServerP4P5P6资源池1P7P8P9资源池111FusionStorage分布式软件架构Page11基于PAXOS机制的高可靠、大规模存储集群总控MDC集群MDCMDCMDCLeader…无状态分布式机头层,可水平扩展VBSSCSI/iSCSIVBSSCSI/iSCSIVBSSCSI/iSCSI分布式存储引擎,可水平扩展…OSDDisk1OSDDisk2OSDDiskn•全分布式架构,水平扩展:无状态机头层,每个机头可以平滑添加与减少;•无状态分布式存储引擎:可以水平扩展单板、磁盘•计算、存储全融合架构,超高性能:Cache更大,不再受到传统SAN机头限制•高吞吐量,不再有机头瓶颈:IB/10GE/FOCE并发支持,带宽是传统SAN的10倍以上IO路径状态控制路径状态控制路径12FusionStorage基本原理-DHT寻址与水平扩展技术DHT(DistributedHashTable)DHT环:232超大虚拟节点构成的环形空间Partition:将DHT环空间划分为N等份,每一等份是一个分区物理节点:即一个DISK,与Partition分区对应P1P2P3P4P5P6Pn…DHT环物理节点DHT数据逻辑地址数据逻辑地址数据逻辑地址数据逻辑地址…数据逻辑地址Key1Key2Key3Key4…KeynHash分段寻址映射物理空间优点:水平扩展速度快:新物理节点加入时,只需要搬移部分数据(partition),并达到负载均衡数据可靠性高:可灵活配置的分区分配算法,避免2个副本位于同一个Disk、同一块板、同一个机柜Disk1Disk2Diskn13高性能——DHT并行IO读写分布式存储架构(FusionStorage)及基于ETH/IB的点对点互联网络,不再有带宽瓶颈更多硬盘在扁平P2P架构下实现为同一App实例或VM提供并发读写服务,使得突发MBPS提升3-5倍以上;更大资源池,负载均衡,利用率更高VS.RAIDArrayApp1App2App3ApplicationsLUN内共享IOLUN内共享IOLUN内共享IO各节点利用率大资源池集群App1App2App3ApplicationsP2P集群级共享IO各节点利用率传统SAN外置存储FusionStorage分布式存储14•多副本备份:根据安全级别可灵活配置1副本(相当于RAID10)或多副本(3副本情况下,数据可用性达到7个9以上);•NVDIMMCache技术:读写速度快,掉电数据不丢失;•强一致性复制协议:应用程序写入一份数据时,如果成功,后端的一份或多份副本必然一致,再次读时,无论从哪个副本都可读到正确的数据;•数据高可用:可以跨服务器或跨机柜分布数据,不会因某个服务器、或者某个机柜故障导致数据不可访问;FusionStorage分布式一体化存储App1App2App3ApplicationsCacheHDDSSDCacheHDDSSDCacheHDDSSD高可靠——多重数据安全保障机制15高可靠——并行、快速数据重建Disk1P1P2Disk2Disk3Disk6Disk4Disk5Server1Server2Server3P3P4P5P6P7P8P9P10P13P14P15P16P17P18P19P20P21P22P23P24P1’P2’P3’P4’P5’P6’P7’P8’P9’P10’P11’P12’P13’P14’P15’P16’P17’P18’P19’P20’P21’P22’P23’P24’P11P12数据分布可以跨服务器或跨机柜,不会因某个服务器、机柜故障导致数据不可访问数据分片在资源池内打散,硬盘故障后,可在全资源池范围内自动并行重建,仅重建实际数据,无需热备盘;重建1TB数据时间30分钟(传统IPSAN重建1TB数据需要12小时)16高速Infiniband网络互联,计算、存储交换无瓶颈•56GbpsFDRInfiniBand,超高速互联•P2P无阻塞通信网络,数据交换无瓶颈•ns级通信时延,计算存储信息及时传递02000400060008000GE8GFC10GE56GFDRGE8GFC10GE56GFDR单链路速率对比17高性能、低时延—支持全SSD存储Instance1DatabaseInstance2Instancen…•高IO:整柜IOPS达240万•低时延:读时延49us,写时延8us,仅为传统SAS盘的1/100~1/1000•高吞吐:整柜带宽达120GB/sCacheSSDNode1Node2Node3CacheSSDCacheSSDPCIESSDSSDSSDInfiniBand分布式SSD存储系统,主要用于数据仓库一体机场景18Content华为分布式存储应用实践技术趋势123华为分布式存储技术原理与优势19华为FusionCube数据仓库加速解决方案•海量数据非结构化•高并发数据分析处理•CEP流处理内存数据库大数据和MPPDB传统数据仓库•实时商业洞察•性能快100-100,000倍•主数据仓库•关系型结构化数据数据库整合ETL、建模、分析高性能、低成本的基础设施平台,混搭架构,可灵活应对不同应用负载•减少企业数据库实例•DBaaS服务提供•多维建模分析工具•ETL、报表展现OracleSQLServerFusionInsight20FusionCube2.0专为数据仓库负载进行了深度优化,性价比是Exadata的4倍案例:财经数据仓库库外集市:FusionCubeforOracleRAC客户的主数据仓库使用OracleExadata,还承担了数据集市的功能。高并发情况下,存储性能上存在瓶颈,CAPEX和OPEX都很高,而且扩容困难Exadata在多任务时存在资源竞争,导致报表计算能力不足。并发用户数达不到业务要求Exadata扩容成本高实施效果:保护已有的数据仓库投资,支持业务平滑扩容。报表加速:报表