华为HyperMetroSAN与NAS一体化双活解决方案2目录业界存储双活技术概览业务连续性挑战华为一体化双活解决方案1234典型业务连续性需求解析成功故事53IT系统业务连续的重要性火灾设备故障停电病毒爆发媒体医疗零售业制造业电信能源金融200280648160110639单位:万美元来源:NetworkComputing,theMetaGroupandContingencyPlanningResearch每小时停机损失4业务连续性容灾系统建设的必要性区域性灾难每年的发生频率单次发生的损失电源故障高低低高自然灾害磁盘故障组件故障应用中断数据损坏网络问题设备故障数据中心故障建筑火灾空调故障统计显示:•97%的局部故障会导致企业对外业务运行中断;•3%的全局故障引起企业数据丢失,可能导致企业消亡;如何有效应对故障和灾难对业务连续性带来的挑战?---建设容灾系统恐怖袭击/战争5IT系统建设双活容灾势在必行1234567容灾等级单数据中心主备数据中心站点A站点B双活数据中心站点A站点B•数据丢失,不可挽回•经济损失,名誉损失•无冗余网络,恢复能力弱方案不足•IT、网络资源利用率低,TCO高•手动切换,网络、业务中断时间长•组件多,故障恢复过程复杂,运维成本高•故障发生时,备份网络、数据是否可用?方案不足•数据、业务、网络连续性•双中心资源利用率高•业务、网络访问负载分担•端到端实时可用,自动容灾切换方案优势FusionSphereFusionSphereFusionSphere6业界存储双活技术概览业务连续性挑战华为一体化双活解决方案1234典型业务连续性需求解析成功故事5目录7医院业务:结构化与非结构化数据并存病人基本信息挂号分诊、急诊护理ICU探视执行医嘱医生取药下医嘱门诊结束缴费出院医生查房手术/示教入院化验输出结果检查医生HISPACSLIS数据库文件系统SANNASHIS:HospitalInformationSystem(医院信息系统)PACS:PictureArchivingandCommunicationSystems(影像归档与通信系统)LIS:LaboratoryInformationManagementSystem(实验室信息系统)8医院业务连续性需求:7x24在线医生需求:实时访问•病人病历、住院信息、检查结果随时录入与查询应用需求:A-A集群•数据库与文件业务提供实时在线访问存储需求:双活容灾•SAN与NAS提供数据双活容灾,支撑实时访问LUN结构化数据FileSystem非结构化数据数据库集群应用程序(中间件)负载均衡HA站点A站点B客户端SAN双活NAS双活个人信息(姓名,年龄,身份证号,卡号….)图片信息(索引)(胸片,CT,B超图片….)XXX的数据9公安警综业务连续性需求:7x24在线警员需求:实时访问•案件信息、电子卷宗随时录入与查询应用需求:A-A集群•数据库与文件业务提供实时在线访问存储需求:双活容灾•SAN与NAS提供数据双活容灾,支撑多部门实时访问LUN结构化数据FileSystem非结构化数据数据库集群应用程序(中间件)负载均衡HA站点A站点B客户端SAN双活NAS双活个人信息(姓名,年龄,身份证号,卡号….)图片信息(卷宗、笔录扫描件、录音与.)XXX的数据10业界存储双活技术概览业务连续性挑战华为一体化双活解决方案1234典型业务连续性需求解析成功故事5目录11业界双活数据中心框架介绍计算层数据中心A数据中心B存储层双活访问、数据零丢失虚拟化跨DC高可用、负载均衡、迁移调度高可靠、优化的二层互联最优的访问路径≤100km裸光纤FusionSphereFusionSphere网络层冗余可靠性保护、最小传输时延应用层传输层计算层网络层传输应用层OracleDatabase以及Weblogic、apache等应用存储层12业界存储层双活技术演进SAN双活NAS双活SAN与NAS一体化双活阵列AA双活阵列AP双活阵列转发双活网关AA双活阵列AP双活网关AP双活13业界存储层双活方案解析•IBMSVC•EMCVPLEX特点:网关/数据级镜像/紧耦合控制器控制器网关网关控制器控制器控制器控制器•NetAppMetroCluster(SAN+NAS)•IBMHyperSwap特点:非网关/数据级镜像/紧耦合•HDSGAD•EMCVMAX3•HPEPeerPersistence•DELLLiveVolume特点:非网关/设备级隔离/松耦合•HuaweiHyperMetro(SAN+NAS)特点:非网关/设备级隔离/松耦合/一体化•HDSGAD+HNAS特点:非网关SAN+NAS网关/设备级隔离/松耦合控制器控制器控制器控制器NAS网关NAS网关14目录业界存储双活技术概览业务连续性挑战华为一体化双活解决方案1234行业典型业务连续性需求解析成功故事515华为SAN与NAS一体化双活解决方案一体化定义实现原理创新设计一台设备免网关,一台设备同时支持部署文件和数据库双活服务一套仲裁SAN与NAS共用一套仲裁,确保链路故障时同一站点提供服务,保障数据一致一种网络站点间心跳、配置、数据物理链路合一,一种网络即可满足SAN与NAS传输站点A生产存储数据实时镜像双写心跳、配置仲裁站点B生产存储SANIPIP主机应用集群(共享卷挂载双活文件系统)……FC/IPIP&FC阵列与主机间存储网络NASNASSANIP&FCSAN16一体化双活:一台设备一体化定义实现原理创新设计BlockServiceStoragePOOLFileServiceRAID2.0+iSCSI/FC/FCOENFS/CIFS/FTP/HTTPSAN与NAS并行架构图免网关块和文件一体,无需额外购买NAS网关,购置成本降低15%并行架构SAN与NAS并行访问,为不同业务提供最优访问路径,访问性能最优RAID2.0+数据快速恢复,速度相对传统技术提升20倍,多盘失效风险降低95%17一体化双活:一套仲裁存储阵列A存储阵列B仲裁部署存储资源池仲裁盘1仲裁设备双活SAN服务双活NAS服务统一管理一套仲裁统一管理SAN与NAS双活,任何故障场景实现相同站点提供服务,并支持在物理服务器/虚拟机/公有云上部署双重模式支持静态优先与第三方在仲裁模式,最大限度保障方案高可用业务粒度按业务粒度仲裁,业务均衡分布,站点间链路故障时就近访问一体化定义实现原理创新设计18一体化双活:一种网络一体化定义实现原理创新设计链路复用站点间心跳、配置、复制链路IP或FC,,一种网络即可满足SAN与NAS数据传输需求单一网络支持业务网络、站点间网络、仲裁网络全IP部署,组网简单高效传输按优先级排序,依次为:心跳配置双活&同步复制异步复制仲裁服务器IP/FCIP/FCFC/IPOceanStorV3OceanStorV3IP站点A站点BIP主机应用集群19一体化双活写请求流程(LUN)•主机下发写I/O到双活管理模块。•系统记录LOG。•执行双写:双活管理模块同时将该写I/O写入本端Cache和远端Cache。•本端Cache和远端Cache向双活管理模块返回写I/O结果。•双写结果处理:等待两端Cache的写处理结果都返回,才向主机返回写I/O结果。•判断双写是否成功。–如果都写成功:清除LOG。–如果有一端失败:LOG转换成DCL,记录本端LUN和远端LUN的差异数据。数据写实时镜像一体化定义实现原理创新设计RemotecacheLocalcacheRemotestoragearrayLocalstoragearraySame-citynetworkbetweendatacentersDWDMHostStorage①④③⑤③④LocalLUNRemoteLUN⑥LOGDCL②⑥HyperMetromana-gementmodule20一体化双活写请求流程(FS)一体化定义实现原理创新设计•主机下发写请求到active租户的文件系统。•文件系统将写请求写到HyperMetro管理模块。•本端存储系统记录写请求的LOG信息。•执行双写:HyperMetro管理模块同时将该写请求写入两套存储Cache。•两端Cache向HyperMetro管理模块返回写请求结果。•HyperMetro管理模块返回写请求结果到文件系统。•存储系统将写I/O结果返回给主机。•判断双写是否成功。›如果两端都写成功:清除LOG。›如果有任意一端写失败:LOG转换成DCL,记录差异。数据写实时镜像HostclusterPrimaryFileSystemSecondaryFileSystemSecondaryCachePrimaryCacheRemotestoragearrayLocalstoragearrayRemotestoragearraySame-citynetworkbetweendatacentersIP/FCHostStorageHyperMetromana-gementmodule①②⑤④⑥⑦④⑤DiskDisk⑧LOGDCL③21一体化双活数据一致性保障双活成员双活成员跨站点双活AA集群主机主机阵列A阵列B应用集群站点A站点B存储层数据一致性保障一体化定义实现原理创新设计双活分布式锁互斥I/O双写确保数据一致•系统正常情况下,任意应用IO数据下发,都要同时写到两台阵列才返回主机,确保两台阵列数据实时一致;单存储不可用时,记录数据差异•其中一台存储不可用时,仅写正常存储,同时数据变化记录到DCL(DataChangeLog)空间,待阵列修复好后,通过DCL记录的信息,将数据增量写入存储;分布式锁机制(DLM)•通过分布式锁机制,确保主机对同一存储地址的数据访问时,由其中一台写入,确保数据一致性。22一体化双活典型故障场景处理单点故障场景处理结果故障场景:仲裁服务器故障处理结果:自动进入静态优先模式,业务无影响故障场景:S1故障处理结果:S2接管所有业务,继续提供服务故障场景:S2故障处理结果:S1接管所有业务,继续提供服务故障场景:阵列间链路中断处理结果:S2失效,S1继续提供服务,同时记录差异,待恢复后增量同步配置、数据。故障场景:S1所在阵列与仲裁服务器的链路中断处理结果:业务无影响故障场景:S2所在阵列与仲裁服务器的链路中断处理结果:业务无影响组合故障场景处理结果故障场景:S1与QS、S2与QS链路同时或先后中断处理结果:自动进入静态优先模式,业务无影响故障场景:阵列间、S2与QS间链路同时或先后中断处理结果:S2失效,S1继续提供服务,业务无影响故障场景:S1故障,S2仲裁获胜后,中断S2与QS间链路处理结果:S2继续提供服务,业务无影响故障场景:QS故障后、S2再故障处理结果:QS故障后,S1继续提供服务,并自动进入静态优先模式;S2再故障,S1继续提供服务故障场景:QS故障后,S1再发生整体故障处理结果:QS故障后,S1继续提供服务,并自动进入静态优先模式;S1再故障,S2失效,业务中断故障场景:QS故障后,阵列间链路再中断处理结果:QS故障后,S1继续提供服务,并自动进入静态优先模式;阵列间链路再故障,S1提供服务注:QS为仲裁服务器,S1为优先仲裁方QSS1S2QSS1S2QSS1S2QSS1S2QSS1S2QSS1S2一体化定义实现原理创新设计QSS1S2S1QSS2S1QSS2S1QSS2S1QSS2S1S2QS23一体化双活非典型故障恢复故障场景处理结果故障场景:本地机房部署时,机房突然掉电恢复过程:上电后,自动恢复双活,如果此时仲裁服务器未上电则阵列进入静态优先模式,仲裁服务器上电恢复后,阵列自动切换为仲裁服务器模式。故障场景:S1和仲裁服务器同时掉电处理结果:上电后,自动恢复双活,如果此时仲裁服务器未上电则阵列为静态优先仲裁模式,仲裁服务器上电恢复后,阵列自动切换为仲裁服务器模式。故障场景:S1和S2同时故障处理结果:上电后,自动恢复双活故障场景:仲裁服务器和阵列间链路同时中断处理结果:恢复阵列间链路后,强制启动S1或者S2,手动触发一次双活同