赛门铁克SF整体容灾解决方案蒋轶赛门铁克公司容灾-要做成什么样?-容灾级别PresentationIdentifierGoesHere2公司战略组织和人员业务和IT流程应用和数据IT架构和技术基础设施SiteBSiteAFC,FDDI,10/100,ATM,switches,hubs数据级应用级s1s2s3s4sn业务级•政策、法律法规•业务持续管理•危机管理•风险管理•与相关机构的沟通•组织结构•职责和责任•人员的意识和技能•业务应急和恢复流程•IT应急和恢复流程•运维管理•应用系统架构•数据库系统设计•数据安全•数据保存•备份和恢复•IP网络架构•存储区域网络•安全区域划分•系统架构设计•功能区域划分•办公场地•电力系统设计•空调系统设计•消防系统设计•环境监控•物理安全信息系统灾难恢复规范(等级保护)1级-基本支持每周至少做一次完全数据备份制定介质存取、验证和转储的管理制度完整测试和演练的灾难恢复计划2级-备用场地支持3级-电子传输和部分设备支持4级-电子传输及完整设备支持5级-实时数据传输及完整设备支持6级-数据零丢失和远程集群支持预定时间调配数据,通信线路和网络设备备用场地管理制度设备及网络紧急供货协议配置部分数据,通信线路和网络设备每天实现多次的数据电子传输备用场地配置专职的运行管理人员配置所需要的全部数据和通讯线路及网络设备,并处于就绪状态7*24运行;更高的技术支持和运维管理实现远程数据复制技术备用网络也具备自动或集中切换能力实现远程数据实时备份,实现零丢失应用软件可以实现实时无缝切换远程集群系统的实时监控和自动切换能力6级:数据零丢失和远程集群支持5级:实施数据传输以及完整设备支持4级:电子传输以及完整设备支持3级:电子传输和部分设备支持2级:备用场地支持1级:基本支持NetBackup:满足国标1-4级的要求《信息系统灾难恢复规范》GB/T20988-2007(原《重要信息系统灾难恢复指南》)SFHA:满足国标5-6级的要求异地容灾:数据备份是必备数据复制容灾数据生产中心备份备份带库潜在问题:在线复制到容灾中心的数据不能及时验证,存在着数据不一致的风险,导致灾难时不能恢复的风险没有足够的带宽将所有的数据复制到容灾中心备份数据复制(AIR)备份解决方案:建立完善的备份系统容灾,将本地的备份数据远程复制到容灾中心。当在线数据失效时,可以快速从备份数据恢复采用消重技术及快速备份技术,只复制增量的不重复的数据,需要很少的网络带宽自动映像恢复(AIR)技术使得复制的备份数据很简单快速地在容灾中心恢复容灾演练不影响生产NBU5200NBU5200信息系统容灾建设与维护•系统建设阶段–数据传输技术•实效性-RPO)•一致性-立即可用–应用恢复技术•恢复流程-应用恢复的次序•恢复时间–RTO•系统维护阶段–保证容灾系统的可用性•定期演练–配置变更•差异检查传输链路Symantec整体容灾解决方案•Symantec提供成熟的数据传输技术–基于主机的逻辑卷级数据同步•近距离:通过SAN网络进行卷镜像,数据零丢失•远距离:通过IP网络进行数据复制,保证数据一致性•跨异构阵列,不受硬件限制•Symantec提供完整的应用级\业务级容灾解决方案–与本地HA集成的应用灾难恢复和切换流程管理–自动化的容灾演练工具–通过有效的软件工具简化容灾恢复和演练的复杂性,降低成本,提高容灾系统的可靠性,满足业务连续性要求!•只有Symantec提供真正的整体容灾解决方案,帮助客户全面满足RPO,RTO指标,提供全面的容灾演练和系统运维平台。•基于阵列的数据复制或基于应用的数据复制等方案只提供数据传输技术,并不是完整的容灾解决方案!7数据复制技术的实现多种数据复制技术的可行性探讨•对于容灾来说,首先需要实现数据从生产站点到容灾站点的传输•可以从多个层面进行数据传输–应用/数据库层面:以OracleGoldenGate为典型代表–主机层面:以SymantecStorageFundation为典型代表–硬件存储虚拟化:IBMSVC,EMCVplex等–阵列层面:各个阵列厂商在中高端阵列上都提供此功能8基于存储阵列的数据传输技术•各阵列厂商提供基于存储阵列的数据传输技术–如IBM的PPRC,EMC的SRDF–要求生产中心和容灾中心的存储为同一型号–支持在两个存储间以同步或异步方式传输数据•高昂的成本–需要配置两台一模一样的存储,且后期升级将完全被硬件厂商绑定–复制并不免费:基于阵列的复制功能是要单独收费的,且十分昂贵!•并不完整的容灾方案–仅仅是数据复制方案,且维护管理成本巨大–无应用接管方案,无法实现应用级容灾–无灾备系统运维方案9RemoteMirroringSoftwareDiskArrayextendedFCorIPlinksDiskArray基于存储阵列的数据传输技术•存储系统同步复制模式–同步复制模式下,采用串行写入模式,数据写入延迟时间累加,对生产系统的性能影响较大–容灾存储对生产主机不可见,当生产存储故障时,业务将发生中断,必须人工介入切换–切换操作复杂,造成业务中断时间过长,一般RTO4小时(剔除故障存储+备份存储加载+数据库恢复+应用测试+额外--原厂工程师到场时间)•存储系统异步复制模式–远程异步复制模式下,通常需要增加昂贵的SAN-IP转换设备PresentationIdentifierGoesHere10——性能和业务连续性问题(2)RemoteCopyPriamrydiskarrayP-VOLS-VOLRemotediskarrayHost(1)WriteI/O(3)RemoteCopyComplete(4)WriteComplete基于存储设备的数据复制方案的特点优点不占用主机资源带宽利用率较高缺点容灾站点的存储需要和生产中心同构硬件设备选择余地很小可扩展性差成本较高基于虚拟存储技术的容灾方案(硬件虚拟)FCCHIPCHIP主机SANSAN生产中心FCCHIPCHIP主机SANSAN容灾中心数据复制代表产品:HP,SUN,HDS硬件虚拟存储的特点优点不占用主机资源带宽利用率较高可跨越部分异构存储平台缺点成本较高存在单点故障隐患基于数据库的数据容灾方案优点:1.两边数据库均为活动状态;2.距离不受限制;3.可同时进行双向复制;4.带宽要求低;缺点:1.性能较差2.实施相对复杂3.占用系统CPU资源较严重4.只能复制数据库内部的数据基于虚拟存储技术的容灾方案(软件虚拟)•采用软件虚拟存储的容灾技术主要有两种:•逻辑卷镜像•逻辑卷复制生产中心容灾中心赛门铁克StorageFoundationHA/DR——逻辑卷镜像方案心跳SFHA/DR城域集群FCSFHA/DR数据写入数据写入数据写入•业务保障–任意盘阵损坏不影响任何业务–故障后的快速同步•管理性–本地存储管理和容灾管理采用同一套管理技术•硬件选择更加灵活–两边的阵列可以任意型号逻辑卷镜像方案的特点优点可扩展性较好可跨越异构存储平台RPO=0RTO=0(生产中心主机可用时)RTO为分钟级(生产中心不可用,容灾中心有可用主机)维护简易无单点故障隐患缺点占用一定的主机资源两中心距离不能太远,一般不超过100公里生产中心容灾中心赛门铁克StorageFoundationHA/DR——逻辑卷复制方案城域集群数据写入数据写入数据同步/异步复制广域网IP网络•产品功能:–经IP网络在任意存储设备之间进行数据复制,并且距离不受任何限制,以避免数据丢失。•产品优势:–保护投资•支持任意存储间数据复制•对网络无特殊要求–保护数据•完整的保证数据的一致性•全面的数据库支持•提供网络故障下的数据保护SFHA/DRSFHA/DR逻辑卷复制方案的特点优点可扩展性较好可跨越异构存储平台距离不受限制维护简易缺点占用一定的主机资源总结StorageFundation(SF)的数据传输技术•SF提供两种数据传输技术–基于SAN网络的数据卷镜像–基于IP网络的数据卷复制•SF数据传输技术的优势–支持存储异构,客户可自由选择硬件,消除存储厂商的硬件绑定–数据传输既可以通过SAN网络,也可以通过IP网络–可复制任何类型的数据–可靠的业务连续性保障和性能保障–全图形化界面,易于操作和管理2021Symantec应用级容灾技术——只有Symantec提供一体化的容灾切换、演练及运维管理解决方案!园区级集群广域网级集群本地集群远程镜像复制VERITASClusterServer(是SFHA的集群模块)–应用切换与灾难恢复RemoteMirror,SANAttached,FibreReplication,IP,DWDM,Escon•容灾的最终目的是应用灾难恢复•VCS提供多数据中心之间应用关系管理、应用恢复演练和灾难恢复流程自动化管理Replication,IP,DWDM,EsconStorageFoundationVolumeReplicatorVCSHP-UXSFHP-UXSF应用切换管理:一键式应用恢复Replication生产中心容灾中心应用HP-UXSF!一键式容灾切换管理员决策是否切换手工切换vs.“一键式”切换PresentationIdentifierGoesHere24步骤人工操作挂载文件系统更新IP更新DNS外部应用重连启动数据库实例检查系统情况挂载存储转换复制关系服务器恢复时间手工操作切换过程确认故障步骤人工操作外部应用重连确认切换服务器恢复时间“一键式”切换过程确认故障•手工切换–需要复杂的人工操作,需要较长的切换时间=业务长时间中断(1小时以上!)–严重依赖人员的系统熟悉度和技术水平,难以保证切换成功•一键式切换–简单的操作:点击按钮–成熟的商业软件,保证每一步的成功率–通过图形界面直观监控切换过程容灾演练、灾难恢复的复杂性:应用依赖关系25实现业务级容灾清算BusinessGroup人行清算BusInessUnit前置应用Business证券清算BusinessUnit国际清算BusinessUnit行内清算BusinessUnit证券清算BusinessUnit数据库应用Business集群内服务组前置集群内服务组1数据库集群内服务组2数据中心DataCenter清算业务群BusinessGroupOA业务群BusinessGroup核心业务群BusinessGroup以某银行的数据中心为例:有超过80多种应用,而且应用之间存在着相互的依赖关系VCS实现业务级切换管理数据中心整体的恢复流程管理多层高可用性解决方案生产中心容灾中心WebAPPDBMSP1P1P1P1P1P1P1P1P1P1P1P1•业务系统复杂度增加–降低分布式业务应用程序的RTO•容灾切换难度增加–通常都需要手工来起停各个应用–由于涉及多个应用层,对于容灾的维护带来挑战•VCS创新的架构–把应用当成一个整合看待–容灾切换按照定义的逻辑结构进行起停,减少维护工作量容灾系统建设成功失败的分水岭业务连续性规划BusinessContinuityPlanning启动阶段可研/立项分析阶段设计阶段实施开发运行维护灾难切换方案设计系统监控ORP维护更新生产回切业务影响分析风险分析容灾策略开发规划实施部署DRP开发培训/演练系统调查灾难恢复可研/立项系统调查项目成功项目失败容灾监控管理、测试演练的挑战PrimaryDataCenterSecondaryDataCenterSANSAN企业业务不断增长,数据中心应用复杂、变更频繁:•容灾中心的配置变更不能及时测试•意识不到单个系统的改变对整体的影响•制定的策略难以监督•手工演练和灾难恢复复杂解决手段:•DR测试演练•手工审计•最佳实践文档•脚本VERITASClusterServer–容灾测试演练测试与演练是数据一致性验证所必需的步骤VCS提供自动的基于策略的数据一致性验证过程降低操作复杂性不影响生产系统生产中心容灾中心数据快照启动容灾演习快照加载复制应