云环境下的容灾建设关键应用业务虚拟化保障2议程虚拟数据中心容灾特点SiteRecoveryManager灾难恢复方案关键应用的虚拟化保障虚拟化平台运维和管理云平台建设3虚拟数据中心容灾特点4传统业务级容灾方案面临的挑战昂贵复杂的恢复方案????????不靠谱的故障转移应用主机存储网络软件主机存储设施无法满足业务需求:•过长的恢复时间•过多的资源开销6虚拟化让容灾变得前所未有的简单灵活的架构•选择任意品牌型号的x86的服务器硬件简单的业务保护•面对的是文件而不是操作系统•精简灾难恢复计划、标准化恢复流程低成本的架构•服务器数量大大减少业务封装服务器整合硬件无关vSpherevSpherevSphere7封装简化了应用的保护与恢复简化恢复•无需重新安装操作系统或裸金属(bare-metal)恢复•无需重新配置硬件标准化恢复流程•独立于应用、操作系统、硬件的标准流程配置硬件安装OS配置OS安装备份代理启动自动恢复恢复VM启动VM物理虚拟40+小时4小时8容灾方案启动的若干场景突然发生的站点故障•例如:地震,火灾等•全站或部分系统故障最关键但是最不常见的情形•站点的故障不会经常发生•一旦发生,需要快速恢复可预测的潜在危险•例如:台风,洪水,强制疏散等启动故障预案,将业务平稳转移•计划内迁移:保证没有数据丢失•自动回迁:保证平稳的恢复系统最常见的用户使用情形•预先规划好的数据中心的维护•全局负载均衡在站点之间的平稳迁移•不中断业务的测试•测试部分故障转移•计划内迁移:保证没有数据丢失•自动回迁:双向的平稳迁移灾难故障转移DisasterFailover灾难回避DisasterAvoidance计划内迁移PlannedMigration9SRM灾难恢复方案SiteRecoveryManager的特点与使用场景10SRM5.1方案的关键组件StorageServersVMwarevSpherevCenterServerSiteRecoveryManagerVirtualMachinesSiteRecoveryManager•管理恢复计划(RecoveryPlans)•自动化故障转移(Failover)与灾后恢复(Failback)•与vCenter以及各种复制技术紧密集成基于存储的复制功能(第三方)•由磁盘阵列供应商提供•由各供应商开发、认证、支持的复制适配器vSphereReplication•vSphere核心代码的一部分•支持跨群集/跨vCenter复制虚拟机可选的复制功能生产与灾备中心同时需要部署以下组件11典型的SRM容灾方案拓扑vSphereReplication简单,低成本的复制功能,适合于非关键应用(Tier2,3)与远程小型站点Storage-basedReplication高性能的复制功能,适合于大型站点中的关键业务应用(Tier1)SiteRecoveryManagervSphereSiteRecoveryManagervSpherevSphereReplicationStorage-basedreplicationSiteA(生产站点)SiteB(灾备站点)vCenterServervCenterServer12vSphereReplication:高性价比的复制方案复制功能集成在vSphere的核心代码复制粒度为VM支持异构存储间的复制异步复制RPO=15min2011年发布SRMRecoveryPlan控制的恢复与容灾演练vSpherevSpherevSphereReplication提供简单&可靠的虚拟机保护13Step2Step3Step4Step5创建恢复方案与迁移方案只需五个简单的步骤五步配置恢复方案…Step1将生产系统的资源映射到备份系统•资源池•虚拟交换机•VM文件夹设定VM保护组配置灾备VM的启动顺序配置灾备VM的IP选择灾备中心允许挂起/关闭的低优先级VM…不需要手工干涉重新配置存储•停止复制•将LUN映射给vSphre•在vCenter注册VM状态重新配置主机重新配置物理网络恢复整个系统,包括操作系统和应用的运行文件添加消息和定制脚本Optional14恢复计划(RecoveryPlan)的测试和执行恢复计划的步骤状体与时间戳何时执行用户确认信息15计划内迁移与灾后恢复计划内迁移(PlannedMigration)站点B站点A复制1关闭生产VM2同步数据,停止复制,映射LUN到灾备端宿主机3恢复状态一致的VMvSpherevSphere灾后恢复(Failback)站点B站点A反转复制关系反转原来的恢复计划vSpherevSphere16SRM通过经常性的容灾演练降低业务恢复的风险由SRM提供保障:满足灾难恢复的一切目标在DR过程中缺乏信心TimeDRTestDRTestTESTINGGAPRecoveryRisk传统的灾难恢复RecoveryRiskDRTestDRTestTimeSiteRecoveryManager经常性的DR测试17SRM支持多种形式的灾难恢复Active-PassiveFailover(一主一备)Active-ActiveFailover(双活)Bi-directionalFailover(双向互备)SharedRecoverySites(多对一容灾)ProductionRecoveryProductionRecoveryProductionProduction•最普通,最传统的方案•成本高且需要专门资源的支持•支持备份系统的资源复用,节省成本•可将其用于测试、开发、培训等非关键业务•两个站点都运行生产系统•两个站点互为备份•多对一的故障保护•适用于小型远程分支机构18适合SiteRecoveryManager方案应用场景避免使用SRM灾备方案的场景:•计划内的跨数据中心的迁移无法容忍业务中断•若提升站点之间负载均衡的优先级十分高✓✗适合使用SRM灾备方案的场景•若业务跨数据中心迁移时可以容忍短暂的停顿•若拥有虚拟机启动优先级、依赖关系等复杂的恢复场景•若容灾演练具有十分高的优先级,e.g.SLA或审计要求反复验证一致的恢复结果•若超过多个站点需要灾备保护•若不希望保护与故障转移的距离受到限制•若灾难恢复时涉及IP地址变化、脚本运行等虚拟机自定义配置19SRM-市场验证“Ifyourorganizationisalreadytakingadvantageofvirtualization,thenaddingSiteRecoveryManagertohandledisasterrecoveryisano-brainer.”―JerryWilkinSeniorSystemsAdministrator,DaytonSuperiorCorp20关键应用的虚拟化保障21大部分用户已经对他们的关键业务实现的虚拟化和OVISource:VMwarecustomersurvey,Jan2010andJune2011Data:Totalnumberofinstancesofthatworkloaddeployedinyourorganizationandthepercentageofthoseinstancesthatarevirtualized42%67%47%34%28%28%ExchangeSharePointSQLOracleMiddlewareOracleDBSAP%OfCustomerWorkloadInstancesRunningonVMware2010201122vSphere5.x能够满足绝大多数的关键业务的需求Storage(IOPS)Network(GB/s)Memory(GB/VM)Compute(CPU/VM)300,000302568100,00096441,000,000361,000327,0000.93.625,0000.521vSphere4ESX3vSphere5ESX2ESX1100%%ofApps0%24虚拟机能够满足绝大多数的oracle数据库负载CPUVM32vCPUOracleDB2–4CPU4%utilizedMemoryVM1TBOracleDB4–8GB50%utilizedDiskI/OVM1,000,000IOPSOracleDB1200IOPSNetworkI/OVM36Gb/sOracleDB2MB/sSource:VMwareCapacityPlanner™analysisof700,000serversincustomerproductionenvironments25对比OracleDB传统部署和虚拟机部署的性能MetricPhysicalMachine/NativeVirtualMachine每秒业务交易吞吐量293K250K磁盘I/O吞吐量(IOPS)71K60KDisk带宽305MB/s258MB/sNetworkpacketratereceiveNetworkpacketratesend12Kb/s19Kb/s10Kb/s17Kb/sNetworkbandwidthreceiveNetworkbandwidthsend25Mb/s66Mb/s21Mb/s56Mb/ssendSource:–vMotionTestingStepsStep1:MigratetheOracleRACnodeVMORARAC2fromESX2(10.1.1.35)toESX4(10.1.1.43)sothatESX2canbetakendownforafirmwareupgradeStep2:AfterthehardwaremaintenanceiscompletedonESX2,moveVMORARAC2fromESX4(10.1.1.43)backtoESX2(10.1.1.35)27CPUUtilizationDuringOracleRACNodeVMvMotion2828Hot-Addcapacity1vCPU2GB4vCPU64GBProvisionadditionalappinstanceinminutesDynamicScalingonvSphereZerodowntimemaintenanceMigratelivedatabasesLittleimpacttousers数据库和应用可动态扩展29Oracle11gR2DBServer–VMwareHotAddvCPU30NIC绑定,多路径容错、高可用资源池动态调配在线业务迁移存储在线迁移容灾恢复组件服务器存储数据站点数据备份恢复、各种第三方软件紧密集成•有效的硬件失效防护•计划内维护“零停机时间”•计划为意外宕机及容灾基础架构可以对应用提供各种级别的可靠性保护31虚拟化平台的运维和管理32分析师观点“过去五年因事件和性能系统产生的警报数量平均每年增长300%[...]由于新IT基础架构的动态特性,今后五年这一增长速度将会大幅度加快。”“虚拟化和云计算的广泛使用给IT产品体系带来了新的波动和动态特性。老式的事件关联和根本原因分析技术以对IT基础架构组件之间拓扑关系的静态结构化了解为基础,完全跟不上这一新动态的发展。”“有效采用新兴IT运营技术的IT运营团队[...]至少可以使IT服务停机时间缩短10%。”“早期IT运营分析可以缩短IT服务停机时间”,DebraCurtis、WillCappelli和JonahKowall,,2012年3月30日发表。仅供内部使用33端到端可视:健康指数,风险指数,效率指数仪表盘健康指数何时、何地问题发生?是否有异常?容量相关的风险哪一个资源将出现问题?资源使用是否优化?能否回收浪费的资源?34问题诊断:分析识别“构造”问题智能分析器检测运行问题简单、可追溯的指数表达整体的性能警告资源偏离“正常”轨道35问题诊断:钻取到发生问题的点关键指标,基于持续地“正常”状态的自学习问题由