©2013SRCInc.保留所有权利保密资料武汉兴和商业网络有限公司郑昌杰15972175834zhengchangjie@whsrc.comHA与FT第一部分:配置和管理HA第二部分:配置和管理FT管理和配置HAHA的介绍高可用性(HA)集群是群集的一种,平日较常见的为MSCS(微软群集服务),如SQL的故障转移群集高可用性群集,一般有两个或两个以上的节点,且分为活动节点及备用节点。通常把正在执行业务的称为活动节点,而作为活动节点的一个备份的则称为备用节点。当活动节点出现问题,导致正在运行的业务(任务)不能正常运行时,备用节点此时就会侦测到,并立即接续活动节点来执行业务。从而实现业务的不中断或短暂中断(对客户端来说,基本上感觉不到故障的存在)高可用性群集的实现是基于资源切换来进行的。这些资源包括节点的IP地址、主机名(NetBios名称)、磁盘卷、应用程序等。而资源的监控和接续,是依靠HA软件来实现的如MSCS等,这些软件用来通过心跳信号监控群集中对方节点的运行状态,一旦发现对方存在了故障,就会强制将所有的资源据为已有并继续对外提供服务。而VMwareHA也是高可用性的一种应用。VMwareHA与传统的群集和高可用性解决方案都支持主机发生故障时的自动恢复。它们是互为补充的,但是在软硬件要求、恢复时间及应用程序和操作系统的识别程度等方面有所不同可以实现HA高可用性的层面:1、应用层oracle数据库的集群环境2、操作系统层面微软的故障群集转移3、虚拟层面HA和FT4、物理层面存储Vsphere5与vsphere4.0的区别:新增FDM(FaultDomainManager)技术,在用户体验上,配置没有大的区别,只是在功能上有所改变Vsphere5主要用的是master与slave架构Vsphere4采用的是primary和secondary架构FDM特性FDM可以同时使用管理网络以及存储设备进行通讯FDM支持IPV6FDM主要用于解决两种网络问题(网络分割和网络隔离)Master作用:1、监控所有的slave主机,当slave主机出现故障时就会重启slave主机里面的虚拟机2、监控所有受保护的虚拟机电源状态,如果受保护的虚拟机出现故障,它会重启这台虚拟机3、master管理cluster内部主机清单,并且对添加和删除的cluster内部主机进行管理4、master管理受保护的虚拟机清单,在每一次用户发起开机操作时更新这个清单,vcenter会要求master保护或不保护某些虚拟机5、Master缓存cluster配置,通知和提醒slave主机,cluster配置的修改6、master发送心跳信息给slave主机,让slave主机知道自己的存在7、master报告状态信息给vcenter,vcenter正常情况下只会和master通讯Slave作用:1、监视本地运行的虚拟机状态,把这些虚拟机显著状态发给msaster主机2、slave监视master主机的健康状态,如果master主机出现故障,slave主机将会参与master的选举3、slave运行HA特性,这些特性不需要master协调VsphereHA对VM的保护过程:当一个slave已经检测到自己是网络隔离状态,它会生成一个特殊二进制文件host-X-poweron文件在heartbeatdatastores上.master看到这个标志,它就知道了slave已经是isolation状态,然后master通过vSphereHA锁定其他文件(datastores上的其他文件).当slave主机看到这些文件已经被锁定,它知道master正在执行重启VMs的响应.然后slave才可以执行配置过的隔离响应动作.(如关机或者关闭电源)激活HA需要满足的条件:1、能够访问相同的共享存储2、相同的虚拟网络配置,最好是同一个分布式交换机的成员VMwareHA的工作原理和功能工作原理是什么VMwareHA不间断地监控群集中所有的ESXServer主机,并检测故障。放置在每台主机上的代理程序不断向群集中的其他主机发出心跳信号,心跳信号的终止将启动所有受影响的虚拟机在其他主机上的重启过程。HA时刻监控群集中是否有足够的资源可用,以便在主机发生故障时能够在其他物理主机上重启虚拟机。利用ESXServer存储堆栈中的锁定技术,可以使虚拟机的安全重启成为可能,它允许多个ESXServer同时访问同一虚拟机文件未来色转换,从设备管理到服务提供,实现IT部门在生产、运营、管理各环节的价值提升今天利用改造或新增项目机会,搭建服务器虚VMwareHA的功能云平台,积累经验昨天解决老旧服务器、存储设备更新换代,旧系统数据迁移问题。消除安全运行潜在风险明天以虚拟机方式,为新增应用提供服务器快速布署,不增加硬件投入当ESXServer主机发生硬件故障时,将为故障切换容量范围内所有正在运行的虚拟机提供自动故障切换(请参见下面的指定故障切换容量)。可以在无需任何人员干预的情况下自动检测服务器故障和重启虚拟机VMwareHA利用DRS在故障切换后提供动态的、智能的资源分配和虚拟机优化。主机发生故障并且虚拟机已在其他主机上重启后,DRS可以提供进一步的迁移建议,或者迁移虚拟机以获得更优化的主机放置和平衡的资源分配。VMwareHA支持易于使用的配置和使用VirtualCenter进行监控。HA确保该容量总是可用的(在指定的故障切换容量限制内),以便重启所有受服务器故障影响的虚拟机(基于为虚拟机配置的资源预留)不间断地监控容量利用率,并预留备用容量以便能够重启虚拟机。当未发生故障时,虚拟机可以完全利用备用故障切换容量HA的配置步骤激活主机监控:默认情况下此选项勾选了,不勾选则会禁用hostMonitoring就不会发送任何心跳信息,仅仅只是在网络维护时禁用此选项,阻止不必要的networkisolation和networkpartition响应,此时HA很难正常工作准入控制:1.Enable:DisallowVMpower-onoperationsthatviolateavailabilityconstraints(当违反可用性约束条件时,禁止虚拟机的开机操作)2.Disable:AllowVMpower-onoperationsthatviolateavailabilityconstraints(当违反可用性约束条件时,允许虚拟机的开机操作)第一选项:是使用下面列表选择的datastores用做heartbeatdatastores,但是如果任意一个选择的heartbeatdatastore不可用(不管任何原因),vSphereHA将不在执行heartbeat功能第二选项:是使用所有的datastores做heartbeatdatastores.第三选项:是使用下面列表选择的datastores用做heartbeatdatastores,但是如果任意一个heartbeatdatastore不可用(不管任何原因),vSphereHA还是会通过其他可用的heartbeatdatastores继续执行heartbeat功能,直到所有的heartbeatdatastores都不可用.第二部分:管理和配置FTFT的介绍FT的级别要求:集群级别的要求1、FT要相同的版本(一般来说esxi的版本相同,FT就相同)2、必须激活HA3、如果需要FT和DRS联合工作,必须启用EVC主机级别的要求4、访问相同的共享存储和网络5、需要一个传输FT日志的网络连接6、有兼容FT的CPU7、支持FT的授权8、在Bios上启用硬件虚拟化HA虚拟机级别的要求9、只支持一个vCPU10、运行支持的操作系统11、FT支持FC、FCoE,iSCSI和NFS的共享存储12、虚拟机的虚拟磁盘必须要设置成厚制备的,预先置零13、VM不能有快照14、vm不能是链路克隆的15、面不能有任何的USB设备,声音设备,串口或者是并口16、不支持NPIV,不支持NPT/EPT17、不支持CD-rom和软盘设备连接到物理或者远端设备FT的其他限制要关闭电源管理同时,它还不支持存储的vmotion和DRS不支持热插拔设备,不支持快照,也不支持快照的备份技术如VDR