阵列级容灾解决方案

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第1页,共7页阵列级容灾解决方案一、概述XXX单位现有华为赛门铁克OceanspaceS5300存储阵列一套,本次拟再上一套存储阵列作为本地灾备阵列,以备在主阵列故障、数据不可用的情况下的紧急之需,保证数据的安全性和业务的连续性。因为涉及到主阵列和容灾阵列间的数据同步和反向同步,容灾阵列需要选用和主存储阵列同一厂家和同一系列的产品,建议容灾阵列采用华赛OceanspaceS5300,硬盘可以采用低级别SATA硬盘。二、方案简介XXX单位采用基于阵列的容灾解决方案,这种方案是指在磁盘阵列一层,利用磁盘阵列本身的智能控制系统/软件进行阵列到阵列的数据复制,从而实现对生产环境数据的容灾。部署在生产站点(现网已有S5300)和灾备站点(本次拟建阵列)的两台阵列之间可以使用FC或IP链路进行连接,生产站点的磁盘阵列可以实时的自动将更新后的数据传送至灾备站点的阵列中,以保持两台磁盘阵列中的数据完全一致。所有工作由两台阵列自身自动完成,对主机系统完全透明,不占用任何主机资源。当生产站点由于地震、火灾等灾难导致整个业务系统瘫痪时,灾备站点的业务系统能够完全接管全部工作,在较短时间内恢复业务系统的运行。华赛阵列容灾解决方案主要有阵列异地容灾和阵列同城容灾两种方案。两种方案都是利用华赛的HostAgent软件保证业务系统数据一致性,并利用华赛Oceanspace磁盘阵列的远程镜像功能(HyperMirror)进行阵列间的数据复制。阵列异地容灾方案主要采用Oceanspace磁盘阵列的异步远程镜像功能(HyperMirror/A)实现生产站点和灾备站点的数据复制。阵列同城容灾方案主要采用Oceanspace磁盘阵列的同步远程镜像功能(HyperMirror/S)实现生产站点和灾备站点的数据复制。第2页,共7页因为本工程属于同城容灾,可以采用同步远程镜像技术实现。考虑到数据复制的性能,建议采用FC链路进行数据传输,当然也可以采用IP链路。阵列同城容灾方案的原理图如图1所示。图1阵列同城容灾解决方案原理图正常情况下,生产站点的数据会利用Oceanspace磁盘阵列的远程镜像功能将生产卷的数据复制到灾备站点的灾备卷中;在灾难发生时,灾备站点可以通过灾备卷中的数据拉起客户业务;生产站点恢复后,可以利用Oceanspace磁盘阵列远程镜像功能进行反向同步,将灾备卷的数据同步至生产站点的生产卷中,并在生产站点启动客户业务。三、Oceanspace磁盘阵列远程同步镜像技术远程镜像功能的实现需要考虑以下三个设计需求:1、尽可能保证主、从LUN之间的紧密同步,从而减少灾难发生时的数据丢失量(dataloss);2、尽可能减少系统对前台应用程序的写延迟,从而达到减少系统响应时间、提高数据吞吐量和性能的效果;3、在异常或灾难发生时,能够保证生产站点和灾备站点数据可用性。由于通信链路上存在不可避免的延时,前两个设计需求几乎不可能同时最优化:当前者第3页,共7页达到最优时,生产站点收到本地I/O写操作后,立即发向灾备站点,等待写I/O同时写入主LUN和从LUN后才返回前台应用程序写完成——这种方式称为同步远程镜像;当后者达到最优时,生产站点先记录收到的I/O写操作导致的差异,写入主LUN后就立即返回写完成,当差异累积到一定程度时(或经过一段固定的时间)再一次性把所有差异更新到灾备站点的从LUN——这种方式称为异步远程镜像。无论是同步远程镜像还是异步远程镜像,都必须满足第三个设计需求——任何情况下的数据可用性。3.1HostAgent保证数据一致性数据一致性是指关联数据之间的逻辑关系是否正确和完整。因为某种异常情况的发生,数据并没有按照应用程序规定的逻辑关系完整的写入磁盘。导致应用程序读入的数据无法按照原有的逻辑解释,导致应用程序无法启动。比如在数据库的事务操作中,实际发出了五个写操作,当系统把前面三个写操作的数据成功写入磁盘以后,系统突然故障,导致后面两个写操作没有写入磁盘中。此时应用程序和磁盘对数据状态的理解就不一致。OceanspaceISSPHostAgent主机套件由HyperManager、ConsistentAgent和InbandAgent三部分组成。HostAgent根据时间策略定期将应用在主机缓存中的数据刷新到阵列磁盘中,有效保证数据的一致性,同时与虚拟快照、Lun拷贝、远程镜像等增值功能结合,保证应用主机与生产阵列、生产阵列与灾备阵列的数据一致性与可用性。HyperManager是面向应用的方案中的“大脑”,起着调度、协调和管理的功能。每个策略执行时,HyperManager通知ConsistentAgent对应用进行刷数据,保证数据一致性,然后InbandAgent发送带内命令到阵列,比如让阵列做快照。图2ISSPHostAgent原理图注:在使用阵列间同步复制方式进行容灾的方案中不需要使用HostAgent。第4页,共7页3.2同步数据复制(HyperMirror/S)Oceanspace存储阵列的同步远程镜像名为HyperMirror/S,利用日志原理实现主、从LUN的数据一致性,能够实现数据零丢失。其实现原理如下:1.当生产站点的主LUN和远端灾备站点的从LUN建立同步远程镜像关系以后,会启动一个初始同步,也就是将主LUN数据全量拷贝到从LUN。2.如果在初始同步时主LUN收到生产主机写请求,需要检查同步进度:若要写入位置的数据块尚未拷贝到从LUN,只需要写主LUN即可返回主机成功,稍后利用同步任务将整个数据块同步到从LUN;若要写入位置的数据块已经拷贝,需要分别写入主LUN和从LUN;若要写入位置的数据块正在拷贝,需要等待该数据块拷贝完成后分别写入主LUN和从LUN。3.初始同步完成以后,主、从LUN数据完全一致,如果此时主LUN收到生产主机写请求,按照下面的流程进行I/O处理(原理图见图5):1)主LUN接收生产主机写请求,记录这个I/O对应数据块的差异日志值为“有差异”;2)同时把写请求的数据写入主LUN和从LUN,写从LUN时需要利用配置好的链路将数据发送到远端灾备站点;3)判断写主LUN和写从LUN的执行结果,如果都成功,则将差异日志改为“无差异”,否则保留“有差异”,在下一次启动同步时重新拷贝这一个数据块;4)主LUN返回生产主机写请求完成。图3同步远程镜像I/O处理原理图第5页,共7页四、故障处理4.1常用灾难处理方法系统的运行可能会出现各种各样的故障甚至灾难。华为赛门铁克存储虚拟化异地容灾解决方案的设计考虑了系统运行中的各种异常,针对各种故障类型,都有相应的保障措施。当异常状况发生时,针对故障和灾难的类型,采取合适的故障处理措施,避免异常启动容灾系统,减少容灾系统的运行成本。上层应用中间件故障:如果故障发生在上层中间件,则需要通过部署中间件双机来解决,如果未在本地部署双机,则需要启动容灾设备,将业务切换到容灾站点。业务链路故障:如果业务链路故障,导致业务中断,且业务链路无法在短时间内恢复,则需要启用容灾设备。某一个双机节点故障:如果Oracle双机中的某一节点故障,业务会自动切换到备机,此时不需要启动容灾设备。双机节点全部故障:如果是整套(双机)生产设备的全部物理故障,且在短期内无法修复,则需要启用容灾设备。磁盘阵列内部故障(RAID组失效,硬盘故障,逻辑错误,病毒等):如果是磁盘阵列内部故障,比如RAID组失效、硬盘故障、单控制器故障,这类故障发生时业务暂时不会中断,但是风险很大,可以直接在本地通过快照,备份进行修复。不需要启用容灾设备磁盘阵列整体故障:如果是磁盘阵列整体故障,导致生产设备的业务均中断(如程序异常终止),且在短期内无法修复,则需要启用容灾设备。建议在生产站点部署两台磁盘阵列进行镜像配置,当某一台磁盘阵列整体故障时,可以通过另外一台镜像阵列继续提供使用,避免业务中断。自然灾害(地址,水灾,风灾等):如果是自然灾害导致生产设备全部物理故障,这类故障肯定在短期内无法修复,需要立即启用容灾设备。站点故障(空调故障,供电系统故障等):因为机房空调、供电等故障,导致生产站点设备不可用,并且在短期内无法恢复,则需要启动灾备设备。第6页,共7页复制链路故障:如果是复制链路故障,生产站点业务不受影响,此时不需要启动容灾。只需要在链路恢复后对生产站点数据和灾备站点数据进行重同步。4.2容灾切换容灾切换决策当系统检测到灾难发生时,系统上报告警,等待人工进行切换决策;系统接收到下发的切换命令之后,才进行容灾切换处理。容灾切换本方案容灾切换处理包括:容灾预启动和容灾切换后处理;容灾预启动过程为:磁盘阵列主备节点倒换,启动数据库、文件系统、应用软件;在预启动完成之后进行容灾切换后处理,包括停止生产站点与容灾站点之间的复制关系,在生产机执行切换后的相关处理;灾备站点的Oceanspace磁盘阵列需要将远程镜像的从LUN切换为主LUN,使得灾备服务器通过重扫描磁盘后可用。4.3容灾切回在生产设备遭受灾难或者发生故障后实施容灾切换,容灾切换成功后容灾设备开始对外提供服务。当生产设备修复后,系统对外的服务需要从容灾设备重新切换到生产设备来提供,这个过程称为容灾回切。容灾回切包括下面几个步骤:反向同步生产机恢复后,需要将业务回切到生产机上,但是此时的生产机上已经没有最新的数据,需要从容灾机上同步过来,即从容灾机侧向生产机侧进行一次反向同步。Oceanspace磁盘阵列重新建立远程镜像pair关系,将灾备站点上“新主LUN”的数据同步到生产站点的“新从LUN”(异步远程镜像模式下在灾备站点停止业务之前需要多次同步,保证“新主LUN”与“新从LUN”间滞后的写操作降到比较小的程度,并在灾备站点停止业务后再同步一次,保证数据完整可用);灾备站点停止业务后再次进行主从切换,第7页,共7页恢复最初的远程镜像的镜像关系。这个过程会占用一定系统资源,但业务可在容灾机正常运行。业务切回反向同步完成后,停止容灾侧的业务。中断容灾机同生产机的复制关系。启动生产机上的业务。数据一致性检查完成业务回切后,需要重新建立生产机和容灾机的容灾复制关系,即从生产机侧向容灾机侧进行一次数据一致性检查,并保持复制关系。整个系统恢复到正常状态。这个过程会占用一定系统资源,但业务可正常运行;状态重置此时,容灾回切的所有操作业已完成,需要通过网管软件下发切换命令,方向为容灾机-生产机的容灾切换命令,将集群软件状态重置为正常状态。

1 / 7
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功