集团机房数据中心远程灾备方案研究1.0

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

集团机房数据中心远程灾备方案研究研究内容:在集团系统里选取相对边界的系统上使用的标准实时数据库,使用不同的手段进行远程实时备份试验。现如今,集团的数据电子化程度越来越高,目前集团有综合营帐、ERP、OA系统、大表远传、热线客服、生产管理、污水厂子中控、管网综合管理平台等系统,共计服务器数十台,除部分核心系统使用了就地双机热备和部分系统运行在虚拟化平台中外,其它很大部分的软件系统依然处于单机运行状态。并且数据库有MYsql、MSSQLserver和Oracle等,目前大部分数据库都是处于单机状态运行,整个系统的稳定性和可靠性较低。同时因集团为单业务机房设计,其相伴而来的数据安全问题也日渐显现。因停电、硬件故障、可能的人为损坏及其他原因,再结合近年国内相继出现的大范围自然灾害,出现任一问题都足以让集团的大部分关键业务陷入瘫痪,部分新兴功能在应用层面即无法实现的状况,从而降低公司整体对突发事件的应急处理能力,降低公司的运行效率,并对社会和公众造成负面影响。要规避以上可能存在的风险,现在的容错科技目前有7大“容错”产品:1.X86服务器双机集群软件(可实现无缝升级和软件修改定制功能)2.数据备份和数据实时复制软件(可以实现数据安全的不同保障,实时复制数据不丢失,备份做数据归档和恢复)3.SQL数据库的负载均衡、集群、备份、容灾产品4.数据级容灾和业务级容灾系统(按照客户对容灾的不同需求,实现数据级别容灾和业务级别容灾)5.数据备份一体机(高性价比的整体数据安全解决方案)6.磁盘阵列和虚拟带库VTL(可按照客户实际需求定制,项目性产品)7.虚拟化业务应急恢复系统(运用目前流行的虚拟化技术,实现数据和业务系统整体容灾的高性价比解决方案)而结合集团现有实际情况,最可行也现实效益最大的方案为4.数据级容灾和业务级容灾系统。而且现在以同城双数据中心加异地同城备份中心的“两地三中心”的灾备模式已经相当成熟,此类方案兼具了高可用性、可操作性和灾难备份等多种能力,在可对公司数据进行灾难备份的同时也具备了分摊数据压力和多中心共存的能力。我部门结合集团实际对相关方案进行了深入研究。同城双中心是指在同一城市的相距较远区域建立两个可独立承担关键生产运营系统运行的数据中心,这两个中心具备基本等同的业务处理能力并通过高速链路实时同步数据,日常情况下可一主一备进行运行,在数据压力较大或有相关预期时,亦可同时上线运行分担业务及管理系统的运行,并可做到实时的热切换运行;在遇到主数据中心无法使用的情况下可在基本不丢失数据的情况下进行灾备应急切换,以保持业务连续性。与建设完全异地灾备中心模式相比较,同城双中心具有投资成本低、建设速度快、运维管理相对简单、可靠性更高等优点。异地灾难备份中心是指在异地的城市建立一个数据备份中心,用于双中心数据的统一静态备份,当同城双中心都出现因自然灾害等原因而发生故障无法使用时,可以用异地灾难备份中心的备份数据进行后续的业务恢复。此实现方式的特点有:●同城范围有效保证了数据的安全性和业务连续性;●同城双中心为同步复制,数据实时同步,RPO=0;●异地无空间距离限制,可保证数据一致性,保证了数据的有效保护;●对异地容灾带宽要求低,先进的复制机制提高带宽利用率。基于以上原理,我们分别选取了2个公司提供的方案进行了实际应用测试。一号方案为杭州市容错科技有限公司提供的方案1.规划容灾方案,可以在2地组建异地数据互备容灾的方案。确保核心数据的容灾和安全,确保核心数据不丢失,核心业务可以经受灾难事故后,在短时间内恢复正常使用。2.可以对公司虚拟化平台和未来规划物理平台或虚拟平台做容灾互备,做到同城异地容灾4.可以对目前小型机的存储做异地的存储级别的容灾,采购新的存储做为本地存储的容灾存储。方案原理为:通过容错产品软件的Replicator模块能够通过数据复制技术,保持两地服务器间数据的一致;通过cluster模块还能够及时对各种硬件故障进行判断,做出及时的反应,确保整个架构上应用系统的可靠性。容错产品纯软件工作模式的解决方案可以使用户的关键业务达到真正的高可用,任何的服务器硬件故障都不会对业务系统运行构成影响,并且保持了两份业务数据,具有一定的数据备份价值。方案规划拓扑图:因预算原因,我们无法对基与硬件层面的双中心存储+服务器灾备方案进行试验,所以只对以上可基于软件实现的数据异地同步,进行了简单的模拟试验:试验结果为,在理想条件下(windows系统+SQL数据库,局域网内同网段双机模拟异地)进行试验。双机均安装热备份软件:RongCuoCluster。软件主界面为下图所示。其中主要包括:主菜单、工具栏、树控件、主窗口、信息提示窗口。其中“主菜单”与“树控件”包含所有功能命令,“工具栏”仅包含部分主要功能。1、在对主机和备份机的软件配置都设置完成后,试验进行基本的数据同步操作,并累计运行一段时间,看在持续数据写入同步的情况下。原应用软件系统的稳定性是否受到影响,同时查看同步软件的稳定性是否满足要求。该软件支持实时的备份情况查看和硬件及任务信息查看,同时可按需手工启动、停止单一节点任务或整个节点任务。也可通过多个物理网关进行多台,多数据库的多任务备份操作。2、经试验数据的同步率达到100%,数据实时性高,达到了即写即同步。从而证明,通过简单的数据集群,小数据量的异地数据热备份完全可行,但是我们也得出,此种同步方式无法保护在主机下线时应用的实时性,用此种“软件”同步的方式进行远程数据灾备,只适合可以接受数据库或应用主机下线后,人为至远程主机上线应用并将公司线路切换至远端的应用使用。故障后所需要的时间成本较高,且建立分中心的硬件投入并无减少。本方案完全可以实现异地数据级别容灾,实现本地和异地核心业务数据的实时同步,确保数据不丢失,而且在此基础上,在未来可通过扩容实现如下功能:1.应用级别容灾,即实现数据异地同步的基础上,实现业务系统的异地切换,故障异地恢复,真正实现最高级别的容灾,只有在此基础上扩容故障切换模块即可。针对容错产品后期可扩容功能为:容错科技有7大产品和专业的数据库优化维保服务,一期项目中使用到了容错的数据级容灾产品,后期可升级为应用级容灾,和配套容错备份产品,实现更加完善的备份策略,容错还有专业的数据库优化的维保应急响应服务,真正让客户体会到专业的服务。2.可以扩容本地备份系统,采用更新备份设备和相配套的备份软件即可。公司采购的存储容量和性能已经不能满足需求,需要新采购存储设备。3.可以采用容错的备份一体化方案,实现备份的简单便捷的使用和维护。4.可以选择容错虚拟容灾备份一体化方案,实现简单业务系统的数据异地容灾和应急响应。5.可以对公司的数据库进行评测,如存在隐患或瓶颈,可以购买容错专业的数据库优化维护应急服务。方案提供方可提供的后期维护有(质保期满后收费):1.原厂标准服务,含邮件、电话、在线网络远程技术支持。2.金牌原厂服务,包含原厂标准服务的基础上,含一年免费上门维护和维保服务,响应机制为4小时响应,48小时内到现场。3.白金原厂技术支持:包含原厂标准服务的基础上,含一年免费上门维护和维保服务,响应机制为2小时响应,24小时内到现场。二号方案为华为公司的解决方案华为公司在联合赛门铁克公司后,利用Symantec软件多年来在数据备份上所积累的经验和科技优势,结合了其自身的存储硬件开发能力,设计了针对同城双中心很典型的建设方案,其方案原理和组网和以上方案基本相同,如图所示。在同城双中心的应用切换,可以采用SymantecVeritas的VCS(VeritasClusterServer)集群软件来实现,在中控中心主机和同城备份中心主机上都需要安装VCS。采用VCS监测本地双机或集群状态,并通过组件GCO(GlobalClusterOption)在本地和远程的集群之间进行状态监测。在网络层,需要在同城双中心之间采用光纤连接,保证双中心之间较大的带宽,以响应实时的业务数据需求;而同城异地之间采用专网或IP广域网即可实现,以节约成本。有需要的话,同城双中心的光纤采用波分复用(WDM)技术进行建设,以针对两地只有1条或2条光纤连接的场景。在采用WDM的方式下,能够虚拟出多条FC或GE联络,满足两地之间对业务和数据多重链路的需求。在数据存储层,部署虚拟存储(如华为VIS6000或S5000/S6800E)磁盘阵列,通过存储的同步远程复制功能将数据同步复制到灾备站点。确保中控中心和同城备份中心的数据完全一致。使用存储的异步复制功能,将数据通过广域网复制到远端的灾备站点,并且保证数据的完整性和可用性。远端站点的作用主要是用来防止地理和自然灾难,当同城的双中心全部故障后,可以确保在异地有一份完整的数据拷贝,用于后续业务的恢复。因为华为对硬件及知识产权的保护,我们在这里只进行了理论上的实施可能性及应用概况研究讨论,并以此对于方案一进行横向比较。华为方案的大部分数据来源于华为提供的文字材料。其现方案灾备中心的数据备份和恢复流程如下:具体的数据备份及业务流程:1、数据备份同城双中心的数据采用同步复制,在同城同城备份中心建立一个在线更新的数据副本。当有数据下发到中控中心阵列时,阵列间的同步复制都会同时将数据复制一份到同城同城备份中心。同城同城备份中心与异地同城备份中心之间采用异步复制方式,定期将数据进行复制备份,异步复制支持增量复制方式,可以节省数据备份的带宽占用,缩短数据的备份时间。2、灾难检测主机上的VCS-GlobalCluster通过对资源组状态的监控来判断资源的可用性,包括数据库资源组、网络资源组等。资源组的状态分online/offline/fault三种,正常情况下中控中心在工作的时候资源组的状态都是online,而同城备份中心的资源组是offline状态。每个资源组在online和offline的时候均可以指定运行程序或脚本,程序或脚本执行完成后资源组即完成online或offline的过程。当检测到中控中心有资源组出现fault状态时,同城内中控中心同同城备份中心将进行切换,以保证业务的连续性。3、容灾切换基于应用容灾切换包括一系列的动作:停止灾难节点的部件服务、切断数据复制链路、建立数据容灾基线、启动容灾节点的部件服务、通知前端设备进行业务网络切换。具体动作可以结合实际情况,通过应用脚本来定制。4、恢复回切回切工作流程和切换流程原理是一样的,只是因为切换的时候是不确定触发的、可能导致业务受部分影响;而回切的时候通过人工确认,选择最小影响的情况下执行操作(比如业务流量非常小的情况下,甚至暂停业务情况下),因此回切推荐采用的是手动切换模式。应用级容灾采用的是自动切换还是手动切换,用户可以在部署时通过修改主机集群软件的切换配置实现。方案二提供方可提供的后期维护有(质保期满后收费):1.原厂标准服务,含邮件、电话、网络在线远程技术支持。2.上门服务,包含原厂标准服务的基础上,提供专业工程师上门服务。响应机制为按需求分金额定制。研究结果:因为实现的技术手段基本相同,所以方案一和方案二都可以很好地满足集团对数据灾备方面的需求;方案一可以更好地保证集团内部服务器及存储硬件的一置性,方案二的软件品牌和技术实力更有保证。二个方案都有实现同城双中心应用级异地数据灾备的后续同步方案。可以更好地保护前期的硬件投资,通过成倍提高应用效率实现均摊成本。但因考虑到数据灾备是一项长期的,在突发情况下需要短时间内甚至实时的进行数据维护的工作,后期的维护保障力度相对要求较高,所以需要综合考虑资金成本、客户满意率和行业应用经验,选择响应快、实力强的维保团队。

1 / 9
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功