CommVault数据灾备概论前言——灾备的发展人工出错32%软件失效14%病毒7%自然灾害3%硬件失效44%数据的重要性=灾备的重要性数据已成为最重要的资产之一、业务运转的血脉,数据丢失引起的后果非常严重-据GartnerGroup调查表明,在经历大型灾难而导致系统停运的公司中有40%倒闭,剩下的公司中也有33%在两年内破产各类灾难统计物理错误47%逻辑错误53%灾难:由于人为或自然的原因,造成信息系统严重故障或瘫痪,使信息系统支持的业务功能停顿或服务水平不可接受、达到特定的时间的突发性事件。通常导致信息系统需要切换到灾难备份中心运行。-《信息系统灾难恢复规范》数据保护的重要性,如何讲都不算过分数据灾备是挽救企业生命的“最后一根稻草”数据灾备现状管理者不知道“最后一根稻草”的真实情况–数据灾备极大地依赖于备份管理员–灾备系统分散部署,无法知道整体数据保护状态缺乏灾备管理人才(数量以及质量)–灾备管理需要对IT系统全面、深入的了解;这样的人才不多•系统、存储、网络;操作系统、数据库、应用软件缺乏验证手段–无法检验灾备数据是否可用–缺乏恢复验证手段基本没有数据的异地保存–由于人力,物力的限制根本原因:相对于IT环境的发展,灾备软件发展滞后第一代数据保护软件起源于1980年代–集中式计算;–系统环境小;数据量小(GB级);IT人员少出发点是替代手工备份–重点是“怎么做备份”问题–大量人工参与,只能依赖于备份管理员–无法支撑大规模IT环境(系统多;数据量大;数据中心多)–能不能恢复?Gartner:数据备份/恢复的成功率平均只有70%第二代数据保护软件出现在2000年代–分布式计算环境,Internet,信息高速公路–系统数量大;数据量大(TB级)、而且快速增长–第一代软件的问题越来越突出重点是“怎么做恢复”–理念的飞跃:操作+监控+管理+演练=恢复•为确保恢复,4个方面缺一不可管理监控操作设计理念对比定期演练管理复杂缺少监控无法实现定期演练操作人员管理员经理操作第一代数据保护软件数据恢复管理数据备份操作设计理念:第二代数据保护软件缺乏“监管、演练”的后果“三鹿”事件–政府监管缺失,过分依赖于企业“自管”美国金融危机–缺乏监管,没及早洞察危机的存在2008深圳特大火灾–缺乏演练,消防系统形同虚设灾备系统缺乏“监管”,同样会导致无法挽回的后果!CommVault的实现方法操作–提高数据灾备/恢复成功率•减少人工干预(人工是IT系统中最薄弱的环节)–全图形化,不用写脚本•预防出错:预检机制,验证机制•容忍出错:容错机制•容灾:电子化异地存放机制–提高数据灾备/恢复效率•小颗粒恢复(邮件级恢复,数据库表级恢复)•实时备份/恢复(快照备份,复制技术,CDP)CommVault的实现方法监控、管理–及早发现问题,防患于未然•实时状态•历史数据•发展趋势–提升操作、管理人员水平•职责分配,审计定期演练–针对不同的系统制定不同的定期恢复策略–自动实现数据恢复,用于恢复验证CommVault带来的好处数据恢复成功率达到98%以上管理者随时能知道“最后一根稻草”的真实情况对专业人才的依赖能大大降低轻松实现数据的异地存放,提供容灾能力灾备技术说明数据丢失的原因分析44%是物理错误53%是逻辑错误3%是灾难问题数据管理的主要目的是:–防止数据丢失–需要的时候,能快速找到并恢复数据人工出错32%软件失效14%病毒7%自然灾害3%硬件失效44%数据丢失的原因保护数据的方法RAID复制快照备份CDP自然灾害YesYesYes硬件失效YesYesYesYesYes人工出错YesYesYes软件失效YesYesYes病毒YesYesYes物理错误(47%)逻辑错误(53%)恢复点(RPO)能忍受多少数据丢失?没有丢失秒,分钟小时小时天分钟小时恢复时间(RTO)要多久才能恢复?实时分钟小时分钟小时天分钟小时保留时间(Retention)能恢复多长时间内丢失的数据?不能不能几小时几天几周几月几年几小时几天使用环境对设备和应用环境的要求中高端高端高端所有有限(新技术)使用成本对设备和运行维护的要求中高高低中数据保护总结物理错误(44%)–复制:能恢复数据;RPO/RTO好–快照:不能恢复数据;–备份:能恢复数据;RPO/RTO一般–CDP:能恢复数据;RPO/RTO较好逻辑错误(53%)–复制:不能恢复数据–快照:只能恢复短期数据(刚出错的);RPO/RTO较好–备份:能恢复数据;RPO/RTO一般–CDP:能恢复数据;RPO/RTO较好灾难情况(3%)–复制:不一定能恢复数据;RPO/RTO较好–快照:不能恢复数据;RPO/RTO较好–备份:能恢复数据;RPO/RTO一般–CDP:不一定能恢复数据;RPO/RTO较好结论一:完整的数据保护应该是多种技术的综合应用结论二:备份应该被认为是IT基础设施,是数据保护的最后一道防线异步复制快照磁盘备份磁带备份DaysHoursMinutesSecRecoveryPointObjectiveRPORecoveryTimeObjectiveRTO数据保护能覆盖的时间范围完整数据保护的规划生产数据备份数据快照数据异地备份数据复制容灾数据异地恢复数据或快照剥离数据(容灾演练)生产主机容灾主机本地快速恢复系统运行减少数据丢失量实现容灾演练和验证容灾系统的最后1道防线,实现数据离线和更多版本保留中国灾备标准介绍中国灾备标准《信息系统灾难恢复规范》−0级无异地备份,数据只在本地存储−1级备份磁带通过车辆转移到异地保险库−2级1级基础上,在异地热备份中心能力−3级电子传输和部分设备支持−4级电子传输和完整设备支持−5级准实时数据传输和完整设备支持−6级零数据丢失和远程集群支持可双击打开级别恢复时间RTO数据丢失程度RPO0无法预计可能全部丢失12天以上1天至7天224小时以上1天至7天312-小时以上数小时至1天4数小时至2天数小时至1天5数小时至2天0至60分钟6数分钟接近0灾备级别与投资的关系1级2级3级4级5级6级灾备指标CV能够实现CommVault灾备技术-应急系统CommVault方案-应急系统介绍中国灾备标准《信息系统灾难恢复规范》−0级无异地备份,数据只在本地存储−1级备份磁带通过车辆转移到异地保险库−2级1级基础上,在异地热备份中心能力−3级电子传输和部分设备支持−4级电子传输和完整设备支持−5级准实时数据传输和完整设备支持−6级零数据丢失和远程集群支持级别恢复时间RTO数据丢失程度RPO0无法预计可能全部丢失12天以上1天至7天224小时以上1天至7天312-小时以上数小时至1天4数小时至2天数小时至1天5数小时至2天0至60分钟6数分钟接近0–RPO级别:在网络允许下,=5分钟–RTO级别:=5分钟–对网络的要求:网络带宽=10Mb–采用技术:利用复制并且回滚数据库的事务日志,实现数据库的容灾–CV模块:CDR,QR,Backup–适用平台»AIX,WIN,LINUX,SUN»SQL,ORACLE,DB2,INFORMIXCDR:连续数据复制保护方式:连续捕获、字节级、文件复制应用感知性:SQL,Exchange,Oracle支持平台:Windows,Linux,UnixQR:快照管理保护方式:管理硬件快照\快照复制应用感知性:SQL,Exchange,Oracle支持平台:Windows,Linux,UnixWeeksMinutesSecRecoveryTimeObjective/RecoveryPointObjective备份副本需要到本地恢复远程办公数据?从备份副本进行文件级浏览&恢复Web搜索&恢复3快速恢复卷/复制卷需要即时的数量或应用程序可用性吗?装载恢复卷直接使用1恢复点需要恢复卷或应用到以前的时间点?回滚到任何恢复点装载任何时间点进行访问2采用一体化的数据保护方式HoursGALAXY:备份恢复保护方式:数据在线备份/恢复应用感知性:所有应用支持平台:所有主流平台Days避免硬件,逻辑故障应急系统的定位•为什么需要应急库系统•在发生极端灾难的情况下,可以使用应急库临时应急•能够避免用户生产库的物理和逻辑故障•方便用户实现数据灾备系统的验证和演练•提高传统应急方式(备份恢复)的RPO/RTO级别(应急库是一直可用的)•利用自动化的手段,实现数据库应急;减少手工应急的时间和出错概率•应急库系统不是容灾系统•不是容灾系统(硬件磁盘复制),相对RPO较差(分钟级别,而不是秒级别)•无法实现自动切换数据库应用•补充传统容灾系统碰到的问题•避免逻辑错误•方便验证和演练•RTO时间可控•无需修改生产系统的存储和数据结构结论:应急库系统是容灾系统的补充,可以作为生产系统的最后1道防线快照QRCommVault应急系统的数据流程数据库生产主机应急库主机应急库归档日志CDR连续复制备份数据快照快照在线日志归档日志前滚日常备份初始化恢复CommVault应急系统说明-1应急系统的流程–初始化阶段:通过备份+恢复的方式,在容灾站点生成初始化的应急数据库–日常运行阶段:1.通过CDR复制归档日志数据到应急库主机上2.在应急库上自动回滚归档日志实现应急数据库的同步;同时每隔1个小时,作应急数据库的COW快照3.每天做应急数据库的冷拷贝备份(建议)4.每天做本地数据库的热备份–应急启动阶段:1.只要将应急数据库启动即可;由于该应急库是在Recover状态,所以能够确保快速正确的启动CommVault应急系统说明-2–验证和演练阶段:»方式一1.将应急站点的数据库打开,就可以直接使用验证了2.恢复演练前的方式,只要将原先的快照恢复或者备份的数据恢复,然后回滚应急库上已经复制的日志数据,就能恢复到日常运维阶段»方式二1.将应急库数据库shutDown2.装载早先的快照,并且启动应急数据库,实现验证和演练3.在Shutdown演练数据库,并且删除快照4.启动应急数据库至于Recover状态,回滚最新的日志就能进入日常运维状态–灾难重建阶段:1.应急库数据崩溃,相当于重作1次初始化2.生产库数据崩溃,可以将上一次备份恢复,然后反向复制归档日志,并且回滚,从而重建生产数据库CommVault应急系统特点–一体化的保护方式,包括:备份,复制,快照。能够避免用户生产系统的物理和逻辑故障。–无需修改用户现有的存储方式和数据结构,减少实施风险。–用一个图形化界面统一管理整个应急流程,并且有图形化的报表,报警,监控等功能;方便用户的管理和运维。–复制的时候支持网络流量的控制和操作时间窗口,能够适应窄带宽和广域网的环境。–由于是基于OS的复制和数据库无关,不会由于意外原因干扰生产数据库的使用。–方便实现应急系统的演练,验证和重建,而且这些操作也不会干扰生产系统的运行。–由于应急系统上的数据库处于Recover状态,所以RTO时间很短。–应急系统上还保留多个时间点的快照,从而可以快速回退到前一个时间点的状态。–同时应急系统上还保留一段时间内的归档日志,所以用户可以回退到故障发生的任意时间点。减少发生故障造成的数据丢失量。和其他方式比较-数据库复制软件–数据库复制软件无法避免逻辑错误。–数据库复制软件初始化和灾难重建时候,需要和备份恢复软件配合。–数据库复制软件没有完善的监控机制和报表机制,需要大量的人工干预。–数据库复制软件没有针对网络流量的控制机制和操作时间窗口,在灾带宽和广域网上容易引起故障。–数据库复制软件的复制机制是基于数据库内部的,有可能由于其他故障(网络,应急主机等)干扰生产数据库系统的运行。和其他方式比较-传统备份恢复–备份恢复的RPO级别太差,往往丢失的数据是一天的。–ROT时间太长,恢复操作需要较长时间。–恢复演练期间,需要大量的人工干预,管理维护复杂。–由于需要定期传送全备份,仍然需要大量的网络传送数据,不适合窄带宽和广域网。和其他方式比较-硬件或卷复制–硬件复制无法避免逻辑错误–如果需要避免逻辑错误,必须采用快照,这