2018年7月2日灾备项目总结汇报汇报:数据库组-XXX目录/CONTENTS1项目规划2项目概况3项目改进4项目总结3项目实施3-1415-1920-2425-2627容灾意义-灾害无处不在来自国际权威机构瑞士在保险的统计数据全球每年因自然灾害和人为事故造成的直接损失达到1230亿美元全球2005年共发生约400起巨灾,损失超过2300亿美元2006年,自然灾害和人为灾难造成的损失低于长期趋势,直接损失480亿美元在世界范围内与20世纪60年代相比,到了21世纪,世界上可统计的自然灾害发生率增长了3倍,其经济损失增长了9倍中国近年灾难的影响国务院办公厅印发的《国家综合减灾“十一五”规划》中指出,据估计我国近年来各类灾情综合直接损失已高达8%的GDP(大多数发达国家只是千分之几)自然灾害的种类是多种多样的,洪涝、台风、干旱等每年给国家带来2000亿元左右的经济损失--国家减灾委受汶川地震影响,整个银行业净损失约在50亿~130亿人民币,没有灾备中心的城商行影响很大,08年银行业净利润下滑0.7%小概率的自然灾害造成的巨大损失不可忽视!容灾意义-数据丢失意味什么•IDC统计:美国在2018年以前的十年间发生过灾难的公司中,有58%当时倒闭,剩下的42%中,因为数据丢失,有31%也在两年之内倒闭,生存下来的仅占12%;•美国明尼苏达大学的研究表明:在遭遇灾难的同时又没有灾难恢复计划的企业中,将有超过60%在两到三年后退出市场。而随着企业对数据处理依赖程度的递增,此比例还有上升的趋势。1小时值多少钱—摘自互联网业务行业停机1小时的损失经纪业务运营金融645万美元信用卡授权金融260万美元付费收看媒体15万美元居家购物(TV)零售11.3万美元目录销售零售9万美元预定航班交通9万美元电子标务销售媒体6.9万美元ATM费用金融1.45万美元容灾设计-容灾和备份备份:备份是容灾的基础,通常指在数据中心内,将全部或部分数据集合从应用主机的硬盘或阵列复制到其它的存储介质的过程。容灾:容灾系统是指在相隔较远的异地,建立两套或多套功能相同的IT系统,互相之间可以进行健康状态监视和功能切换,当一处系统因意外(如火灾、地震等)停止工作时,整个应用系统可以切换到另一处,使得该系统功能可以继续正常工作。SANVTL/NASProductionCenterDC1MAiDAMAiDAMACSBackup&ArchiveServerPTLBackupCenterOSAPPOSAPPOSAPPOSAPPOSAPPOSAPPHAClusterMirrorDC1DC2一般意义上,容灾指的是不在同一机房的数据或应用系统备份,备份指的是本地的数据或系统备份。通常说的灾备是将容灾与备份结合,即本地备份结合远程数据复制实现完善的数据保护。容灾设计-灾备关键指标数据恢复时间点(RPO)RPO(RecoveryPointObjective):以数据为出发点能够容忍的数据丢失量天分时周秒数据恢复时间点分天时秒周应用恢复时间应用恢复时间(RTO)RTO(RecoveryTimeObjective):以应用为出发点能够容忍的应用系统恢复时间段故障时间RPO生产中心容灾中心丢失数据量生产中心容灾中心RTO应用服务切换时间容灾设计-风险和投资平衡恢复时间投入/运维成本业绩损失允许的投资可接受的停机时间投资投入少业绩损失大平衡点投入多数据丢失少根据系统重要程度采取不同的恢复策略,平衡风险损失和系统建设投资容灾设计-业务连续性管理(BCM)的效果灾难发生100%事前事后最小生产能力目标恢复容灾的效果恢复时间目标时间可容忍的最大中断时间没有容灾的情况引入容灾后的情况可容忍的最小生产能力生产能力返回正常事中容灾方案-容灾建设等级对标分析数据零丢失和远程集群支持6级实时数据传输及完整设备支持电子传输及完整设备支持电子传输和部分设备支持备用场地支持基本支持应用级容灾数据级容灾方案+容灾应用软件数据级容灾方案异地备份方案备份方案备份方案5级4级3级2级1级目前,大部分ORACLE生产库已实现3级容灾建设等级。此次容灾项目实施后既能达到4-6级容灾等级。容灾方案-Oracle数据库容灾架构SANSAN生产中心–高可用架构SAN灾备中心–容灾架构IP网络IP网络DataGuardOracleRAC集群Oracle数据库双阵列镜像冗余网络冗余应用场景采用Oracle数据库需建立远程容灾方案特点本地高可用、异地容灾全冗余架构设计异构硬件兼容实现价值对现网环境改造小维护简单基于Redo机制复制,对带宽要求低容灾方案-DataGuard同步原理物理/备用数据库MRP/LSPRFS备用重做日志ARCH存档的重做日志存档的重做日志主数据库事务LGWR联机重做日志ARCHOracle网络实时应用容灾方案-DataGuard优点2.完整的数据保护–实现零数据丢失,防止数据损坏3.有效利用系统资源–备用数据库可用于报表操作、备份、查询4.平衡数据可用性与性能–灵活的数据保护/同步模式5.在恢复网络连接之后自动重新同步–自动存档差异检测和解决,无需人工干预1.灾难恢复与高可用性–主数据库和备用数据库之间可轻松进行故障切换/转换容灾选型-RAC和DataGuard高可用容灾DataGuard和RAC集群是互补的,应一起使用以实现最高可用性结构RAC集群提供了高可用性–能够快速和自动地从节点故障或一个实例崩溃中恢复过来–提供了增强的可伸缩性DataGuard提供了灾难保护并防止数据丢失–维护主数据库的几个事务一致的副本–防止灾难、数据损坏和用户错误–无需昂贵且复杂的HW/SW镜像容灾选型-部署计划序号数据库分类高可用灾备方案包含数据库备注1核心生产库RAC生产库(主库)+异地RACDG(备库)橱柜造易5-6级容灾等级2重要生产库RAC生产库(主库)+同机房单实例DG(备库)金蝶K3、MCSC等4-5级容灾等级3一般生产库单实例生产库(主库)+同机房单实例DG(备库)各地IMES及其他4-5级容灾等级4重要测试库单实例库+备份部署金蝶K3测试库1-2级容灾等级5其他环境库单实例库(不做任何灾备策略)各开发测试环境0级容灾等级目标-总览目标-RAC高可用集群部署AB完成集群环境硬件配置、系统、存储、IP等规划完成GRID软件和DB软件安装完成GRID和DB的PSU升级完成一套RAC集群安装搭建DG完成数据迁移并同步切换应用配置连接新RAC集群部署备份和监控完成数据库同步迁移目标-DG容灾环境部署AB完成DG环境硬件配置、系统、存储等规划完成DB软件安装完成DB的PSU升级完成四套DG容灾环境部署部署OEM监控DG同步每周巡检DG环境确保DG实时同步正常进度•天津IMESDG容灾完成部署2018年2月•无锡IMESDG容灾完成部署2018年3月•BPMRAC集群完成部署2018年4月•总部金蝶K3、ESBDG容灾完成部署2018年5月•总部PLM、EAMDG容灾完成部署2018年6月•项目总结•顺利完成整个项目达成预期目标2018年7月DG容灾环境部署:四套RAC集群环境部署:一套项目成果25%22%24%87.50%44%65%10%30%50%70%90%总部其他基地合计实施后DG环境覆盖率实施前DG环境覆盖率数量统计总部其他基地合计实施前DG容灾库数量224实施后DG容灾库数量7411生产数据库总数8917准备工作RAC集群环境部署系统配置:操作系统版本、内存、CPU和SWAP磁盘分区:本地磁盘划分和存储分配IP规划:公有IP、VIP、SCAN-IP和私有IPDG容灾环境部署系统配置:操作系统版本、内存、CPU和SWAP磁盘分区:本地磁盘划分和存储分配生产库调整数据库参数调整确保生产库处于归档模式和FORCELOGGING模式设置归档目录及状态参数:LOG_ARCHIVE_DEST_1、LOG_ARCHIVE_DEST_2等其他参数:db_file_name_convert、log_file_name_convert等STANDBYLOG添加组数:(redolog组数+1)*实例数配置TNS各个实例均需要配置:集群以SCAN-IP配置容灾库调整数据库参数调整拷贝生产库密码文件和参数文件后进行参数调整确保生产库处于归档模式和FORCELOGGING模式设置归档目录及状态参数:LOG_ARCHIVE_DEST_1、LOG_ARCHIVE_DEST_2等其他参数:db_file_name_convert、log_file_name_convert等STANDBYLOG添加组数:(redolog组数+1)*实例数配置TNS和静态监听各个实例均需要配置:集群以SCAN-IP配置配置静态监听数据初始化Activedatabaseduplication方式在线同步数据11gR2新特性,11gR2及以上版本才支持操作简洁方便,无需额外备份空间数据恢复期间需要网络不中断,占用带宽Backup-basedduplication方式同步数据10g以上版本均可使用操作步骤相比较繁琐,需要额外备份空间数据恢复期间不依赖网络后续工作OEM监控部署READONLY模式打开并实时应用日志11g以上版本才支持只读模式打开DG备库实时应用redolog变化,减少同步延时问题点改进橱柜造易DG存在较高延时网络带宽不足导致解决方案启用压缩模式,减少日志传输量官方介绍:启用压缩后可减少35%以上日志传输提升容灾能力-开启闪回数据库归档闪回数据库使得不再需要延迟日志应用闪回数据库使得在故障切换之后无需重新实例化主数据库实时应用实现了备用数据库上的实时报表操作实时应用无延迟!实时报表操作闪回日志闪回日志主数据库:在故障切换后无需重新实例化!重做传输主数据库备用数据库总结与计划B工作进度:完成了预期的容灾项目进度,顺利部署RAC和DG容灾效果:具备故障快速切换能力,保障数据库发生意外时数据接近零丢失存在隐患:大部分部署的均是同机房容灾,无法抵御机房级别大故障容灾项目总结完善容灾管理监控:引进DataGuardBroker结合OEM更直观全面管理监控DG扩大容灾库覆盖率:目前仍有35%生产库未部署DG,下半年规划继续部署DG异地容灾规划部署:为了实现更强大的容灾能力,未来应逐步建设异地容灾环境后续计划谢谢THANKYOU