云计算与IDC建设研修班教材-Part5-灾备

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

灾备技术姚文斌灾备技术国家工程实验室北京邮电大学计算机学院NationalEngineeringLaboratoryforDisasterBackupandRecovery,BeijingUniversityofPostsandTelecommunications2012年2月5日11时5分1NEL-DBR灾备技术国家工程实验室主要内容引言灾备基础系统灾备的一点思考灾备技术国家工程实验室灾备应用举例2012年2月5日11时5分2NEL-DBR灾备技术国家工程实验室引言为什么需要灾备?什么是信息系统灾备?2012年2月5日11时5分3NEL-DBR灾备技术国家工程实验室信息系统灾难案例信息系统灾难原因信息系统灾难后果需要灾备2012年2月5日11时5分4NEL-DBR灾备技术国家工程实验室需要灾备911事件发生中,世贸中心1200家企业的信息化系统(其中不乏摩根士丹利这样的巨型跨国公司的信息中心)全部损毁,本地数据全部丢失。--案例12012年2月5日11时5分5NEL-DBR灾备技术国家工程实验室2002年7月23日,北京首都国际机场离港系统出现故障停机1小时,60个航班和约6000名旅客被延迟。需要灾备--案例22012年2月5日11时5分6NEL-DBR灾备技术国家工程实验室2003年8月,美国、加拿大多个城市均发生停电事故,这次美国历史上最大的停电事故所造成的经济损失每天可能多达300亿美元。需要灾备--案例32012年2月5日11时5分7NEL-DBR灾备技术国家工程实验室2008年初,罕见冰雪灾害给中国电网造成了有史以来最严重的破坏:全国范围电网停运的电力线路共36740条、变电站共2016座、110-500千伏线路因冰塔倾倒8381基。这次冰灾不仅给国民经济造成了巨大的损失,达1510亿元,而且给社会造成了极大的紊乱,如交通出行、居民的生活等。需要灾备--案例42012年2月5日11时5分8NEL-DBR灾备技术国家工程实验室2011年日本强烈地震引发的海啸,并造成了核电站泄漏。已确认造成15773名丧生,并且福岛等三县居民半数人核辐射水平超标。并且核辐射遍布全球。需要灾备--案例52012年2月5日11时5分9NEL-DBR灾备技术国家工程实验室需要灾备信息系统灾难就在我们身边并非遥不可及!2012年2月5日11时5分10据统计(2007年),在过去的10年中,全球每年受到各种各样自然灾难(包括地震、水灾、龙卷风等)的影响的人数大约是2.5亿。NEL-DBR灾备技术国家工程实验室自然灾难-天灾-人祸--原因1-自然灾难会造成灾难区域被完全孤立隔离、信息设备损毁严重、人员伤亡严重。-自然灾难所产生的直接后果就是本地数据信息难以获取或保全、本地系统难以在短时间内恢复或重建、灾难对信息系统的影响和范围难以控制。-自然灾难虽然很可怕,但是据统计仅占灾难3%。需要灾备2012年2月5日11时5分11NEL-DBR灾备技术国家工程实验室人为灾难–偶然故障(人为失误、非授权操作等)–Byzantine故障(恶意操作、病毒入侵等)--原因2需要灾备人为灾难发生机率大、危害具有潜伏性和突变性、表现形式多种多样人为灾难造成的直接后果包括丢失或泄漏重要数据信息、性能降低乃至丧失系统服务功能、软件系统崩溃或者硬件设备损坏人为灾难中偶然故障约占32%,Byzantine故障约占7%机密资料机密资料机密资料机密资料2012年2月5日11时5分12NEL-DBR灾备技术国家工程实验室技术灾难–设备故障(硬件损坏、电力中断等)–设计故障(软/硬件设计故障等)--原因3需要灾备-设备灾难主要是以硬件器件的损伤为典型特征;设计故障则主要来自人为的考虑不周或逻辑错误,设计错误是其典型特征,采用相异性的冗余设计方法才有可能从根本上解决这类问题。-技术灾难会造成信息、数据的损害或丢失。-这一类故障数量占到灾难中的58%。2012年2月5日11时5分13NEL-DBR灾备技术国家工程实验室--原因需要灾备客观原因–天灾无法控制–人祸不可避免–信息系统存在生存期主观原因–信息系统技术本身存在缺陷–信息系统缺乏灾难防护能力2012年2月5日11时6分14NEL-DBR灾备技术国家工程实验室需要灾备信息系统周围潜伏了无数的灾难,随时会损坏甚至摧毁信息系统!信息系统灾难就在我们身边并非遥不可及!2012/2/515NEL-DBR灾备技术国家工程实验室--整体表现需要容灾有形资产灾难–硬件系统的损毁–软件系统的崩溃–企业生产的中断无形资产灾难–数据信息的丢失–系统服务的中止–企业信誉的受损2012年2月5日11时6分16NEL-DBR灾备技术国家工程实验室--信息系统后果需要容灾数据灾难:灾难造成数据不能正常使用–数据失真:数据内容发生错误–数据部分丧失:部分数据不能使用–数据完全被毁:整个数据系统无法继续使用系统灾难:运行的信息系统无法继续使用–系统失灵:系统仍运行、但行为错误–系统瘫痪:系统完全停止工作–系统恶变:系统仍运行,运行结果随机甚至完全相反2012/2/517NEL-DBR灾备技术国家工程实验室--后果需要容灾9.11事件一年后,重返世贸大厦的企业由原先的350家减少到150家,200家企业由于重要信息系统破坏及关键数据丢失而永远倒闭消失2003年AT&T无线对SiebelCRM软件升级中出现问题,把原本估计一个周末的项目拖延为六个星期,直接导致企业损失1亿多美元据互联网数据中心(InternetDataCenter,IDC)调查,在20世纪最后10年中,美国发生过灾难的公司中,55%的公司当即倒闭,剩下45%中由于信息数据丢失,29%的公司在两年内倒闭,能生存下来的仅占16%Gartner(著名IT咨询服务提供商)数据表明,40%企业不能在灾难发生后恢复运营,剩下60%中有33%在两年内倒闭2012/2/518NEL-DBR灾备技术国家工程实验室…………突发事件造成的行业服务损失情况数据来源:StrategicResearchCorporation1.5万美元ATM服务9万美元航班预售260万美元信用卡销售授权645万美元证券经济类每小时停机损失业务…………突发事件造成的行业服务损失情况数据来源:StrategicResearchCorporation1.5万美元ATM服务9万美元航班预售260万美元信用卡销售授权645万美元证券经济类每小时停机损失业务--后果需要灾备2012/2/519NEL-DBR灾备技术国家工程实验室需要灾备信息系统一旦被灾难毁坏,会对人民生活、国家政治和国家经济造成无法估计的影响!信息系统周围潜伏了无数的灾难,随时会损坏甚至摧毁信息系统!信息系统灾难就在我们身边并非遥不可及!2012/2/520NEL-DBR灾备技术国家工程实验室灾备的基本概念信息系统与灾备灾备的性能指标灾备的体系结构灾备基础2012/2/521NEL-DBR灾备技术国家工程实验室灾难备份,简称灾备,就是指利用技术、管理手段以及相关资源确保关键数据、关键数据处理系统和关键业务在灾难发生后可以恢复的过程灾备的目的就是确保关键业务持续运行以及减少非计划宕机时间灾备--概念2012/2/522NEL-DBR灾备技术国家工程实验室广义灾备从严格意义上说,灾备应该称为灾难备份与恢复(disasterbackupandrecovery)–灾难前的备份不仅仅是数据信息的备份和日志,更重要的还包括信息系统构建过程中容灾体系结构的设计、提前制定的灾难应急预案与恢复计划等–灾难后的恢复应急服务系统或者备份系统的业务接管、数据/系统/服务迁移过程中的安全管理、系统灾难损失评估等灾备--概念2012/2/523NEL-DBR灾备技术国家工程实验室信息系统的核心结构图灾备--信息系统与灾备2012/2/524NEL-DBR灾备技术国家工程实验室信息数据信息系统社会依赖数据丢失业务中断损失灾难备份与恢复是信息化社会一个不可缺少的基础安全设施。灾难备份与恢复是信息系统的基本要求。灾备--信息系统与灾备2012/2/525NEL-DBR灾备技术国家工程实验室恢复时间目标RTO(RecoveryTimeObject)恢复点目标RPO(RecoveryPointObject)降级操作目标DOO(DegradedOperationsObject)网络恢复目标NRO(NetworkRecoveryObject)该指标是容灾恢复的时间指标:-其含义从广义上来说,是从灾难发生造成业务中断,直到使业务能够得以继续所需要的时间。-通常RTO越短意味着容灾能力越高。恢复点:宕机后数据开始恢复的时间点。恢复点指标RPO:指当灾难发生后,系统和数据必须恢复到的时间点要求。RPO对应着灾难造成的数据丢失。-如果RPO=0,相当于没有任何数据丢失-否则,就需要进行业务恢复处理,修复数据丢失宕机恢复后到第二次故障或灾难的时间网络恢复的时间灾备--性能指标2012/2/526NEL-DBR灾备技术国家工程实验室灾备系统结构简图灾备--体系结构在信息领域,灾备系统可以理解为是以存储系统作为基本支撑系统、以网络作为基本传输手段、以容错软硬件技术为直接技术手段、以管理技术为重要辅助手段的综合系统。2012/2/527NEL-DBR灾备技术国家工程实验室灾备技术的历史灾备技术的衍生灾备技术的提出灾备技术的发展2012/2/528NEL-DBR灾备技术国家工程实验室灾备技术的历史灾备技术从容错计算中衍生-衍生容错计算容灾是容错计算中专门专注于对灾难事件处理的相关技术,是容错计算中一个重要的研究方向。到目前为止,容灾所用到的相关技术仍然没有脱离开容错的基本技术和方法容灾技术就是目前耳熟能详的广义灾备技术。2012/2/529NEL-DBR灾备技术国家工程实验室容错计算容错是指在存在故障的情况下,计算机系统不失效,仍然能够提供系统服务的特性容错技术在计算机系统中的应用可以追溯到第一台计算机系统ENIAC•由于ENIAC采用了18800个真空管,而受工艺限制、硬件的故障率是平均每15分钟就会烧掉一个真空管,因此,该系统中大量的采用了基于冗余的容错技术来保证系统的可用性•因此,如果没有容错技术,也就不会有了第一台成功的现代的电子计算机国际上一直对容错计算比较重视:容错专委也是IEEE和ACM协会中具有最老资格专业技术委员会之一灾备技术的历史-衍生2012/2/530NEL-DBR灾备技术国家工程实验室灾备技术的历史-衍生容错技术是提高系统可靠性的有效手段,通过自动监测、自动甄别-隔离-排除等技术手段,保证系统完成预期的目标。一般来说,整个过程不需要用户干预,对用户透明除功能子系统外,容错系统通常还包括–故障检测子系统–备份子系统–系统恢复与重构子系统2012/2/531NEL-DBR灾备技术国家工程实验室灾备技术的历史-衍生计算机系统故障分类2012/2/532NEL-DBR灾备技术国家工程实验室灾备技术的历史-衍生容错计算-应用领域冗余技术:即在正常系统运行所需的基础上增加一定数量的信息、时间、备份系统或备份软件的方法–硬件冗余:针对物理故障–软件冗余:针对设计故障和接口故障–信息冗余:针对信息丢失和接口故障–时间冗余:避免系统服务中止2012/2/533NEL-DBR灾备技术国家工程实验室灾备技术的历史-衍生容错计算-技术实质高可信应用需求–航空、航天、核电站等关键应用系统–银行、证券等其他关键系统–包括制造、物流、交通等有着“7天×24小时”不间断运营需求的中小商业团体和政府容错计算系统多用于系统可靠度达到99.999%以上的应用环境中即连续工作一年中系统故障时间为5分钟2012/2/534NEL-DBR灾备技术国家工程实验室灾备技术的历史-提出灾难备份在上世纪50年代作为容错中的一种技术手段被提出但是直到70年代,灾备才作为独立的研究方向得到发展,其契机是美国建立联邦应急管理总署。该机构明确提出了建立灾难

1 / 115
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功