主讲:易建勋第1页共150页第6章网络可靠性设计6.1可靠性设计概述6.2网络冗余设计【重点】6.3存储网络设计【重点】6.4高可用集群系统设计主讲:易建勋第2页共150页6.1可靠性设计概述主讲:易建勋第3页共150页6.1可靠性设计概述6.1.1网络可靠性分析与计算网络可靠性指网络自身(设备、软件和线路)在规定条件下正常工作的能力。人为攻击(如黑客)或自然破坏(如雷击)造成的网络不稳定性属于网络安全问题。可靠性约束条件:预算限制,部件失效,不完善的程序代码,人为失误,自然灾害,不可预见的商业变化,都是达到100%可用性的障碍。主讲:易建勋第4页共150页6.1可靠性设计概述1.网络可靠性参数如何定义网络结构的可靠性参数,网络业务可靠性参数,如何度量网络整体可靠性,是当前正在研究解决的问题。目前网络工程项目的可靠性验收,只能在双方商定好的具体网络应用案例上,进行测试。如连通性测试,流量测试,拥塞测试,广播风暴测试等。主讲:易建勋第5页共150页6.1可靠性设计概述2.网络可靠性计算方法可靠性用平均无故障工作时间(MTBF)衡量。MTBF是一个统计值,它通过取样、测试、计算后得到,它与真实测试值有一定的差异。MTBF值的计算方法:MIL-HDBK-217(美国国防部可靠性分析中心提出的军工产品标准)GJB/Z299B(中国军用标准)Bellcore(AT&TBell实验室提出的民用产品标准)。主讲:易建勋第6页共150页6.1可靠性设计概述4.网络可靠性的成本分析网络系统的可靠性是以各种投入为代价而实现的,并不是越高越好。各种业务对服务中断的容忍度不同。如银行业务数据与办公数据属于不同的业务等级。减少损失需要考虑的因素:网络系统发生故障时对业务带来的损失;故障发生的可能性。主讲:易建勋第7页共150页6.1可靠性设计概述6.1.2网络可用性分析与计算1.可用性计算方法可用性是衡量网络系统提供持续服务的能力。系统可用性计算方法:系统年停机时间=一年总时间×(1-系统可用性)以上计算的是严重失效,即那些需要恢复程序数据,重新加载程序,重新执行等情况的失效,一般小的问题不计算在内。100%系统停机时间系统运行时间系统运行时间系统可用性主讲:易建勋第8页共150页6.1可靠性设计概述[P133表6-1]网络通信系统可用性类型可用性类型系统可用性(%)每年停机时间应用范围个人可用性9987.6小时一般性业务处理商业可用性99.98.8小时企业级服务器系统,敏感性业务处理高可用性99.9953分钟集团级计算机系统,重要业务处理极高可用性99.9995分钟省级通信中心,如金融业务处理容错可用性99.999932秒国家级信息中心,核心任务处理主讲:易建勋第9页共150页6.1可靠性设计概述2.通信系统可用性指标国家通信标准规定:具有主备用系统自动切换功能的数字通信系统,允许5000km双向全程每年4次故障;对于420km数字段,允许双向全程每3年1次故障。市内数字通信系统假设链路长度为100km,允许双向全程每年4次故障;50km数字段双向全程每半年1次故障。主讲:易建勋第10页共150页6.1可靠性设计概述3.网络可用性计算(1)串联型网络结构可用性计算在串联系统中,可用性最差的单元对系统的可用性影响最大。串联型网络的可用性按(6-4)式计算。(6-4)niiSRR1主讲:易建勋第11页共150页6.1可靠性设计概述【案例6-2】网络拓扑结构如图6-1所示,计算路由器A至路由器B之间的可用性。AB之间的可用性=0.999×0.9999×0.995×0.98×0.95×0.98×0.995×0.9999×0.999=90.1%主讲:易建勋第12页共150页6.1可靠性设计概述(2)并联型网络结构可用性计算并联型网络的可用性按(6-5)式计算。(6-5)【案例6-3】网络拓扑结构如图6-2所示,计算路由器ABCD整体的可用性。niisRR1)1(1主讲:易建勋第13页共150页6.1可靠性设计概述路由器ABC之间的可用性=0.99×0.97×0.98=94.1%路由器B+D并联体的可用性=1-(1-路由器B的可用性)×(1-路由器D的可用性)=1-(1-0.97)×(1-0.95)=99.85%路由器ABCD整体可用性=A可用性×(B+D可用性)×(C可用性)=0.99×0.9985×0.98=96.9%主讲:易建勋第14页共150页6.1可靠性设计概述4.网站可用性分析【案例6-4】国外知名微型博客网站Twitter(推特)2019年前4个月的可用性只有98.72%,有37小时16分钟不能提供服务,连2个9都达不到。国外电子商务巨头eBay在2019年的可用性是99.94%,考虑到eBay网站的规模与应用的复杂程度,这是个很不错的可用性指标了。不同业务类型决定不同网站对可用性的要求不同。主讲:易建勋第15页共150页6.1可靠性设计概述提高网络可用性的常规策略:消除单点故障部署冗余设备(或集群)设计高可用集群网络等电信级传输网中,通信设备的可用性要求达到99.999%,这要求系统在一年的连续运行中,因各种可能原因造成停机维护时间少于5分钟。主讲:易建勋第16页共150页6.1可靠性设计概述6.1.3网络可靠性设计原则网络最重要的两个特性是速度和可靠性。1.高可用性的7R原则(1)冗余(Redundancy)主控设备冗余,交换设备冗余,存储设备冗余,电源冗余,风扇冗余,多处理器等;在结构设计中,采用双机热备系统等;在存储设计中,采用磁盘阵列技术等;在链路设计中,将网络负载分散到两条链路上。冗余虽然提高了网络的可靠性,但是增加了系统成本和网络的复杂度。主讲:易建勋第17页共150页6.1可靠性设计概述(2)品牌(Reputation)品牌指产品供应商一贯的良好记录。可以通过以下方法衡量厂商的品牌:占有市场分额的百分比;专家的测试分析报告;在该领域内的历史记录;客户中的良好口碑。主讲:易建勋第18页共150页6.1可靠性设计概述(3)可靠性(Reliability)可靠性分析经验:检查并分析故障管理日志;从操作人员那里获得反馈信息;从支持人员那里获得反馈信息;从供应商的维修人员那里获得反馈信息;专家的分析报告等。操作人员的反馈通常是公正的,而且有很好的参考作用,能够反映出设备真正的性能和问题。主讲:易建勋第19页共150页6.1可靠性设计概述(4)维修能力(Repairability)衡量这项能力的标准是:完成维修的时间长短,维修工作多长时间就要进行一次。(5)恢复能力(Recoverability)重新对磁盘进行读取或者写入网络的重新传输热插拔技术等主讲:易建勋第20页共150页6.1可靠性设计概述(6)响应(Responsiveness)供应商和网络工程师对问题做出快速有效的反应时间;对资源(备用部件)的备用冗余准备情况。(7)活力(Robustness)硬件和软件的发展前途和兼容性设计。一个有活力的系统经受过长时间不同的考验。主讲:易建勋第21页共150页6.1可靠性设计概述2.网络设计中的可靠性要素(1)无故障运行时间按故障后果的严重程度分为:致命故障严重故障轻度故障(2)环境条件(3)规定的功能主讲:易建勋第22页共150页6.1可靠性设计概述6.1.4可靠性设计案例分析系统优化改造思路网络设备的冗余配置。冗余线路。提高故障的快速恢复能力。在现有防火墙的基础上增加策略路由的功能。主讲:易建勋第23页共150页6.2网络冗余设计主讲:易建勋第24页共150页6.2网络冗余设计6.2.1冗余设计的基本原则1.冗余设计的目的冗余设计是网络可靠性设计最常用的方法。冗余设计的目的:提供网络链路备份;提供网络负载均衡。链路备份和负载均衡在结构上完全一致,但是完成的功能不同,工作模式也不同。冗余链路用于网络备份时,2条冗余链路只有一条工作,另一条处于热备监控状态;冗余链路用于负载均衡时,多条冗余链路同时工作,不存在备份链路。主讲:易建勋第25页共150页6.2网络冗余设计2.单点故障网络冗余设计的原因是网络中存在单点故障。单点故障是指网络某一节点或某一链路发生故障时,可能导致用户与核心设备或网络服务的中断。链路冗余防止了服务丢失主讲:易建勋第26页共150页6.2网络冗余设计[P138图6-4]单点故障与冗余链路主讲:易建勋第27页共150页6.2网络冗余设计3.冗余设计的内容冗余设计包括:链路冗余(端口冗余,双绞线冗余,光纤冗余)设备冗余(交换机冗余、路由器冗余、服务器冗余、电源系统冗余等)软件冗余(远程备份,软件镜像,虚拟机等)最好的冗余方式是多台主机互为热备,但这种方案投资大,而且冗余控制需要一定的开销,对网络性能有一定影响。主讲:易建勋第28页共150页6.2网络冗余设计5.冗余设计要求冗余设计要求:只在网络正常链路中断时,才使用冗余备份链路。尽量不要将冗余链路用于负载均衡,否则当发生网络故障需要使用冗余链路时,网络由于负载失衡而产生不稳定性(性能颠簸)。一般在核心层采用链路聚合技术。尽量减少路由器的路由数量,减少路由跳数。主讲:易建勋第29页共150页6.2网络冗余设计6.2.2网络结构的冗余设计1.核心层全网状冗余设计全网状结构的优点:提供多个到任意目的地的可用路径;到任意目的地只需要1跳;在最坏情况下,到核心层最大为3跳。主讲:易建勋第30页共150页6.2网络冗余设计全网状的缺点:投资与节点数量呈现几何增长关系。随着节点数量的增加,增加了路由器选择最佳路径的计算量,加大了收敛时间。随着路由器数量的增多,处理广播消息的带宽和CPU资源也会增加。主讲:易建勋第31页共150页6.2网络冗余设计[P139图6-5]核心层全网状冗余结构主讲:易建勋第32页共150页6.2网络冗余设计2.核心层部分网状冗余设计部分网状结构结合了网络冗余,路由收敛以及线路投资等方面的考虑。部分网状结构在网络设计中得到了大量应用,成为主干网络中最流行的一种形式。部分网状结构的连接不是随意设计的,要综合考虑网络结构特点,灵活应用其他冗余设计技术。缺点:某些路由协议不能很好地处理多点对多点的部分冗余网状设计。主讲:易建勋第33页共150页6.2网络冗余设计[P139图6-6]核心层部分网状冗余结构主讲:易建勋第34页共150页6.2网络冗余设计3.汇聚层与核心层之间的双归冗余设计双归链路提供了很好的冗余,当一条链路出现故障时,不会削弱汇聚层路由器的可到达性。双归接入的缺点:使汇聚层路由器通往核心层设备的路径比单连接增加了一倍,从而会降低网络路由收敛速度。强迫使用某一路径时,需要使用浮动静态路由。双归路由器的“升级”问题。如果核心层路由器R3-R2之间的链路中断,双归路由器R4就会升级到核心层,路由器R4承担了核心层路由器的功能,在性能上有可能达不到要求。主讲:易建勋第35页共150页6.2网络冗余设计[P140图6-7]汇聚层与核心的双归冗余结构主讲:易建勋第36页共150页6.2网络冗余设计6.2.3网络链路的冗余设计【案例6-6】如图6-9所示,某公司总部与分部之间有三条链路相连,DDN与FR之间的路由器配置动态路由协议选路,并配置策略路由从而实现负载均衡;另外还通过PSTN提供静态路由备份。主讲:易建勋第37页共150页6.2网络冗余设计6.2.4网络设备的冗余设计1.网络设备和部件冗余技术设备端口的冗余。主控冗余技术。在交换机、路由器等网络设备中,提供两块主控制板,互为备份。主控板与备用从控板之间的切换检测方法可采用硬件心跳线或其他方式。主讲:易建勋第38页共150页6.2网络冗余设计2.不间断转发技术路由器进行主备切换时,在路由协议层面会与邻居路由器之间发生信号震荡。这种邻居关系的震荡将导致路由震荡,进而导致业务出现暂时中断。NSF(不间断转发)技术可以保证路由器控制层面出现故障(如系统重启或路由震荡)时,数据转发不间断地正常进行,保护网络流量不受影响。具备NSF的路由协议有:OSPF、IS-IS、BGP、LDP(标记分