白皮书-平均故障间隔时间_说明和标准

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

平均故障间隔时间:说明和标准版本1作者WendyTorell和VictorAvelar简介2什么是故障?什么是假设?2定义的可靠性、可用性、MTBF和MTTR3预测和估计MTBF的方法5结论8资源9点击内容即可跳转至具体章节目录第78号白皮书平均故障间隔时间是一个衡量可靠性的术语,它在许多行业中被随意使用,在某些行业中甚至被滥用。随着时间的推移,此术语的原意发生了变化,给人们造成了混淆,并对此术语产生了怀疑态度。MTBF主要基于一些假设以及对故障所下的定义,因此注意这些细节对于正确解释这个术语至关重要。本白皮书说明MTBF隐含的复杂性以及人们对它的种种误解,并介绍了估计MTBF时可以使用的方法。摘要白皮书现收录于施耐德电气白皮书资料库由施耐德电气数据中心科研中心发表,DCSC@Schneider-Electric.com平均故障间隔时间:说明和标准施耐德电气—数据中心科研中心第78号白皮书版本12平均故障间隔时间(MTBF)已经作为一种决策依据使用了60多年。随着时间的推移,已经出现了20多种预测生命周期的方法和程序。因此,MTBF一直是一个争论不休的话题,这也就不足为奇了。有一个领域这种情况尤为明显,那就是设计放置IT和电信设备的任务关键设施。如果短时间的停机也可能会对业务的市场价值产生负面影响,那么,支持这个网络环境的物理基础设施就一定要可靠。如果没有透彻地了解MTBF,可能就无法实现业务可靠性目标。本白皮书通篇使用示例来说明MTBF的方方面面,旨在化繁为简、澄清误解。在评估任何MTBF值时,都应首先问这两个问题。如果不回答这两个问题,讨论将毫无意义。人们在提到MTBF时经常不提供对故障的定义。这种做法不仅仅会误导,而且是毫无意义的。这就有点像人们在宣传汽车的节油性时使用“每箱油行驶的英里数”这个指标,但同时却不提供油箱的容积(公升或加仑)。为了消除这种不确定性,应该表明故障有两种基本定义:1.产品整体失效,无法实现其所应实现的功能。12.个别组件失效,无法实现其应实现的功能,但不是产品整体失效,无法实现该产品应实现的功能。2以下两个示例说明产品中的特定故障模式也许属于故障,也许不属于故障,具体将取决于所选的故障定义。示例1:如果RAID阵列中的某个冗余磁盘出现故障,该故障不会妨碍RAID阵列实现其应实现的功能,即随时提供关键数据。不过,该磁盘故障会妨碍磁盘阵列中的某个组件实现其应实现的功能,即提供存储容量。因此,根据定义1,这种情况不属于故障,但是根据定义2,这种情况属于故障。示例2:如果UPS的逆变器出现故障,UPS切换到静态旁路,该故障不会妨碍UPS实现其应实现的功能,即为关键负载供电。不过,该逆变器故障会妨碍UPS的某个组件实现其应实现的功能,即提供调节电压功能。与上一个示例类似,只有根据第2个定义,这种情况才属于故障。如果只有两个定义,定义故障看起来也很简单。但是,如果产品正面临信誉危机,问题就和MTBF本身一样复杂了。实际上,故障定义不只两种,而是有无数种。根据产品类型,制造商可能有许多故障定义。质量至上的制造商会跟踪所有故障模式,以便控制工艺流程。这样做的一个好处是可以消除产品缺陷。因此,需要更多问题来准确地定义故障。客户的误用是否属于故障?设计者可能忽视了许多人为因素,这将导致用户很容易误用产品。供应商的维修技术人员造成的负载停用是否属于故障?产品设计本身是否会提高风险程序出现故障的可能性?如果计算机上的LED(发光二级管)出现故障,是否属于故障(虽然它没有影响计算机的运行)?如果耗材(例如电池)的使用期比预期的时间要短,是否属于故障?运输造成的损坏是否属于故障?这可能表明包装的设计不当。很明显,定义故障非常重要。必须了解故障的定义,才能解释任何MTBF值。上述问题以及其他类似问题是人们做出可靠决策的前提。有种说法是工程师从不会犯错;他们只是做出了不当的假设。同样说法也适用于估计MTBF值的人。需要通过假设来简化估计MTBF的流程。收集计算准确数字所需的数据几乎是不可能的。不过,所有假设必须是基于实际情况。在整个白皮书中,对估计MTBF时所使用的常见假设都进行了说明。1IEC-502IEC-50简介什么是故障?什么是假设?平均故障间隔时间:说明和标准施耐德电气—数据中心科研中心第78号白皮书版本13MTBF既影响可靠性,也影响可用性。要理解MTBF方法,一定要先透彻地了解这两个概念。可靠性和可用性之间的区别通常不为人知或被人曲解。高可用性和高可靠性通常是相辅相成的,但是这两个术语不可以互换。可靠性是指系统或组件在规定的条件下按照指定的时间实现其应实现功能的能力[IEEE90]。换句话说,就是系统或组件在规定的任务时间内无故障运行的可能性。飞行任务就是说明这个概念非常好的示例,飞机起飞以完成任务时,会记住一个目标:按照计划安全地完成飞行(没有灾难性故障)。可用性则是指系统或组件在需要使用时正常使用的可能性[IEEE90]。可以将可用性看作是系统或组件在指定条件下、在指定的时间内可以实现应实现功能的可能性。可用性由系统的可靠性以及发生故障后的恢复时间决定。如果系统长时间连续运行(例如持续运行10年的数据中心),故障是不可避免的。人们经常会考虑可用性,因为如果真的发生故障,那么关键的一点就是如何快速地恢复系统。在上面的数据中心示例中,采用可靠的系统设计是最关键的因素。但是如果发生故障,最重要的一点就是让IT设备和业务流程尽快恢复正常,使停机时间最短。MTBF(即平均故障间隔时间)是系统可靠性的一个基本指标。它通常用小时数作为单位。MTBF值越大,产品的可靠性越高。方程式1说明了这种关系。方程式1⎟⎠⎞⎜⎝⎛−=MTBF时间e可靠性对MTBF的常见曲解是认为MTBF等同于系统出现故障之前预计的工作小时数(即“服务期”)。不过,虽然人们有时会看到MTBF值在100万小时这个级别,但是认为系统真正可以持续无故障运行100年是不现实的。这些数字经常如此高的原因在于,它们是根据仍处于“有效期”或“正常使用期”的产品的故障率计算得出的,而且计算时假设产品的故障率永远保持在这个水平。而在产品生命周期的这个阶段,产品的故障率是最低的(并且保持不变)。实际上,产品的各种磨损方式会使其生命周期远早于MTBF值结束。因此,不应在产品的服务期与其故障率或MTBF之间建立任何直接的关系。有的产品具有非常高的可靠性(MTBF),但是预计服务期很短,这是完全有可能的。以人为例:以50万个25岁的人作为抽样。在一年的时间内,收集这些人口的“故障”(死亡)数据。这些人口的生活时间是5000001年=50万人年。在这一年当中,有625个人“出现故障”(去世)。故障率为625个故障/50万人年=0.125%/年。MTBF是故障率的倒数,即1/0.00125=800年。所以,尽管25岁的人MTBF值较高,预期寿命(服务期)却短得多,因此这两者之间没有任何关系。实际上,人不会表现出稳定的“故障率”。随着人逐渐变老,会出现更多的“故障”(官能老化)。因此,要计算等同于服务期的MTBF,唯一可行的方法是等待所抽样的25岁人群全部死亡。然后,可以计算他们的平均寿命。大多数人会同意这个数字应该在75-80岁这个级别。所以,25岁人的MTBF是多少?80还是800?都对!但是,同样的人群怎么会得到两个截然不同的MTBF值呢?这都是由于计算时所基于的假设造成的!定义的可靠性、可用性、MTBF和MTTR平均故障间隔时间:说明和标准施耐德电气—数据中心科研中心第78号白皮书版本14如果MTBF为80年可以更加准确地反映产品的寿命(在此例中是人),这是更好的方法吗?很明显,这种方法更加符合直觉。不过,有许多可变因素会限制对某些商业产品(例如UPS系统)使用这种方法。最大的限制就是时间。要做到这一点,抽样人口必须全部死亡。对于许多产品,这个时间在10-15年这一级别。另外,即使可以等待这段时间后再计算MTBF,在跟踪产品的过程中仍会遇到问题。例如,制造商如何了解产品是否仍在使用,如果他们已经不使用并且没有报告呢?最后,即使上述所有情况都可能实现,但技术的变化如此之快,到了可以计算出这个数字的时候,这个数字也没有任何意义了。谁还想知道已被数次技术更新而淘汰的产品的MTBF值呢?MTTR(即平均修复时间或平均恢复时间)是预计系统从故障中恢复的时间。这可能包括诊断问题的时间、维修技术人员到位的时间以及实际维修系统的时间。与MTBF类似,MTTR使用的单位也是小时数。正如方程式2所示,MTTR影响可用性,但不影响可靠性。MTTR越长,系统情况越差。简而言之,如果系统从故障中恢复所需的时间越长,系统的可用性就越低。以下公式说明MTBF和MTTR是如何影响系统的整体可用性的。随着MTBF的增大,可用性也会提高。随着MTTR的增大,可用性会下降。方程式2)(MTTRMTBFMTBF+=可用性要使上述方程式1和方程式2有效,在分析系统的MTBF时,必须做一个基本的假设。与机械系统不同,大多数电子系统没有移动部件。因此,一般认为,电子系统或组件在有效期内会表现出稳定的故障率。图1(称为故障率“浴缸曲线”)说明前面提到的这个稳定故障率假设的来源。此曲线的“正常使用期”或“有效期”是产品在现场使用的阶段。在这个阶段,产品质量已经达到在一个稳定的故障率。此阶段的故障源可能包括无法检测的缺陷、较低的设计安全因素、高于预计的随机压力、人为因素和自然故障。如果制造商对组件进行充足的测试、适当的维护、提前更换损坏的部件,就可以避免出现“磨损期”中所示的这种快速衰退的曲线。上述讨论提供了可靠性和可用性的概念和区别的一些背景知识,可帮助人们正确理解MTBF。下一节讨论各种MTBF预测方法。图1说明稳定故障率的浴缸曲线平均故障间隔时间:说明和标准施耐德电气—数据中心科研中心第78号白皮书版本15“预测”和“估计”这两个词经常混用,但这是不正确的。预测MTBF的方法只根据系统设计计算值,通常在产品生命周期的早期使用。如果现场数据很少或没有(例如航天飞机或新的产品设计),预测方法就很有用。如果有大量的现场数据,就不应使用预测方法。而应使用估计MTBF的方法,因为这种方法可以提供真实的故障评估结果。估计MTBF的方法根据观察类似系统的抽样来计算值,通常在现场大量部署了产品后进行。到目前为止,估计MTBF是计算MTBF时使用最广泛的方法,其中的主要原因是这种方法基于在现场实际使用的真实产品。这两种方法在本质上讲都是统计型的,这意味着提供的只是实际MTBF的近似值。没有一种方法是适合于整个行业的标准化方法的。因此,制造商一定要了解并选择最适合指定应用的方法。下面列出的方法尽管并不完整,但是说明了可采用许多方法来计算MTBF值。可靠性预测方法可靠性预测方法最早出现在大约20世纪40年代,由德国科学家VonBraun和德国数学家EricPieruschka提出。Pieruschka在努力改善V-1火箭的大量可靠性问题的同时,帮助VonBraun建立此火箭的可靠性模型,从而建立了第一个有据可查的现代化预测可靠性模型。之后,NASA以及核工业的发展促进了可靠性分析领域的逐渐成熟。现在,已经有了许多预测MTBF的方法。MIL-HDBK217美国军方在1965年发布的军事手册217号中,为估计电子军事设备和系统的可靠性提供了标准,以便提高所设计设备的可靠性。这为比较两种或两种以上的类似设计的可靠性提供了一个共同的依据。军事手册217号也称为军事标准217号,或简称为217号。根据217号的规定,可以使用两种方法预测可靠性:部件数预测和部件压力分析预测。部件计数预测通常用于在产品开发周期的早期预测产品的可靠性,以获得与可靠性目标或规范有关的粗略可靠性估计。计算故障率的方法是:精确统计产品的类似组件数(例如电容),然后将这些组件分为不同的组件类型(例如薄膜电容)。然后,将每个组中的组件数乘以一个通用的故障率和质量系数(在217号中提供)。最后,将所有不同部件组的故障率加在一起,即可得出最终的故障率。顾名思义,部件计

1 / 9
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功