故障预测与健康管理IEEE标准JohnW.Sheppard1,MarkA.Kaufman2,TimothyJ.Wilmering31.TheJohnsHopkinsUniversity,3400N.CharlesStreet,Baltimore,MD21218,jsheppa2@jhu.edu2.NSWCCoronaDivision,POBox5000,Corona,CA92878,mark.kaufman@navy.mil3.TheBoeingCompany,POBox516,M/CS270-3800,St.Loui,MO63166,timothy.j.wilmering@boeing.com摘要:如今,复杂的系统如飞机,发电厂和网络的操作员,一直在强调需要为最大限度地提高业务目的在线健康监测可用性和安全性。故障预测与健康管理(PHM)这门学科被认为是处理这些管理和预测的要求需要的正式学科。在本文中,我们将探讨在IEEE标准的发展框架下,如何根据目前标准用来支持PHM的申请。特别重点将放在PHM的作用以及国防部(DOD)的PHM的相关标准自动测试系统有关的研究。关键字—故障预测,PHM,CBA,AI-ESTATE,SIMICA1.介绍1976年,IEEE为测试AllSystems(ATLAS)的语言的缩写规范的而建立了标准协调委员会20(SCC20)。从那时起,标准协调委员会(SCC20)扩大其工作范围,为开发大型系统级测试和相关系统的诊断标准。1989年,IEEE批准了一个项目授权请求(PAR),授权SCC20开发一个新的标准,这个标准是根据项目P1232,主要针对成熟的人工智能领域——人工智能交流服务领带全部测试环境(AIESTATE)而制定的。1995年,SCC20审查并公布了(全测试环境)AI-ESTATE标准,IEEE1232-1995,并于2002年,升级了该标准。今天,SCC20下,其诊断和维修控制(DMC)的管理小组正在完成AI-ESTATE标准的一个新的更新,这个标准是强调它的拥抱PHM的相关问题进行广泛的范围。国防部(DOD)ATS框架工作组是一个多重服务的,有行业学术伙伴关系的机构,这个机构着重于在定义一个信息框架,并确定为下一代自动测试系统(ATS)的标准。基于20世纪90年代,苯丙胺类兴奋剂的研究和开发的集成产品团队定义苯丙胺类兴奋剂的“关键接口的”设置工作的基础上,当前的工作组已选择,支持发展,并表明将在苯丙胺类兴奋剂的使用商业标准。2007年,工作组决定扩大其范围,以拥抱PHM的信息需求,以及和增加了两个新“元素”,以它的框架的一元(生产)预后的数据和一个(投票站)预后服务的元素。工作组决定对这些要素集中平行的诊断数据和诊断服务要素已经在框架中。故障预测与健康管理(PHM)已经被定义为“PHM的已经被定义为“一个维护和利用的信号、测量、模型和算法,以发现、评估和跟踪恶化的健康状态,并预测可能发生的故障的办法[1]。”正如定义一样,PHM包括的东西比标准协调委员会20(SCC20)的规定要多得多。因此,(全测试环境)AI-ESTATE标准由此建立并发表许多有关于故障诊断的PHM文章。在软件接口维护信息收集与分析(SIMCA)项目下,诊断和维修控制(DMC)小组正在制定标准,这些标准可能会规定其它的PHM信息管理要求。这些标准通过收集可用于分析的维护和诊断过程的历史信息,并把这些分析与整个系统或者单个系统联系起来。其结果是一个标准的集合,这个标准可以诊断成熟,PHM的过程趋于完善。本文的重点是AI-ESTATE和SIMICA标准在PHM系统中的应用。在这个文件的讨论强调了在制定这些标准的最新研究成果和重点介绍了如何使用它们来满足PHM的信息管理要求。2.研究PHM的方法一般来说,PHM的系统包括状态监测,状态评估,故障或故障诊断,故障趋势分析,预测诊断(即故障预测),以及维护或运营决策支持。最终,一个PHM的系统的目的是最大限度地提高业务的可用性和目标系统的安全。本文最初感兴趣的是对PHM系统标准化和互操作性支持的影响和潜在的好处。更一具体的说,感兴趣的区域在于PHM的“预测”部分——能够根据系统当前信息,预测出对系统会产生重要影响(如故障)的状态会发生。通常情况下,这种预计被称作是估计系统的一个组成部分的剩余使用寿命(RUL)[2],[3]。信息系统的标准化需要对目标系统的概念和信息进行仔细和正式的定义。我们相信剩余使用寿命(RUL)的定义在系统级存在误导性质,因为它认为没有修复的可能,而不是去延长系统的剩余使用寿命。因此,我们建议用失效所需时间(TTF)这个词,同时注意到可能出现定义混淆[4]。具体来说,Vachtsevanos等组织将TTF定义为“最初的故障与接下来的故障发生中间所持续的时间。”作为另外一种方案,我们定义TTF的是“从监测系统状态开始到系统出现发生故障的迹象两个状态之间的时间。”我们也可以认为PHM应用于一个运行的系统,并与这个系统相互作用,反馈和监督这个系统(如图1)。在建立一个PHM系统时,其中有三个部件是进行故障预测所必需的(如图1高亮的部分)——估计系统的当前状态的能力;预测未来的状态的能力,从而知道失效的的时间;以及确定对系统性能的评估和纠正或减轻影响的措施的需求的能力。在所有三种情况下,还必须提供系统的具体模式。在这些组件的支持下,有几种预测方法。基于物理模型方法:或许对于高精度的预测系统老化,最有效的方法是物理失效模型(POF)在结构性退化和结构健康监测系统中的应用[5]。物理失效模型(POF)注重于诸如材料的变形,断裂,疲劳,和材料磨损方面的问题。最近,POF被尝试用于电子预测,其重点放在了对互连材料和基板老化失效分析[6][7]。对于高精确度要求,POF在系统级别的应用禁止使以计算机方法去计算的。这种限制导致了替代方案的开发和应用,有时与POF方法结合起来。基于可靠性模型方法:也许预测失效的最简单的方法是基于组件故障统计的可靠性模型。回顾一下,可靠性的定义是指部件或单元在t时刻能够正常工作的概率[8]。通常情况下,可靠性预测常用来估计未来故障的发生,通过采用以当前测试结果为基础概率分布模型,如指数分布(例如:P(Di)=1–exp[–λit])。使用的指数分布有一个重要的缺点,它要符合了“马尔可夫”假设,即对于未来出现故障的预测与历史的监测数据无关。鉴于这一假设的限制,可替代方案就是应用威布尔(Weibull)分布模型进行预测,因为它不再限于失效率不变,以及马尔可夫这两个假设[9]。数据驱动方法:从某种意义上说,POF和可靠性模型方法在故障预测方法中占重要的地位。POF依赖于高解析度的模型,但不能很好地扩展。可靠性方法依赖于对大量系统的数据统计特征和系统不处理具体系统的某个特性。作为一个试图提供一种折衷的方法,数据驱动方法如回归模型[10],时间序列分析[11],神经网络[12]等得到应用。每一个都有能够基于经验数据去学习的模型的优点,同时也存在这由于没有数据而无法去学习这个模型的缺点。基于概率方法:从信号处理、目标跟踪和状态估计中吸取的经验,证实了一些概率模型在PHM应用是有广大的前景。具体来说动态贝叶斯网络(DBN)结构,如隐马尔可夫模型(HMM)[13]和卡尔曼滤波器[11]已经被尝试当作一种使用的历史、连续数据去预测未来故障的方法。对于这些模型的重点与一个称之为“背景扩散”现象相关。因为条件独立,过去的经验影响扩散到预测能力。这实际上,直接关系到马尔可夫在假设,也是上面讨论的可靠性模型所固有的[14]。作为从上述的评论中得到的证据,PHM系统的“银弹”的功能尚未被发现或开发。事实上,可以说,PHM的技术很大程度上仍处于起步阶段。因此,考虑PHM的元素标准化问题是一件很有趣的事情。即便如此,机械信息管理开放系统联盟(MIMOSA)已经采纳了基于开放式系统结构条件管理(OSA-CBM)标准的开发和支持,目地是为了为CBM和PHM系统提供一个结构标准。OSA-CBM是一个结构标准,由七个“按等级划分”的层组成:传感器/转换器、数据采集、数据处理、状态检测、健康评估、预测评估以及诊断结论。特别重要是的是这里的健康评估,预测和决策支持层[16]。由以上三个PHM的系统重要组成部分,我们看到了健康评估层对应于健康状态,预测层对应于预测失效时间。两个层次的管理必须解决的不确定性和信赖性的预测。这些层的证明是向下与状态检测层连接和向上与咨询层相连接。目前,OSA-CBM标准提供了一个统一建模语言(UML)的模型,确定关键的“对象”在一个标准的CBM系统中的定义[17]。不幸的是,当前对OSA-CBM结构的应用并没有纳入系统组件之间传达语义信息的规范标准。这是SCC20所希望作出的贡献,这也是我们接下来讨论。3.维护和诊断标准从根本上讲,预测是失效或故障诊断的一个延伸。此外,鉴于故障预测是试图去预测和预知即将发生的故障,在PHM系统下的维护过程与根据故障报告而采取正确的行动为基础的维修过程相比有着本质的区别。目前,很少有与预测系统和PHM系统相关的标准存在,但由于PHM系统与传统诊断和维护系统有着密切关系,维护和诊断社区的几个标准可以应用于PHM的。正如我们在下面将讨论,也希望这些相同的标准将作为PHM系统发展或成熟的起点。20世纪70年代中期以来,SCC20已经制定一系列标准,这些标准原定于针对测试规范和测试方案,但最近更多的关注于的测试、预测和维护系统的接口。在IEEESCC20中包括信号和测试定义标准的电子系统的测试和诊断[18],自动测试标记语言(ATML)的系统标准[19],AI-ESTATE标准[20],以及SIMICA标准[21],的协助下,这些标准得到了很好的发展。我们特别感兴趣的是AI-ESTATE标准和SIMICA标准。在SIMICA标准体系内有另外两个标准——测试结果[22]和维护行动信息[23]。A.AI-ESTATEIEEE标准1232描述包括诊断领域的信息,即有关的系统测试和诊断信息。诊断方面的描述使各部件之间的诊断信息有这很好的交流。IEEE1232标准还支持模块化结构和兼容其他诊断测试相关的软件。1232标准的发展是采用了ISOEXPREE建模语言信息建模方法[24],重而解决了五个模型的定义,这些模型包括诊断领域的静态和动态两个方面。根据正式的信息模型,AI-ESTATE提供了两种不同的诊断信息交流机制。历史的方法使用的产品模型数据交换(STEP)物理文件格式[25]规定的标准。这指定了一个简单的ASCII格式,使用平面文件在属性值结构标记,必须与明示模式结合使用。SCC20还计划使用XML架构并且与基于ISO10303第28部分[26]为基础的信息模型保持一致。最后,除了正在开发的信息模型,AI-ESTATE标准定义了一套软件服务,在集成一个诊断器到一个系统时使用。该诊断预测服务被指定使用Web服务描述语言(WSDL)[27],而这主要是由于增加了Web服务和XML的信息交换方面的重视力度。鉴于双方公布的AI-ESTATE系统和目前正在被SCC20开发的修订版本,在AI–ESTATE信息元素和PHM的关键部件之间,有几个关系是十分明显的。例如,在一些时候用信心指数去评判测试的质量,同理,在相关的概率和信心下,失效/故障预测也可以实现的。不过,AI-ESTATE仅限于离散分配的结果,对于检查和诊断结论也是一样的。目前,AI-ESTATE也仅限于支持系统,及时提供在当前点的状态评估,假设相关的诊断命题陈述。这一点很重要,因为目前的机型都不支持时间的失效预测。在此之前也有一些建议希望SCC20能够支持时序逻辑[28]和动态贝叶斯网络,这将对预测算法很有用。然而,在标准内,以上两个都被认为不够成熟。事实上,目前还不清楚在这个时间点度量的语义是否存在一个业界共识。B.TestResults目前SIMICA标准草案的重点是提供一个有关维修信息顶级信息模型。这种模型将提供“保护伞”来表示几个系统操作和信息维护领域相关的几个低水平分