故障预测与健康管理(PHM)技术的现状与发展曾声奎北京航空航天大学可靠性工程研究所,北京100083MichaelG.Pecht,吴际美国马里兰大学CALCE电子产品与系统中心,马里兰,2074StatusandPerspectivesofPrognosticsandHealthManagementTechnology)ZENGSheng_kui1,MichaelG.Pecht2,WuJi2(1InstituteofReliabilityEngineering,BeihangUniversity,Beijing#100083,China)(2CALCEElectronicProductsandSystemsCenter,UniversityofMaryland,CollegePark,MD20742)摘要:结合故障预测与健康管理(PHM)的技术发展过程,阐述了PHM的应用价值。论述了PHM技术系统级应用问题,提出了故障诊断与预测的人机环完整性认知模型,并依此对蓬勃发展的故障诊断与故障预测技术进行了分类与综合分析,给出了PHM技术的发展图像。针对故障诊断与预测的不确定性特征,对故障诊断与预测技术的性能要求、定量评价与验证方法进行了分析。最后,以PHM技术的工程应用为线索,提出了PHM技术发展中的几个问题。关键词:故障预测;故障诊断;故障预测与健康管理Abstract:ThispaperhasbriefedthepotentialbenefitsofPrognosticsandHealthManagement(PHM)againstitsevolutionhistory.ThearchitectureforPHMsystem-levelapplicationisoutlined,andacognitionmodelfordiagnosticsandprognosticsisbuiltbasedontheintegralityofman-machine-environment.Directedbythismodel,variousdiagnosticsandprognosticsmethodsareclassifiedandanalyzed,andawholepictureofPHMisdrawn.UncertaintyisacriticalfactorofPHM,itsrequirement-making,quantitativeassessmentandvalidationarediscussed.Finally,keyissuestodoofPHMarelistedwiththegoalofpracticalextensiveuse.Keywords:prognosticandHealthManagement;diagnostics;prognostics;cognitionmodel1.引言现代武器装备的采购费用和使用与保障(O&S)费用日益庞大,经济可承受性成为一个不可回避的问题。据美军综合数据[1][2],在武器装备的全寿命周期费用中,使用与保障费用占到了总费用的72%。与使用保障费用相比,维修保障费用在技术上更具有可压缩性。PHM、基于状态的维修(CBM)、货架产品(COTS)、自主保障(AL)等都是压缩维修保障费用的重要手段[2][3][4]。从20世纪70年代起,故障诊断、故障预测、CBM、健康管理等系统逐渐在工程中应用。70年代中期的A-7E飞机的发动机监控系统(EMS)成为PHM早期的典型案例[5]。在30年的发展过程中,电子产品机上测试(BIT)、发动机健康监控(EHM)、结构件健康监控(SHM)、齿轮箱、液压系统健康监控等具体领域问题的PHM技术得到了发展,出现了健康与使用监控系统(HUMS)[6]、集成状态评估系统(ICAS)[7][8]、装备诊断与预计工具(ADAPT)[9]等集成应用平台,故障诊断、使用监测、与维修保障系统交联是这些平台具有的典型特征,但故障预测能力和系统集成应用能力很弱或没有。例如,ICAS正在提升其故障预测能力、开放式系统集成能力,更好地满足系统级集成应用的需求[8]。工程应用及技术分析[10]表明,PHM技术可以降低维修保障费用、提高战备完好率和任务成功率[3][4][10]:通过减少备件、保障设备、维修人力等保障资源需求,降低维修保障费用;通过减少维修,特别是计划外维修次数,缩短维修时间,提高战备完好率;通过健康感知,减少任务过程中故障引起的风险,提高任务成功率。本文在阐述PHM概念及其框架的基础上,依据故障诊断与预测的人机环完整性认知模型,对故障诊断与故障预测技术进行了分类与综合分析;分析了故障诊断与预测技术的性能要求、定量评价与验证方法;清理了PHM技术的发展方向。2.PHM的系统级应用PHM系统一般应具备故障检测、故障隔离、增强的诊断、性能检测、故障预测、健康管理、部件寿命追踪等能力[4],通过联合分布式信息系统(JDIS)与自主保障系统交联。联合攻击战斗机(JSF)的PHM系统分为机上与地面两部分。机上部分,包括推进系统、任务系统等若干个区域管理者(AM),完成子系统、部件性能检测,增强的故障诊断,实现关键系统与部件的故障预测等任务[4]。例如,推进系统区域管理者(AM)就集成了吸入碎片监控(IDMS)、发动机微粒监控(EDMS)、涡流叶片监控(ECBS)、滑油微粒监控(ODM)等功能[11]。大多数故障诊断与故障预测工具都具有领域相关的特点[9][12]。采用开放式的体系结构(OSA),方便各种故障诊断与预测方法的不断完善,实现即插即用,成为了在系统级实现PHM的一项关键技术[8]。典型的故障诊断与预测流程(图1)包含了数据采集、数据预处理、数据传输、特征提取、数据融合、状态监测、故障诊断、故障预测、保障决策等环节。数据的采集与传输,目前的发展体现在传感器的高精度、小型化、集成化、严酷环境适应性、可靠性(应比被监测对象更可靠)、低能耗,健壮与高速率传输的传感器网络等方面[13][14],本文不再论述;在后文中主要集中在特征提取与数据融合、故障诊断与预测推理、以性能评价及保障决策等方面,对PHM技术的发展进行分析。3.故障诊断与预测技术的分类与分析3.1故障诊断与预测的认知模型故障是产品不能完成规定功能或性能退化不满足规定要求的状态。故障诊断与预测都是对客观事物状态的一种判断,其最基本的出发点是判断者采信的信息源。客观事物的发展存在内因与外因两个方面,观察者、被观察对象、观测的环境构成了故障诊断与预测的完整认知模型(图2)。采信的信息源不同,构成了不同的故障诊断与预测方法论。对于故障诊断与故障预测来说,可以采信的信息源包括:1.被观测对象直接的功能及性能信息(基于故障状态信息);2.被观测对象使用中表现出来的异常现象信息(基于异常现象信息);3.被观测对象使用中所承受的环境应力和工作应力信息(基于使用环境信息);4.预置损伤标尺(precursor)的状态信息(基于损伤标尺信息)。关于故障诊断与故障预测方法的分类,目前尚不统一,基于经验、基于趋势、基于模型[8]、基于数据、基于模型[15]等分类方法可以见诸文献。本文从故障诊断与故障预测的认知模型出发,依据采信的信息源不同对众多的故障诊断与故障预测方法进行归类分析,以期形成故障诊断与故障预测技术发展的完整图像。3.2基于故障状态信息的故障诊断与预测直接采信被观测对象功能及性能信息进行故障诊断,是置信度最高的故障诊断方法,得到了最成功的应用。典型的方法包括电子产品的机上测试(BIT),以及非电子产品功能系统的故障诊断等。本文对具体方法不作说明。虚警率(FA)高或不能复现(CND)故障多是困扰BIT的一个主要问题。以航空电子为例,美国F/A-18C飞机1996-1998年统计,虚警率高达88%,平均虚警间隔飞行时间(MFHBFA)不到1小时[16]。造成BIT虚警率高的原因,除了BIT系统本身的设计问题外,主要表现为不可复现(CND)或重测合格(RTOK)等状态[17]。CND状态出现的原因一直是近年研究的热点,有专家认为,由于机上与地面工作应力和环境应力的不同,以及拆装过程的影响,使得机上测试状态与地面复测状态存在差异,是导致CND和虚警的一个主要原因[17][18][19]。与使用环境数据等进行融合,进行综合诊断,成为提高BIT能力的重要途径。另外,实验证明环境应力对电子产品造成的某些累积损伤也表现为电性能的退化[18][20],在现行BIT体系的基础上,采集电性能退化信息,有可能实现对电子产品的故障预测[17][18]。3.3基于异常现象信息的故障诊断与故障预测通过被观测对象在非正常工作状态下所表现出来或可侦测到的异常现象(振动、噪声、污染、温度、电磁场等)进行故障诊断,并基于趋势分析进行故障预测。大多数机械产品由于存在明显的退化过程,多采用这种故障诊断与预测方式。基于异常现象信息进行故障诊断与故障预测的一个主要问题是异常信息往往被正常工作噪声所掩盖。例如,采用振动或噪声分析手段对直升机齿轮箱进行故障诊断与预测时,状态异常(轮齿磨损)引起的振动载荷变化可能只有1/4G,而正常工作振动载荷可能达到1000G,信噪比为1:4000[21]。另一个问题是异常现象是宏观的系统级的,而故障原因却是部件级、材料级的,一种现象常存在多种可能的原因,导致故障定位困难。基于异常现象信息进行故障诊断与故障预测的任务是:基于历史统计数据、故障注入获得的数据等各类已知信息,针对当前产品异常现象特征,进行故障损伤程度的判断及故障预测(图3)[22][23]。概率分析方法、人工神经网络、专家系统、模糊集、被观测对象物理模型等都可以用于建立异常现象与故障损伤关系模型。概率趋势分析模型[8][24]此类方法通过异常现象对应的关键参数集,依据历史数据建立各参数变化与故障损伤的概率模型(退化概率轨迹),与当前多参数概率状态空间进行比较,进行当前健康状态判断与趋势分析。通过当前参数概率空间与已知损伤状态概率空间的干涉来进行定量的损伤判定,基于既往历史信息来进行趋势分析与故障预测。概率趋势分析模型已用于涡轮压缩机气道等的故障预测,主要监控效率、压缩比、排气温度、燃油流量等四个参数[24]。图4为双参数状态空间下,压缩机健康状态演化图,2%及4%的点代表了已知的相应损伤的概率空间,椭圆为概率分布等高线。神经网络(ANN)趋势分析模型[8][21][22]此类方法利用ANN的非线性转化特征,及其智能学习机制,来建立监测到的故障现象与产品故障损伤状态之间的联系。利用已知的“异常特征-故障损伤”退化轨迹,或通过故障注入(seededfault)建立与特征分析结果关联的退化轨迹,对ANN模型进行“训练/学习”;然后,利用“训练/学习”后的ANN依据当前产品特征对产品的故障损伤状态进行判断。由于ANN具有自适应特征,因此可以利用非显式特征信息来进行“训练/学习”与故障损伤状态判断。基于系统模型进行趋势分析[23][25]此类方法利用建立被观测对象动态响应模型(包括退化过程中的动态响应),针对当前系统的响应输出,进行参数辨识,对照正常状态下的参数统计特性,进行故障模式确认、故障诊断和故障预测(图5)。这种方法提供了一种不同于概率趋势分析、ANN的途径,具有更高的置信度和故障早期预报能力[25]。例如,针对机电式作动器(EMA)进行故障预测时[25],基于MATLAB建立EMA动态仿真模型,采用干摩擦系数(FDC)、局部齿轮硬度(LGS)、扭矩常数(TC)、电机温度(MT)作为关键参数进行故障预测。FDC变化对作动筒响应的影响如图5所示。3.4基于使用环境信息的故障预测由于电子产品尚无合适的可监测的耗损参数和性能退化参数、故障发生进程极短(毫秒级)等原因[15],电子产品的寿命预测一直是一个难点。由美国马里兰大学CALCEESPC提出的电子产品寿命消耗监控(LCM)方法论[26][27]是目前主要发展方向。LCM方法论(图6)采信的是环境信息,