DCS系统常见故障分析及处理措施探讨仪电部樊凯龙摘要:随着自动化程度的日益提高,大型火电机组对DCS系统的依赖性也越来越高。如何提高DCS的可靠性作为一个重要课题摆在了热控人员的面前。通过维护DCS的实践和同行经验的借鉴,对DCS系统网络通信故障、软硬件故障和系统电源故障现象、危害进行了分析和研究,并根据有关规程提出有针对性防范措施关键词:DCS:故障;措施;探讨引言DCS综合了计算机技术、网络技术、CRT和过程控制技术,以其良好的可操作性、可靠性、维护方便和故障率低等优点,成为电厂生产实时过程控制的核心和应用发展最快的控制系统。目前,新建电厂已全部采用了DCS作为热工控制系统,大部分电厂将电气控制系统(ECS)也纳入到DCS,因此,DCS系统的可靠性直接关系到机组运行的安全性和经济性。随着发电机组单机容量的增大和热工参数的不断提高,新的设备、新的设计技术以及新的通讯方式被不断引入分散控制系统,DCS的控制功能日益完善,电厂的自动化水平越来越高,在减轻运行人员劳动强度的同时,对热工系统的稳定运行提出了更高的要求。DCS系统在使用中也不可避免地会出现影响安全与可靠性的故障。根据故障性质,可分为人为故障和设备故障。根据故障的危害程度,可分为一般故障和严重故障。随着DCS控制水平的不断提高,DCS同外系统接口的联系日益密切,DCS网络通信安全显得也格外重要。因此,按照有关标准对DCS进行有效维护,定期做故障模拟演练,减少和防止故障发生,保证生产的连续性是极其重要的。本文就生产过程中DCS系统常见故障进行分析及应对措施逐一探讨。一、DCS网络通信故障及预防措施在DCS的通信网络上连接有几种不同的节点,它通常分为两大类。一类是面向生产过程的中央处理器,称之为过程控制器;另一类是与人机相连的,称为人机界面的几种节点,分别是操作员站、工程师站、历史数据站等。1.故障现象及原因和通讯故障相关的现象表现形式为:操作员站经常出现死机或掉线;服务器死机;分散处理单元(DPU)的初始化、死机、脱网;冗余控制器切换不成功;趋势曲线不连续和数据通信中断等。除了与应用软件设计是否成熟可靠有关外,还和通信网络堵塞现象的严重程度相关,主要有以下几种因素:(1)当节点连到DCS的通信网络上时,通常需有网络接口,数据传输方式一般有广播方式和询问方式。数据传输过程中若某个节点向网上的其他节点问询数据,但其他节点没有这个数据,它就反复进行问询,直至读取到这个数据。如果网络上根本没有这个数据,就会造成网络堵塞;(2)网络通信介质损坏引发通信故障。(3)DCS组态作业不规范。如机组投产后DCS控制器的组态不断变化,但应用软件组态只加不减,有些组态实际上已没有与真正的I/O点相连,而DPU读取数据时,将该DPU上所有数据点都读进去,而其中有很大部分的数据是无效的,因而造成DPU负荷率过高,网络堵塞;(4)硬件升级后,因硬件驱动程序不匹配,引发DCS网络通信堵塞;(5)历史数据站CPU负荷率和内存使用过高,数据传输频繁时,网络堵塞现象就变得十分频繁,从而使得各种人机界面的节点出现死机现象。(6)DCS运行外部环境温度高(如控制间空调、电源风扇和机柜风扇故障等造成)、供电电源波动大和切换时间过长。2.防范措施上述网络异常均涉及到网络通信负荷率高、控制器负荷率高等问题,由于目前还没有有效的手段在线监测控制器负荷率和网络通信负荷率,找出这类事件的根本原因还有一定的难度,因此平时加强DCS系统的网络运行维护显得尤为重要。(1)利用网络测试仪,定期对DCS主系统及与主系统连接的所有相关系统(包括专用装置)的通信负荷率进行在线测试,确认在机组出现异常工况、高负荷运行及DPU或通信总线产生冗余切换的同时出现负荷扰动时,网络负荷率控制在行业规定范围内。(2)利用机组检修时间逐个复位DCS系统的DPU和操作员站及数据站;删除DPU组态中的无效I/O点,对组态进行优化;对DCS的模件、机柜、滤网等进行清扫。(3)对于使用系统服务器作为连接操作员站和主控单元重要设备的DCS系统,DCS系统网络建议采用双层网结构,管理网络和系统网络从物理上分开,提高DCS网络的可靠性和稳定性。(4)定期检查系统风扇是否工作正常,风道有无阻塞;检查各通讯线路连接是否牢固,通讯接口是否正常;定期对各通讯模件、端子进行试验,保证通讯模件的正常工作:做好机组运行中的设备维护和巡视,检查通讯状态,防止通讯故障。(5)对于DCS系统和其他系统的接口,建议在采用单向数据传输协议并在其他系统侧的网关站上,加装病毒防火墙。(6)在日常:J作中应认真按照25项预案要求,充分做好包括DPU死机、网络通讯崩溃在内的各种事故预想,将运行紧急处理措施、安全措施、技术措施、检修步骤编写成册确保机组的安全运行。(7)在处理DCS故障或日常维护时严格按照制造,一应用手册中的要求开展工作。(8)DCS电子间的环境温度信号引入CRT中,并设置异常报警。(9)对DCS系统进行技术升级应慎重,在升级前充分研究,完善升级方案,做好相应的技术措施和安全措施,确保DCS和机组的安全稳定运行。二、硬件故障及防范1.硬件故障的种类DCS系统根据各硬件的功能不同,其故障可分为人机接口故障和过程通道故障。人机接口由多个功能相同的工作站组成,其中一台发生故障,只要处理及时,一般不会影响系统的监控操作。过程通道故障发生在就地I/0模件或一次设备时,会直接影响控制或监视功能,因而后果比较严重。2.硬件故障的处理2.2.1人机接口故障处理人机接口故障常见的有鼠标操作失效、控制操作失效、操作站死机、键盘功能不正常、打印机不工作等。(1)鼠标操作失效。经常出现鼠标失效情况,重新插拔安装后恢复正常。原因是鼠标使用的USB接口不稳定造成的,与计算机主板有一定关系,更换为串口鼠标后问题得到彻底解决。(2)控制操作失效。这是由于鼠标的操作信号不能改变过程通道参数的异常状态,原因一方面可能是过程通道硬件本身故障:另一方面可能是操作站本身软件缺陷,在CPU负荷过重或打开的过程窗口过多时,导致不响应。在检查过程通道功能正常后,应对操作员站进行检查,必要时进行重启初始化操作员站。(3)操作员站死机。操作员站死机原因比较多,也比较复杂,可能是由于硬盘或内存故障,软件本身有缺陷,冷却风扇故障导致主机过热,或CPU负荷过重造成。对操作员站死机不能掉以轻心,应耐心分析其原因,同批次计算机原因可能是相同的。(4)键盘功能不正常。键盘功能不正常现象比较少见,使用专用键盘的DCS系统出现此类故障会多一些,主要是按键接触不良造成的,应定期对键盘进行清洁检查,必要时更换新键盘。(5)打印机不工作。一般是由于设置的原因或缺少墨盒所致。检查计算机设置和打印机设置,保证设置的正确性;打印机墨盒要有足够备品,以保证打印不正常后及时更换墨盒。2.2.2过程通道故障过程通道故障主要有:(1)模件本身长时间工作,元器件老化或损坏;(2)模块与底座接插不严密;(3)拨码开关错误、通讯线接线方向错误及终端匹配器未接;(4)硬件接线与实际信号要求的不一致;(5)机柜内电源输出不正常;(6)外部信号接地或强电信号窜入卡件:(7)接线问题包括信号线接反、松动、脱落等:(8)过程通道保险损坏;(9)模件底座通讯回路故障。2.3硬件故障的防范措施(1)确保硬件运行环境符合相关标准和制造厂家的规定。(2)主/从DPU之问在机组运行时,尽量不要进行人为切换,以防产生干扰。(3)确保日常维护和检修过程中防止静电感应、接地不良,并确保DCS运行环境的良好,并严格按照要求进行系统检修、维护管理。当发生冷却风扇等部件故障时,要及时处理,防止故障扩大。(4)电子间、工程师站等重点部位,应绝对禁止使用大功率无线电通信设备。特别是机柜柜门平时应该关闭,防止干扰源对DCS模件的影响。在机组运行时,应避免打开机柜检查设备时使用手机、对讲机等无线电通信设备。(5)DCS系统使用的UPS电源或保安电源,都必须保证其电压的稳定可靠。(6)重要硬件应冗余配置,避免出现重要硬件出现故障带来严重后果。同时,加强设备检查,发现硬件故障要及时处理或采取必要的防范措施。(7)重复性的硬件故障应及时与生产厂家沟通,发现有质量问题的硬件要通报处理。三、软件故障软件故障是软件本身的错误引起的。一般出现在DCS系统投运调试阶段和软件升级与组态修改后,因为应用软件程序复杂,工作量大,组态人员交叉作业,沟通存在漏洞,所以应用软件错误难以避免。DCS系统的软件包括系统软件和数据库软件。系统软件是组态系统、安装工作站的工具。组态数据库是电厂过程监控的应用软件。任何修改软件工作必须按照规定进行,同时,修改工作应有完善的备份手段。一旦发生软件或数据库丢失,可用备份及时进行恢复。另外,具有和MIS、SIS或其他系统联网功能的DCS系统,其通讯软件的功能也和DCS系统的安全有直接的联系。由MIS系统通讯带来的故障也会影响DCS系统的运行。软件故障主要表现为以下几个方面:(1)主/从CPU组态信息不一致。组态修改后,单侧CPU下装组态,导致CPU初始化不成功;(2)数据库点组态与对应通道连接信号不匹配;(3)由于网络通讯太忙引起系统管理混乱;(4)打印机不打印等;(5)计算机加电后,硬件板级故障;(6)一次元件更换后,相关的变量参数设置不符;(7)设备不工作,或系统工作但显示的对应测点值不正确、系统输出不能驱动现场设备等软件故障在机组正常运行时出现不多,主要出现在新机组调试期间和机组检修修改组态后。成熟的软件是DCS稳定工作的保证,正确的组态是DCS可靠运行的前提,因此,新机组调试和机组检修改造一定强调要做细方案,根据方案进行技术交底,保证无人为失误造成软件错误。四、电源故障控制电源是整个DCS系统的生命线,重要电源发生故障,将直接影响保护逻辑和其他控制逻辑的正常工作。电源系统出现问题主要有:(1)接线接头没有采用压接或压接不牢造成接触不良:(2)热循环使接头松动(3)螺栓连接点因震动引起松动:(4)连接点因腐蚀而接触不良:(5)电源线阻抗增大和绝缘层不好:(6)地极电阻增大,地极同地网断开:(7)电源线特别是地线布线不合理,与产生强磁干扰的电线和设备相隔太近等:(8)热工某些用于保护的设备或元件瞬间或长时间失电:(9)电源模块本身故障。拥有合理电源布置的DCS系统无疑是稳定的DCS系统,电源故障导致的系统故障时有发生,特别是电源模块使用时间长后,电子元器件寿命到期,电源模块故障率极高。防止电源模块故障应采取的措施有:(1)选用高质量的电源模块,合理配置机柜电源,电源冗余率要高;(2)定期检查电源输出电压:(3)利用检修期间检查电源回路,保证无接线问题:(4)对电源建立管理档案,对电源进行寿命管理,对寿命到期的电源安排更换,不能等电源故障后再更换。五、结束语随着火力发电机组自动化水平的不断提高,单元机组DCS系统的功能范围不断扩大,由于DCS本身故障引起的障碍、事故时有发生。由DCS故障引发的障碍、事故涉及到控制器、网络通讯、硬件故障、软件故障、电源或者人为因素等问题。目前还没有有效的手段监测控制器负荷率和网络通讯负荷率,准确确定这类事件的根本原因还有一定的难度。减少系统故障率,提高设备可靠性是热控技术人员努力的方向。实践证明,制度完善、加强管理是确保DCS系统安全运行的关键。保证设备运行环境,防范硬件故障,及时备份软件及数据,减少人为误动,是防止DCS故障的有效手段。参考文献廖承恩.微波技术基础[M].西安:西安电子科技大学出版社,2001R&S.频谱分析仪原理[M].北京:电子工业出版社,2002年胡树豪.实用射频技术[M].北京:电子工业出版社,2000年ReinholdLudwing.射频电路设计一理论与应用,[M].北京:电子工业出版社,2002年