试论新形势的电视台机房工作摘要:笔者结合自己的实际,对做好新形势下电视台的机房工作提出了自己的见解,提出了具体的措施,期望能给同行有所借鉴。关键词:电视台机房;机柜内微环境;预防性报警前言:伴随着各种各样愈演愈烈的网络安全威胁,电台机房工作者不仅要熟悉本业务,还要提高警惕意识。对于电视台来讲,设备的正常运行,是安全播出的保障,是电视台日常工作能够正常运行的基础,所以,机房监控的重要性尤为重要。笔者在厦门同安电视台制作部门工作多年,认为机房管理人员应深入观察,结合和了解与业务流程和电子设备相关的底层物理基础设施,并通过有效的监控和管理来降低风险。提高数据中心系统可用性,并且提高能源效率的重要性。一、更新理念,对传统机房的监控进行改善传统机房环境监控是把重点放在对机房整体环境、空调及配电柜的监控上,而忽视了对设备内的监控。另外,传统机房环境监控系统也缺少丰富的阈值、预警方式和预警流程设置,不能在真正意义上实现预警功能。针对传统机房环境监控的现状,需要引入三大新理念加以改善。1、对设备内部进行监控机房监控的目的在于保护机房内IT系统的正常、有效运行,在事故发生之前侦测出潜在危机,并通过各种方式将警情信息发送给相关人员及时进行处理。因此,机房监控的核心应该是对IT系统运行状态的监控,而最直接有效的监控应该是直接对电子设备运行状态进行监控。2、多层次的机房监控完善的机房监控系统应该是能够实现对从设备运行情况到机柜微环境再到机房整体环境这样多层次的监控,并能重点实现对设备内部的监控。我们都知道,机柜内的微环境是设备正常运行所需要的物理环境。机柜微环境参数最能体现设备所处的实际运行物理环境的情况,所以实现对机柜内微环境的监控也相当重要。机房各个点的环境参数值是不同的,因此机房内整体环境监测的参数不能体现各机柜微环境参数,更不能体现重要设备内部的环境。也就是说,即使机房整体环境参数正常,IT设备所处的环境也不一定正常。所以说机房的整体环境监控的重要性次于对设备的监控和对机柜内微环境的监控。降低机房内的温度主要是靠空调机,他的运行使机房内的整体温湿度保持在一个合适的范围内,机房各个点的温度参数值是不同的。空调机出风口的温度值不能说明机房的整体温度和机柜微环境温度,空调的正常运行不能说明设备就能正常运行。因此对空调的监控不能代表甚至取代对设备的监控。漏水监测系统是为了监测机房内是否有漏水,以防止因漏水影响设备的正常运行。线式探测器是成线型布置在机房可能漏水的最低处,而实际上点式漏水探测器同样可以反映机房的漏水情况且比线式探测器经济实惠。安装方便、维护简单。机房内设备因为特别重要,通常都是采用UPS供电,并且UPS是双供电,只要对UPS进行监控就能确保设备正常供电并且能反映市电的情况。因此,对电源的有效监控是在不增加任何投资的情况下通过协议实现对UPS的监控,通过监控其电压、电流、电池使用情况。市电情况来确保设备的正常运行。3、机房监控的预警功能报警(alarm)目的是要报告事件的发生,往往是在故障或危害发生之后向管理人员发送警讯,及时地发送警讯可以缩短故障修复时间(MTTR),最大程度地保障系统运行。但故障还是不可避免地发生了,影响了系统的正常运行。预警(alert)则是在故障或危害将要出现前向管理人员报告潜在危机,提示相关人员进行处理,是事前的,可以防止事故的发生。有效的预警可以增加系统平均无故障工作时间(MTBF),并可以根据危机情况自动延伸到报警。那么,机房监控该如何实现预警功能呢?首先,可以通过灵活的阈值设置多种侦测方式,确保能及时地发现潜在危机;其次,通过设置多种预警的方式.确保所有相关人员无论在何时何地都能收到警讯;再次,设置多个预警流程,确保不同的相关人员在不同时间接收到不同程度的警讯。这样,一旦有危机出现,立刻将信息发送给相关人员直至危机得到有效处理,实现真正意义的预警功能,最大程度地保护系统的运行。科学的预防性报警主要有三个特点:科学的报警临界值的设置;多途径,多层次的报警;报警可触发电源开关,摄像,以及其他系统动作。科学的报警临界值的设置,对于像温度、湿度、风速、害气气体检测等模拟量传感器的报警临界值的设置方式非常科学.每个传感器可以同时有以下7种设置方式:●范围设置。例如温度范围设置为200C-300C,则温度不在范围内就报警;●最大值设置。例如温度最大值设置为400C,则温度超过最大值就报警;●最小值设置。例如温度最小值设置为100C,则温度低于最小值就报警;●达到一定高值的允许持续时间。例如温度值设置为370C、300秒,则温度值达到370C持续时间300秒就报警;●达到一定低值的允许持续时间设置。例如温度值设置为150C,300秒,则温度值达到150C持续时间300秒就报警;●增加温度设置。例如温度值设置为100C,60s,则当温度在1分钟的时间内升高的温度超过100C就报警,那么可能是制冷系统坏了或者是有火灾,这时负责人就可以通过Intemet远程查看现场的情况.及时解决问题;●减少速度设置。例如温度值设置为100C、60s,则当温度在1分钟的时间内,降低的温度超过100C就报警。温度,湿度、露点检测的功能,各类模拟量传感器的报警临界值的设置方式都可以照此设定。开关量传感器也有四种报警临界值的设置方式。对每个传感器的报警临界值定义出合理的组合设置,则可以及时检测出机房的各种潜在危机。二、NetBotz预警平台的特性NetBotz提供多途径、多层次的报警。NetBotz的警讯可通过声音、电子邮件、手机短消息等多种方式及时通知相关的负责人。报警时可根据问题的轻重按不同的方式多层次或多级别报警。例如温度超过所设置的范围(200C~300C),那么就用第一级别方式,通常用SNMPTrap的报警方式持续地向网络管理的计算机发送报警,直到恢复正常值。如果持续了15分钟还没恢复正常值,那么系统就采用第二级别方式。同时向主管人员通过电子邮件或手机短消息等方式报警,这时主管人员需要远程察看现场情况。如果持续60分钟还没恢复正常值,就采用第三级别方式,同时向总负责人以电子邮件或手机短消息等方式报警,这时一定要亲自到现场察看。用户还可以根据报警持续时间、报警程度自定义第4,5……更多更灵活的报警级别。用户还可以自定义报警对象、重复次数、间隔时间、是否包括图表、图像等等。完善的机房监控系统应该具备三大特点:●能够实现从设备内部运行状态到机柜微环境再到机房整体环境这样多层次的监控;●能够有丰富的阈值设置、预警方式设置及预警流程设置,监测出各种潜在危机,并保证相关人员能够收到警讯,达到预警的目的;●具有强大的网络功能、能够在随时随地进行浏览警讯及运行状态,通过网络发送警讯,实现无人职守。作为当今世界最领先的智能型生产环境监控与预警平台,集强大的环境监控、图像监控和网络功能于一体。NetBotz可以实现:●对整体环境、机柜内微环境、IT设备内部的运行状态三个层次的监控;●对机房整体环境进行全面监控,视频、温度、湿度,烟雾、漏水、红外、电压,电流、UPS.空调等,兼容第三方摄像机和传感器;●使用机柜微环境监控模快对机柜微环境进行全面监控,视频、微环境(温度、湿度、风速、噪声、滴露)、PDU、门禁、门磁等;●通过标准协议(SNMP、IPMl)对IT设备内部的运行状态进行监控,不需要增加任何硬件和投资,只需要将IT设备的IP地址添加到Netbotz中即可将其状态参数读出来,并可对其设置阈值报警。IT设备如:服务器、交换机、路由器、UPS,防火墙等;可读出的参数如:CPU温度、风扇转速、是否在线、UPS电压.电流,电池余量。工作时间等;●多层次的阈值设置(模拟量传感器有7种阈值设置,如:工作范围、最大值、最小值、改变率等,开关量的传感器有4种阈值设置:报警、报警持续时间。正常状态、正常状态持续时间等);●多层次的预警方式(短信息。E-mail、声音、录像抓拍、曲线图、HTTP.FTP.SNMPTRAP等);●多层次的预警流程(针对一个报警可以设置在不同的程度、不同的时间以不同的预警方式向不同的管理人员多次发送警讯直至恢复正常值,流程可以按时间。传感器类型、报警范围等进行自定义设置);●采用嵌入式操作系统,脱离PC机独立运行.系统稳定;●模块化、集成度高、扩展性强,安装调试、升级改造方便;●支持有线以太网、无线以太网、GPRS/GSM、拨号等多种通讯方式;●设备托管监控,利用一台设备实现对多台设备的集中管理监控;●丰富的警讯浏览方式:数值显示。警讯查询、曲线图、录像回放、地图等;●多层次的安全认证。用户管理确保系统安全;●系统参数设置备份,恢复功能;●多种型号的设备适用于大、中、小不同空间的机房、库房、实验室的监控,壁挂式。机架式两种安装方式自由选择。1.数据记录与查询历史记录对于分析事故和避免事故的再发生是非常重要的。所有的传感器读数值和报警信息都可以保存下来,以供查询和分析。传感器的历史记录可以按日期查询.以报表形式或图形呈现出来。图形可以直观地表现出传感器读数值的变化趋势。图形可以另保存为JPEG或者BMP格式。报表可以另转保存为Excel电子报表的格式。报警历史可以按日期查询。可以查询每一条报警的细节,浏览报警中的录像,听报警中的录音。没有解除的报警的底色呈红色。2.重要设备的运行状态和网络状态的监控监控一些重要设备的运行状态是很有必要的。例如,贵重的服务器里的风扇是用于给CPU降温用的,如果风扇坏了就会烧掉CPU,甚至发生火灾。在重要设备上安置温度,湿度,风速,噪音等传感器,通过NetBotz的软件功能对设备的温度,散热风速,是否开机,电量参数、是否网络在线和常见网络运行参数进行适时的监视,如有异常则发出预警。3.设备运行状态的监控对UPS(需支持SNMP协议)的监控包括:UPS是否是处于供电状态。UPS已供电状态的时间、UPS余量。出入申压、出入电流、UPS的内部温度等;可对UPS实施智能控制遥控开关UPS。警报的同时立刻自动启动或关掉UPS设备;可以设定谁可以遥控UPS的权限等。