机房环境动力监控系统功能介绍及设计需求规划和选择一、为什么要用动力环境监控在信息化建设中,机房运行处于信息交换管理的核心位置。机房内所有设备必须时时刻刻正常运转,否则一旦某台设备出现故障,对数据传输、存储及系统运行构成威胁,就会影响到全局系统的运行。如果不能及时处理,更有可能损坏硬件设备,耽误业务系统运转,造成的经济损失是不可估量的。二、机房环境动力监控介绍随着网络信息化和机房房建设发展迅猛,作为机房正常、稳定运行基本保证的空调、电源等设备的运行状况以及机房环境的安全状况也日渐凸显出其重要性。由于许多重要机房是24h不间断运行,而管理人员很难保证时时刻刻对机房情况进行监控,因此通过技术手段实现24h不间断监控显得非常必要。机房环境动力监控系统通过通信和软件的集成,可以实现对机房环境和UPS、机房空调、发电机等设备的集中监视,并实时采集报警信息发送给相关的管理人员。机房环境动力监控的监控对象是机房的辅助设备,目前一般没有将服务器、网络等的运行纳入监控范围(有专业的软件可以实现服务器和网络的监控)。机房环境动力监控与楼宇自控系统相比较,其特殊性表现在:(1)机房规模虽小,但被监控设备类别多、品牌杂、型号多。(2)被监控设备应用面窄,大多仅限于机房使用,与楼宇自控的控制对象往往不同。(3)机房设备由于安全性要求很高,因此主要以监视为主,控制需求较少,以避免误操作带来的风险。三、环境动力监控系统的结构组成机房环境动力监控系统由现场传感器和检测设备、通信设备、上位机和软件组成。其中上位机和软件处于核心地位。整个系统主体上是基于PC的(PG-Based)控制结构。机房环境动力监控的特点是以监视为主,采集的数据需要进行处理如报表、各种报警、打印、数据记录等。因此监控软件的核心功能之一就是采集数据。它和采集数据的硬件设备的通信方式主要可归纳为三种。(1)标准通信协议。常用的标准协议有:ARCNET,CANBus,DevjceNet,LonWorks,Modbus,Profibus。(2)标准的资料交换接口。常用的有:DDE(dynamicdataexchange)、OPC(OLEforProcesscontrol)。使用标准的资料交换接口。(3)绑定驱动(nativedriver)。绑定驱动程序是针对特定硬件和目标设计的驱动。四、机房动力环境监控系统实现的功能监控系统需要实现的主要功能和楼宇自控项目基本相同,概括起来有以下几个主要方面。(一)集中实时监视功能传统的机房管理采用的是每天定时巡视的制度,比如早晚各一次检查,并且将设备的一些核心运行参数进行人工笔录后存档。这样取得的数据只限于特定时段,工作单调而且耗费人力。而集中实时监控功能可解决此问题。比如对于UPS电源的运行,用户一般比较关心负载功率、总体负载率、三相是否平衡等参数。如果没有集中监控,用户需要分别到机房内的配电室,现场查看UPS的相关运行参数。而实时监控系统通过通信采集设备将当前被监视设备的运行参数采集上来,实时显示在监控电脑屏幕上,免去了用户到不同的设备跟前查看数据的麻烦,如果有必要,随时都可以在办公室内查看。(二)报警和事件功能报警指机房运行中出现异常情况,比如停电事故、漏水事故等。报警的发生意味着机房的运行受到影响,其严重程度可用优先级的概念来定义。一般监控系统均可设置几十到上千个优先级以区别报警的严重程度。机房内的报警优先级一般划分为10级即可。事件指机房运行中发生的一些正常的状态改变或人为操作。事件不是异常情况,因此不需要像报警一样立即通知用户进行处理。但是往往需要进行记录,以便日后检查。比如修改精密空调的设置温度,这就是一个正常的操作事件,但对修改时间、修改人的这些信息进行记录是有必要的。报警功能是机房动力环境监控系统最重要的一项功能,原因在于机房内设备和系统运行的安全性要求很高。报警发生后,系统应对报警事件进行记录,并迅速通知值班人员或管理人员进行处理。报警发生后,一般按以下步骤来进行处理:(1)通知。首要的是将报警信息告知给相关人员。(2)确认。表明已经知道报警的发生,正在处理。但此时报警仍然存在,没有消失。(3)消除。经过处理,故障消失,设备恢复正常,报警也随之消失。报警的通知主要采用以下几种模式来实现。1.屏幕显示报警这是最基本的方法,但也往往是报警信息最详尽的模式。通过在监控电脑屏幕上显示醒目的图案和文字来告知用户。报警文字是关键的信息,一般至少需要明确指出每次报警的几个关键参数:报警时间、报警设备、故障内容、优先级、紧急解决办法等。其中紧急解决办法是一个很有必要的功能,因为机房内的辅助设备种类多,最基本的紧急解决办法就由专业人员尽速响应和处理,因为报警涉及配电、UPS电源、空调、消防等几个系统,现场值班人员并不能对每种设备都精通,因此能在第一时间给出紧急处理办法是非常必要的,甚至一个故障设备厂家的维护电话号码都能解决大问题。屏幕报警的缺点在于,如果监控电脑旁没有人,或者没有人注意,则报警可能被延误。这种模式的报警通知面比较小,不能及时传播给专人。这种报警模式如果结合网络传输,会提高效率,后面章节将会予以介绍。2.本地语音报警当报警发生时,监控系统自动通过扬声器播放报警语音,将报警消息传递给现场人员。其传递消息面比屏幕显示报警要广,但也限于一个房间内。其优点是非常人性化,缺点是传播面仍然不广,而且不能定人传播。3.电话拨号报警当报警发生时,监控系统自动通过电话网,拨通系统预设的号码,对方接听后,自动播放报警语音,通过电话将报警消息传递给相关人员。这种模式的优点是能够实现定人播报。如果和管理责任人结合起来,会有比较好的效果。比如管理UPS和电源系统的人员是A,管理空调系统的人员是B,还有其他几个人C、D、E也帮助进行辅助管理。则当发生UPS故障后,系统直接拨打A的电话,减少了中间环节。但是实现此项功能,监控系统必须具备以下几个能力,否则效果会大打折扣。(1)具有线路是否通畅的判断能力。当拨打的电话号码占线,系统自动停止这个号码的拨号。(2)具有接听者是否接听的判断能力。当接听者接听后,系统开始播报报警语音。(3)具有确认机制。当接听者接听后,需要按下某个预先定义的按键进行确认操作,表明他已明确知道这个报警的内容。(4)具有连续重拨的功能。例如,当系统拨打A的手提电话,如果占线或不在服务区,则自动按照系统内预设的顺序(假设是A→B→C→D→E)拨打B的电话。如果B接听了但没有确认,再自动拨打C的电话……直到有人确认为止。从上面的电话报警过程来看,电话拨号通知的报警信息要传达到预先指定的人员,并不是一件顺利的过程,因此,确认机制是最为重要的。目前市场上销售的监控系统并不都具有完善的电话报警手段。电话报警可通过两种设备实现:语音Modem和电话语音卡。4.手机短消息报警随着通信业和短信业务的迅猛发展,通过手机短信发送报警信息成了一个有效的手段。其优点在于可以通知很多人,通知面广。但这种方式仍缺少有效的确认机制,仍然无法判断是否真正通知到指定的人不过其发送面广的优点可以适当弥补这一不足。5.E-mail报警通过网络,将报警信息以电子邮件的形式发送到个人。但此模式的及时性不好,难以保证让相关人员在第一时间得知消息。(三)运行历史数据记录和趋势功能对机房的管理者来说,除了系统的报警功能以外,系统的另一个重要的功能就是历史数据和趋势功能。因为机房只是一个存放计算机和网络设备的场所,随着事件的推移,机房内的设备数量、型号等都会发生变化,按照目前的趋势,一般都是越来越多。因此,从机房管理角度,需要能够拥有机房设备运行的历史资料,这样可以通过分析,找出发展趋势、发现故障隐患。从而大幅度提高机房的管理水平。历史数据和趋势功能主要实现对机房运行的关键参数进行长期的记录,通过调用、查看历史趋势图,进行一些统计分析等。对于数据的记录,一定要选择关键参数,而不能什么参数都进行记录,同时应注意参数记录的频率。因此,详细了解用户的需求非常重要。因为,如果记录数据量太大,对基于PC架构运行的监控系统,其存储能力受到比较大的限制。比如,功率参数是一个关键参数,如果每秒记录一次参数值,假设在数据库中占用4个字节,则一年就需要记录31536000次,需要的硬盘容量是126M,而100个参数就需要几十个G的容量,在调用数据时将会非常缓慢,记录数据时因对系统要求很高,也容易造成系统瘫痪。这个问题虽然可以采用实时数据库来解决,但费用昂贵。因此,对于需求的具体分析非常必要。按照机房运行的规律,建议模拟参数记录频率在lOmin以上一次。报警数据则因其量小,发生频率低,应全部记录。这样既可保证资料的相对完善,又极大地减少了数据量。(四)用户管理功能用户管理主要是对监控系统的使用者进行权限管理,避免末授权的人员随意修改参数设置或者查看。而授权需要进行分级控制,不同级别的用户只能进行自己这个级别内所允许的操作。(五)计划安排功能通过事件计划表,定时执行一些操作,比如系统资料的备份、下班定时关灯等。该功能在机房内使用不多,但随着机房监控系统的不断完善,可以满足更多的用户需求。(六)报表功能数据报表在工控系统中是必不可少的一部分,是数据显示、查询、分析、统计、打印的最终体现,是整个控制系统最终结果输出的重要组成部分,是对机房监控过程中系统监控对象的状态的综合记录和规律总结。一般有实时数据报表、历史数据报表(班报表、日报表、月报表等)。用户通过报表的过滤器选项,将自己感兴趣的内容打印出来,便于分析存档。(七)远程管理功能远程管理主要是指利用目前日益完善的网络资源,使操作人员不再局限在监控主机旁操作,而能够在其他地点对系统进行控制。一般监控主机安装在机房的监控室内,但并不是所有的机房都是24h有人职守。通过远程管理,操作员可以在办公室、外地等地进行管理,消除了地域限制。比如省级机房和地市级机房,如果都设置全职管理员的话,人力资源上浪费较大。而通过网络,可以将监控系统在省里集中监控,地市上不再需要设置专人。当运行有问题时,通过前面的多种报警通知模式,省上和地市均可得到消息,从而可以快速解决问题。(八)运行设置和控制功能除了主要的监视功能,系统还应具备控制能力。在大多数机房中,控制对象主要是非电源类设备,比如空调、通风、照明等系统。由于电源设备的可靠性要求极高,进行控制操作时(比如开/关机等)很可能因为误操作造成机房瘫痪,因此不进行控制,只进行监视。(九)安全冗余功能由于机房环境动力监控系统监视着机房的运行,如果自身出现故障,将无法进行监视,降低了管理的安全性。因此,在要求机房有很高的安全管理水平时,往往采取冗余的办法解决自身的可靠性。一般通过以下两种方式实现。根据对可靠性要求的高低和实际故障隐患的大小,两种方式既可同时使用,也可单独采用。采控设备的冗余:负责监控计算机与现场被监控设备通信的采控设备承担着双向的数据传输工作,对其备份可以提高传输的可靠性。监控计算机的冗余,由于监控系统一般均运行于PC平台的硬件上,而且操作系统以Windows200O和XP为主,因此,计算机硬件、操作系统和监控软件自身的故障都会造成系统停止工作。可以通过局域网的TCP/IP协议将两台装有同样软件的计算机配置成热备份冗余运行,一台为主机,一台为从机。相对而言,计算机和软件系统出问题的概率高,对机房内的监控做冗余,建议做计算机的冗余,即采用双机热备份方式。双机热备主要是实时数据、报警信息和变量历史记录的热备。主/从机都正常工作时,主机从设备采集数据,并产生报警和事件信息。从机通过网络从主机获取实时数据和报警信息,而不会从设备读取或自己产生报警信息。主/从机都各自记录变量历史数据。同时,从机通过网络监听主机,从机与主机之间的监听采取请求与应答的方式,从机以一定的时间间隔(查询间隔)向主机发出请求,主机应答表示工作正常,主机如果没有作出应答,从机将切断与主机的网络数据传输,转入活动状态,改由下位设备获取数据,并产生报警和事件信息。此后,从机还会定时监听主机状态,一旦主机恢复,就切换到热备状态。通过这种方式实现了热备。当主机正常运行,从机后