华为公司双机容灾解决方案

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

关于因机房温度过高导致HP小型机宕机的说明和建议中国惠普有限公司1.HP小型机的降温和感温工作机制1.1工作原理惠普Superdome、rp8400、N、L系列小型机降温部件是大功率风扇,其中Superdome有六个风扇,rp8400前后共有21个风扇,N、L系列主机本身都有8个风扇,前后各两个,侧面有四个。另外,机器的每个电源都各自带有一个风扇。Superdome、rp8400、N、L系列的感温和控温原理是相同的,所以我们以N系列为例来阐述其工作机制。惠普N系列小型机感温部件及风扇控制部件都是一块叫做“PlatformMonitorboard”的监控卡。图1是这块卡的实物照片,它还负责监控和记录系统各部件的运行状况,包括系统电源,处理器,内存等等。图1PlatformMonitorboard实物图图2是它的电路连接图,可以看到PlatformMonitorboard是图2PlatformMonitorboard电路连接图块功能强大的卡。其中它的U15就是一个温度感应器,专门感应环境温度(机房温度)。通过这个温度感应器,PlatformMonitorboard可以通过改变机器自带8个风扇的转速,来调整机器的温度。电源的风扇转速不被其控制,但一旦电源风扇出问题,PlatformMonitorboard可以及时监控到,并作出相应的动作。图3是N系列主机的俯视图,图中红色的部分是PlatformMonitorboar。图3N系列主机的俯视图1.2HP小型机的数据保护功能当室温在31摄氏度以下,感应器认为机房温度处于Normal(正常)状态。当室温超过31摄氏度,PlatformMonitorboard就会通过提高风扇转速来提高机器散热能力保持机器正常运行。同时它会发出一个OVERTEMP_CRIT的信号给系统板的“Ralf”芯片,“Ralf”就会将“Dillon”芯片的错误寄存器中的一位置位。“Dillon”会发一个中断行给一个叫“Elroy”的IO芯片。最后“Elroy”会发一个中断请求给操作系统。当操作系统受到这个中断请求(或者每隔10秒它会去检查“Dillon”寄存器的状态),它会通过PDC(processordependencycode)去访问“Dillon”寄存器并得到错误状态。然后操作系统会把这个出错消息发给一个叫做“envd”的守护进程。(“envd”这个守护进程主要监控室温和机器的风扇运行状况,通过改变它的配置文件“/etc/envd.conf”,可以对其进行一定的控制)再由“envd”做出相应的动作。当发出OVERTEMP_CRIT信号(超过31摄氏度)时,“envd”的缺省反应是不做动作,但可以通过改变“/etc/envd.conf”来执行用户所需用的动作。当室温超过35摄氏度,PlatformMonitorboard会发出一个OVERTEMP_EMERG的信号,通过以上相似的过程最后发给“envd”。这时“envd”的缺省反应是执行“/usr/sbin/reboot–qh”来关闭机器。我们也可以通过改变“/etc/envd.conf”来执行用户所需用的动作。当室温超过40摄氏度,PlatformMonitor就会直接关闭系统的电源。同时发出log给系统的错误寄存器。综上所述,HP这样设计的目的在于万一因意外事故导致机房温度过高,小型机能够保护用户的数据不至于丢失,保证数据安全性,而且具有用户参与控制的灵活性。实际上,不仅仅HP,业界其他UNIX服务器生产商也遵循这一设计思想。在具体实施过程中,用户可以通过改变“envd”的配置文件“/etc/envd.conf”,来控制系统超过31摄氏度和35摄氏度的动作。2.HP小型机同类产品的比较惠普小型机秉着惠普公司一向所追求高标准,高要求的宗旨,在出厂前全都经过严格测试,在性能指标的各个方面达到或者超过业界标准。在业界受到一致好评,在电信、金融、制造业等等各个重要行业得到了广泛应用。借此,惠普公司保持了其在小型机市场上的优势。SuperDome,Rp8400,N,L系列小型机在温度方面的性能如表一:表1SD,rp8400,N,L系列小型机温度指标和业界其他的著名厂家的同类产品比较处于同类标准,表2是业界同类产品的温度指标比较:运行温度(摄氏度)非运行温度(摄氏度)温度最大变化率HP公司SD,rp8400,N系列5---35-40---7020摄氏度/每小时IBMRS6000M8010---40没有数据没有数据SUN1000010---31没有数据没有数据表2业界同类产品温度指标比较从上表可以看出,各UNIX服务器主要厂家的主流产品的指标没有显著差别,所以惠普公司小型机在温度指标方面是完全符合业界公认标准的。详细的各厂商性能参数请查阅下列网址:HPrp8400:::=salesmanual&parms=SMS&xh=HOwifi5J6H1wci1USenGnN9332&xhi=salesmanual%5E&type=HARDWARE&search=M80&title=T&product=3.对机房环境的建议机房通风设计的最佳方案是采用机房专用空调,地板下送风,天棚上抽风,形成空气循环。由于HP小型机均是从前面吸入冷空气,从后部排风散热的方式,所以最好在每排机柜前开设送风口。且前后排设备之间必须拉开足够距离。切忌两排设备间距过小导致后排设备吸如前排设备排出的热空气。请参阅后图:4.环境变化监控预警措施上面已经提到温度变化超出一定范围时,HP小型机会做出一系列反应,包括发出告警信息等等,但系统缺省的告警信息只显示在系统控制台上,这样不能满足用户的要求,因此我们建议:1.在envd.conf中调用shell脚本,把预警信息显示在系统管理员的呼机上,这种方案简便易行。2.HPOperviewIT/Operation提供全面的系统和网络管理、监控、预警解决方案。4.1shell脚本预警ITO可以全面监控硬件、操作系统、数据库、中间件及应用,并可以与envd配合监控环境情况。如果不采用ITO,也可使用预先编好的script程序与envd结合,实现通过modem呼叫值班人员的呼叫进行报警的功能。需要准备的设备是一个外接modem、电话线和自动询呼机。将modem连到惠普服务器上,并将电话线连接到modem上。预先编好script程序以实现通过modem拨打自动询呼机。例如/etc/envd.conf配置修改如下:OVERTEMP_CRIT:y/tmp/pager.shOVERTEMP_EMERG:y/usr/sbin/reboot-qhFANFAIL_CRIT:y/tmp/pager.shFANFAIL_EMERG:y/usr/sbin/reboot-qh在/tmp目录下编写名为pager.sh的script程序,该程序具有可执行权限。其内容是通过modem拨打指定的自动询呼机。当温度超过摄氏31度时或几个风扇坏掉时,envd会将告警信息写到/var/adm/syslog/syslog.log系统日志中,同时envd会自动调用程序/tmp/pager.sh拨打值班人员的询呼机发出告警信息。值班人员接到告警信号后就可快速行动,以防止环境温度继续恶化。此方法实施成本较小,但报警功能单一,只能拨打自动询呼机并以数字信号表示错误内容,但仍然是一种有效的预防方法。4.2HPOpenviewIT/Operation预警方案4.2.1ITO产品简介HPOpenviewIT/Operation是惠普公司在HPOpenview平台上开发的一套用于铺助系统管理的工具软件包,它的其中一个主要功能是根据用户的设置、自动地对系统的运行情况进行监测,发现故障时能自动报警并可以根据设定进行相应的故障处理。4.2.2.envd对环境的监控惠普UNIX服务器是专为企业级客户设计的,其强大的功能、可扩展外设、冗余的设计可以保证系统满足企业客户的各种要求。对于企业级客户而言,宝贵的数据即是企业的生命。如同其他厂商一样,为了保证客户数据的完整性、一致性,惠普UNIX硬件及操作系统也设置了环境状态检查,保证外界环境的严重恶化前,系统即可主动采取措施,而不会对数据造成损坏。惠普UNIX硬件系统设有温度传感器,可以实时监测环境温度。尽管惠普服务器的风扇是多冗余和热插拔的,如果坏掉一个也不影响使用,但对于服务器的风扇也同样进行监控。以保证在多个风扇故障时,系统可以主动采取措施,保障数据的一致性。惠普操作系统中envd就是监测外界环境状态的后台进程。Envd后台进程可以检查环境温度和风扇运转状态。当温度传感器感应到环境温度超过告警范围,或发现风扇故障时,envd后台进程就会根据状态级别,发出相应告警信息给syslogd后台进程。Syslogd后台进程负责将告警信息写入到系统日志外界“/var/adm/syslog/syslog.log”中,以记录系统异常状态。如果envd不能把告警信息传给syslogd,envd就会直接将该告警信息发到系统控制台console上进行显示,以提醒系统管理员。如果状态继续恶化,环境温度超过危险范围,或多个风扇同时故障时,envd后台进程将直接关闭服务器,以保护系统,防止文件系统或数据库损坏。请参考惠普服务器的性能指标以确定温度范围。系统配置文件/etc/rc.config.d/envd是控制envd后台进程是否在系统起机时自动启动的参数文件。如果文件中参数ENVD=1,则每次系统起机时envd会自动启动。如果参数ENVD=0,则系统起机后envd进程不会启动。缺省是ENVD=1自动起envd后台进程。参数配置文件/etc/envd.conf是控制envd如何作用的。基本格式如下:event:message_indicatoraction上一行包含“事件:是否记录到日志文件”。可以识别的事件event包括OVERTEMP_CRIT,OVERTEMP_EMERG,FANFAIL_CRIT,FANFAIL_EMERG。Message_indicator只能是“y”或“n”,即是否记录该事件到系统日志文件/var/adm/syslog/syslog.log中。Action则为如果发生该事件系统将采取的动作。参数描述NORMAL环境温度在正常范围内。OVERTEMP_CRIT环境温度超过正常运行范围,但硬件系统仍然可以承受。OVERTEMP_EMERG环境温度超过硬件系统可以承受的最大范围,系统即将掉电。系统至少在60秒后才会进入overtemp_powerloss状态。OVERTEMP_POWERLOSS机柜里的硬件自动掉电保护。FAN_NORMAL所有的风扇都运转正常。FANFAIL_CRIT一个或多个风扇坏掉,但其他冗余风扇仍能保障系统正常运行。FANFAIL_EMERG损坏的风扇个数过多,系统无法正常运行,系统即将自动掉电保护。FANFAIL_POWERLOSS机柜里的硬件自动掉电保护。/etc/envd.conf缺省配置如下:OVERTEMP_CRIT:yOVERTEMP_EMERG:y/usr/sbin/reboot-qhFANFAIL_CRIT:yFANFAIL_EMERG:y/usr/sbin/reboot-qh即温度告警或风扇告警时将在系统日志文件中进行记录,但不采取措施。如果温度或风扇超过系统限度,系统将执行“/usr/sbin/reboot-qh”,快速关闭系统。对于惠普L系列和N系列服务器,环境温度小于摄氏31度为NORMAL,温度大于31度为OVERTEMP_CRIT,这时系统报警但可以继续运行。温度大于35度进入OVER

1 / 11
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功