网络关键物理基础设施的管理策略100号白皮书执行概要在选择IT网络物理基础设施的管理解决方案时,为获得网络关键物理基础设施可靠运行所需之众多数据点的可见性,必须对每一单个设备进行管理。网元管理解决方案提供了实现上述目标的最佳途径,它们不仅可以管理特定类型的设备,而且能够吸纳保证网络可用性所必须的大量数据,更重要的是使这些数据可管理。©2003AmericanPowerConversion.Allrightsreserved.Nopartofthispublicationmaybeused,reproduced,photocopied,transmitted,orstoredinanyretrievalsystemofanynature,withoutthewrittenpermissionofthecopyrightowner.简介目前,计算和网络资源正在朝更高的可用性发展,这个趋势使人们越来越关注这些资源所依赖的底层物理基础设施。显而易见,为了优化物理基础设施层的性能,就很有必要对该层进行管理。在为物理基础设施层选择管理方案时,需要考虑的关键因素包括:部署和维护成本、适应业务需求变化的能力、功能性和易于集成性。人们期望的是符合总体管理体系所要求的管理方式,它应该具有下面这些优点:能提供影响系统可用性问题的有关信息、减轻系统管理的负担、降低宕机风险和提高IT人员的工作效率。IT网络关键物理基础设施如图1所示,网络关键物理基础设施(NCPI)是构建信息技术(IT)和通信网络的基础,它包括:•电源设备•冷却设备•机架和物理结构•安全和防火措施•布线•管理系统•服务初看起来,这些组件好像与楼宇系统中的配置相似。几乎所有建筑物都具有电源、空调、环境监控和安全基础设施。NCPI与之的差异在于NCPI以计算资源的可用性为重点。楼宇系统主要关注的则是楼内居民的舒适感和传统设施的功能(如楼宇自动化)。这两种系统之间的需求大相径庭。标准化、集成化和具有适应性的NCPI是维护高可用性和可管理网络所不可或缺的。©2003AmericanPowerConversion.Allrightsreserved.Nopartofthispublicationmaybeused,reproduced,photocopied,transmitted,orstoredinanyretrievalsystemofanynature,withoutthewrittenpermissionofthecopyrightowner.–NCPI层高可用性网络人员人制员编培训流程准化标易性简建档技术数据理处通讯数据存储网物理基施络关键础设源电机架和物理构结冷却服务管理系统安全和防火措施布线NCPI标志着公司内传统设备部门和IT部门职责的集中。NCPI管理职责可以归入设备部门或IT部门,或由两部门共同承担。与以前相比,这种利益融合引发了管理物理基础设施的新问题和新挑战。NCPI管理策略的难点若要成功实施NCPI管理策略,必须攻克两个主要难点。NCPI管理架构首先,许多IT部门和设备部门都为各自的设备安装了专用的管理软件包。IT部门拥有服务器、存储和组网设备专用的网元管理器,以及企业管理系统(如HP的OpenView或IBM的Tivoli)。设备部门通常利用JohnsonControlsMetasys等楼宇管理系统。随着设备部门和IT部门在NCPI上的集中,IT和设备部门就可能非常希望充分利用他们当前的管理软件包。因此,任何NCPI管理策略都必须综合和集成这些应用。企业管理系统架构这些管理系统设计的差异在于它们的架构。IT软件包(企业管理系统或EMS)“以设备为中心”,并利用现有的IT网络。以设备为中心是指以代表设备整体信息入口的单个IP地址为重点。例如,一个IP地址可以代表一台服务器、组网设备或存储设备。报警和信息通常由设备封包,然后通过现有IT网络传输到摘要管理软件包。HPOpenView和IBMTivoli等管理软件包都属于此类。©2003AmericanPowerConversion.Allrightsreserved.Nopartofthispublicationmaybeused,reproduced,photocopied,transmitted,orstoredinanyretrievalsystemofanynature,withoutthewrittenpermissionofthecopyrightowner.楼宇管理系统架构楼宇管理系统(BMS)趋向于“以数据点为中心”,它通常利用IT网络以外的单独网络。以数据点为中心是指以处于监控下的给定设备的单独数据点为重点。因此,它不是要将设备作为实体来管理,而是着重于设备报告的具体信息。这些网络通常是串行网络,使用私有协议或某些标准协议,如MODBUS。下表是对这些差异的总结:表1–BMS与EMS架构软件包类型“观察点”利用的网络企业管理系统(EMS)以设备为中心IT网络楼宇管理系统(BMS)以数据点为中心专用网络这些差异突出表明了综合式NCPI管理策略迄需解决的一个重大挑战。以设备为中心和以数据点为中心这两种不同的管理架构很难集成在一起。任何管理策略都必须能够提供用于IT软件包的设备摘要信息,同时提供一定程度的数据点粒度,才能实现与设备软件包的集成。NCPI管理标准综合式NCPI管理策略面临的第二个主要难点是数据收集过程,它需要的数据收集量要比传统监控所需的数据多得多。为确保IT设备的可靠运行,综合式策略应该考虑和包含机架信息。这在以往是不可行的。监控设备和保证可用性的关键数据点对所有关键设备和数据点进行监控是非常重要的。这包括NCPI层中的所有设备及周围环境。最佳方法是监控机架上的下列设备:•独立的分支电路•两个温度数据点(至少)•转换开关•冷却设备•UPS系统对机架上的转换开关、UPS和冷却设备进行监控是众所周知的方法。不过,监控机架的分支电路和温度却是NCPI管理中一个比较新的概念。通过监控单独的分支电路,管理员能够在电路过载前收到通知,这有助于提高可用性。研究表明,造成数据中心宕机的主要原因通常是分支电路故障。因此,积极地管理这些分支电路能够使可用性提高。©2003AmericanPowerConversion.Allrightsreserved.Nopartofthispublicationmaybeused,reproduced,photocopied,transmitted,orstoredinanyretrievalsystemofanynature,withoutthewrittenpermissionofthecopyrightowner.设备的预期寿命,因此有必要确定机架温度是否高于正常值。IT设备向更高密度发展的趋势加剧了这一问题的严重性,功率密度越大,与之直接相关的冷却要求也就越高。通过监控这些设备,管理员不仅可以了解设备自身的问题,还可以了解周围的环境。资源效率管理集中式管理的优点是可以快速获取相关信息。要优化资源效率,应该以易于理解的方式提供信息,同时使培训要求降至最低或为零。集中式规模配置和对已知问题的自动化响应也能给操作和管理人员带来不小的帮助。简言之,系统应该易于部署和维护。关键事件警告电源故障和温度升高都属于关键事件,如果得不到解决,网络可用性将受到影响。及时掌握信息,人们可以在设备损坏或出现故障前就采取纠正措施是NCPI管理系统平稳运行的关键。例如,管理员可能希望在分支电路的电流强度增加超过1amp时得到通知。正因为如此,当在分支电路中添加了未经授权的设备后,一定要确保系统的可见性。性能分析和故障预测至少应该存储事件和数据日志。好的分析工具可以突出显示您感兴趣的地方并指明潜在问题的根源,帮助预防出现故障。这样的例子有:识别旧电池和机架热点、突出显示长期的电源线故障(如频繁停电)。轻松适应业务需求的变化更换和升级策略应适时随条件变化而修改,以避免意料之外的不在计划中和高成本的宕机。高灵活性的系统可以支持变更配置,并将宕机时间缩至最短。可预期的变更例子包括:更改运行时间、电源负载和冗余需求,以及增加对分公司或其他网络节点的支持。NCPI管理应以能按照便于管理员工作的方式整合大量数据为宜。NCPI管理解决方案网元管理器过去十年间,IT系统很快被用于处理紧急业务需求,各种多点解决方案应运而生。在许多安装案例中,IT部门趋向于利用适合不同设备类别的“网元管理器”来管理设备。如下面的图2所示,常见的做法是用“存储管理器”(如EMC的ControlCenter)管理存储设备,用“网络管理器”(如CiscoWorks)管理网络设备,服务器则通过服务器管理器(如HPInsightManager)管理。因为“网元管理器”侧重于某一类设备的管理,所以它们通常易于部署和使用,但很多时候,我们使用的设备都是某个供应商所特有的。在这种情况下,我们无法协调各网元管理器的工作。©2003AmericanPowerConversion.Allrightsreserved.Nopartofthispublicationmaybeused,reproduced,photocopied,transmitted,orstoredinanyretrievalsystemofanynature,withoutthewrittenpermissionofthecopyrightowner.网元管理器和企业管理系统为获得整个网络各个部分的更高可见性,必须使用如Tivoli或HPOpenView等企业管理系统。它们有助于协调不同类型的设备,并能让我们全面了解网络中发生的各种事件。然而,无论是网元管理器还是企业管理系统,都没有综合管理网络关键物理基础设施层的能力。数据点和楼宇管理系统同样,BMS常用于管理NCPI的某些数据点。架构性质和需要的数据量决定了它们不具有令人满意的NCPI管理特性,因此不适合用来管理网络关键物理基础设施。集成NCPI管理这提出了一个新问题,如何将NCPI与现有BMS和EMS系统集成到一起呢?常见的做法是将每个单独的设备或数据点集成到高级管理系统中。图2说明了如何利用这种传统方法来集成单独的设备。©2003AmericanPowerConversion.Allrightsreserved.Nopartofthispublicationmaybeused,reproduced,photocopied,transmitted,orstoredinanyretrievalsystemofanynature,withoutthewrittenpermissionofthecopyrightowner.–NCPI与BMS和EMS的传统集成法网络设备网络管理器存储管理器存储设备服器务管理器服器务设备源电设备机架设备冷却设备企业管理系统楼宇管理系统楼宇源电适度通风楼宇境环楼宇安全这种方法的缺点是集成这些设备和/或数据点需要投入高昂的成本。由于要向一个中心位置报告许多设备或单独的数据点,因此该方案也可能导致用户的信息量负荷过重。如果采用这种模型,那么为在自己的BMS或EMS中处理得到的信息,用户还不得不购买或开发独特的规则。NCPI网元管理器图3展示的是NCPI设备网元管理器解决方案。设计适当的NCPI网元管理器应该能将EMS和BMS的集成点限制在必要数目内,方法是为这些平台提供摘要信息。直接与NCPI网元管理器连接后可以获得详细信息,服务器、存储和网络网元管理器皆如此。另外,网元管理器还具有安装费用低的优点。除不需要与每个设备单独集成外,网元管理器能自动综合信息。同时网元管理器用途专一,还预先设计有规则和策略选项,因此它具有