无论对于多大规模的应用环境,系统节点都是可用性的基石和砖瓦,首先保证所有计算机设备的可用性才能进一步建设整个计算设施的可用性。服务器可用性保障服务器的可用性对整个网络来说非常重要。服务器可用性主要包括服务器冗余和周边环境保障两个部分。冗余可以有效降低服务器因为硬件问题造成的停机,当服务器的某个部分出现问题时,冗余硬件可实时地接手损坏硬件的工作,从而保证服务器的连续运行;而且冗余配合热插拔技术能够使服务器在更换配件时仍能维持服务,可以说冗余是保障系统可用性最基本也是最重要的技术。应该根据服务器承担工作的重要程度决定对服务器的哪些部分进行冗余,对可用性要求很高的系统还可以考虑对服务器整体进行冗余。而对于那些允许短时间停机的服务器系统来说冗余则不是那么必要。一般原则下,服务器的电源、散热风扇、硬盘、网卡是应该优先冗余的配件。服务器电源和服务器机箱内的散热风扇是服务器系统中故障率较高的配件,而且配件价格相对较低,是首要的冗余对象。由于硬盘中保存的数据是服务器的核心价值所在,加之几乎所有的服务器产品都设置有多个硬盘安装位置,所以在条件允许的情况下应结合镜像和双工等技术对硬盘和其中的数据进行备份和冗余。网卡是服务器最主要的外部出口,有时会因为静电等原因造成损毁,为了保障通信的可用性网卡的冗余必不可少。其它配件通常冗余需求性较低或冗余成本过高,应只在必要的情况下执行冗余,事实上对于更高的可用性要求往往对服务器本身进行冗余。目前的低端品牌服务器产品通常没有提供冗余的能力,有限的空间更多的被设计成供配件扩展使用。而中端服务器大多提供了上面所介绍的几项优选的冗余能力,高端的服务器则往往针对高可用性要求设计,其所有配件都能够支持冗余并可以进行多机之间的热备份。如果某个配件出现故障,只要在服务器中有一个以上的这种配件板就可以随时将故障的配件板拔出进行检修,而升级性能时也可以直接将升级的配件插入而无需服务器停机。另外,近年来广受好评的刀片式服务器一个最突出的优点就是其可以满足高可用性要求。刀片服务器群组中的每台服务器都是以片状的线路板形式被插接进入系统中来的,所以尽管其初期投入成本相对偏高,但是对于可用性需求较高的用户是一个值得考虑的选择。IT周边设施与可用性除了计算机本身,其周边环境对可用性来说也具有非常重要的影响。目前通过UPS保持不间断供电已经成为保证电力可用性的一种固定模式。在一般的可用性要求下UPS应至少有三个小时或五个小时以上的供电能力,这段时间通常能够完成供电设备故障的检修;对于较高的可用性要求,二十四小时的不间断供电是非常必要的,一些对可用性要求极高的环境甚至需要设置独立的备用发电机组。除了供电之外网络线路也是非常重要的,至少应该在布设线路的时候保留充足的备线,配合网卡的冗余这些备线可以提供通信线路方面的冗余。另外,在周边设施方面还有一个容易被忽略可用性元素,那就是机房。尽管很多机房在建设的时候完全符合有关的标准,但是由于用户在使用过程中没有遵循正确的规范,导致机房的抗干扰能力、空间的温度和湿度等指标遭到破坏。对于可用性问题来说,不但要注重与信息直接相关的设备,还要以对为其提供运转支持的周边设施给予同样程度的关注。系统的可用性由产品可靠性和系统体系结构决定。对系统可靠性进行量化是使应用获得成功的关键。要做好这点,可以采取许多方法提高系统的可用性满足应用需求。可靠性是在一定置信区间设备能够完成其预定功能而不发生错误的条件概率,要求设备被用于其设定用途,并且在制定环境中进行工作。系统的可用性定义为在制定时间范围内,系统能够可靠工作的时间。举例而言,每24小时中可以运行23小时的系统,其可用性为95.8%。要提高系统的可用性,必须理解其平均无故障时间(MTBF),系统体系结构的灵活度以及预期与非预期停止服务的计划。图1:PXI对于要求高可用性的应用而言是一个理想平台。理解平均无故障时间(MTBF)数据平均无故障时间是通常用来描述系统服役时间的数值。要使用平均无故障时间数据,首先需要理解这个数据是如何得到的。平均无故障时间通常使用为电子元件建立的模型进行计算。这些公式是有争议的,因为比较老的模型已经过时,与现在的元件并不匹配,而较新的模型并没有足够的现场数据支持其准确性。虽然其准确性是有争议的,这些模型可以用于快速计算平均无故障时间。根据模型以及系统组件表示的方法,可以计算出平均无故障时间的大致范围。使用考虑环境条件的模型是十分关键的。如果系统平均无故障时间是在不同环境下计算得到的,那么就没有进行比较的意义。通常,平均无故障时间并不是衡量产品或设备可靠性的最佳选择。还要考虑厂商是否主动地使用品质管理系统管理质量、采用了哪些种类的持续改进流程以及是否进行强制验证测试(例如加速寿命测试HALT或是加速压力筛选HASS)。这些方面在衡量产品可靠性中更为合适。图2:使用分层体系结构尽可能减小对软件的修改。设计灵活的系统体系结构测试系统的可用性很大程度上依赖于其体系结构和灵活性。NI提供了硬件和软件产品,帮助有效地建立灵活的测试系统。因此,慎重考虑这些产品的体系结构可以提高系统的可用性。在软件中采用合适的体系结构延长其使用和生命周期对于降低测试成本和提高系统可用性而言十分关键。NI建议使用分层的方法建立软件体系结构。分层方面的优点是可以尽可能小地影响其他部分代码的情况下,改变系统组件。举例而言,为独立测试设计代码模块,并且从例如NITestStand等测试执行软件中调用这些模块,这样就可以将未来代码变化对各层的影响降至最小,并且可以在其他测试系统中重用这些代码,因此将现在以及过去的软件开发进行了优化。其关键是找出测试系统中的哪些部分可以采用这种方法进行模块化。图3:如果不进行定期标定,由于元件漂移误差的存在,一年之后大部分仪器的测量误差会变得无法预测。为预期以及非预期建立计划即便是最可靠的产品其本身也将预期的停止服务加入设计中。停止服务通常用于程序维护,例如清理、更换零件以及适当的标定。与所有测试系统一样,NI的PXI系统也应当作相应的计划。为了确保适当的空气流动,应该至少每隔六个月清理或更换机箱风扇过滤器。同样,大部分PXI模块化仪器需要每年进行标定。NI或第三方认证的标定实验室能够为您进行标定。此外,需要在系统运行15分钟以上之后,对测试应用程序进行自标定,防止收到温度漂移导致的误差。要保护软件开发,尽可能降低由于非预期软件问题导致的停止服务时间,需要考虑定期对PXI控制器进行备份。应该在开发和部署测试系统的过程中,完成这项工作。每个来自NI的PXI控制器都包含简单易用的AcronisTrue镜像备份和恢复工具。如果希望测试系统进行持续的工作,系统停止服务时间必须尽可能短,那么就应该考虑在出现组件故障时能够立即找到备用组件。PXI模块和例如机箱电源和控制器硬盘驱动器等系统组件可以在几分钟之内完成更换,并且可以直接从NI购买这些备用组件。更换组件十分方便,也不会破坏NI的质保。确保系统得到成功NI通过提高产品质量,致力于让您的系统得到成功,NI为优秀的系统体系结构提供培训和文档,并且提供世界级的支持和服务。