TIA-942,《数据中心的电信基础设施标准》数据中心设施的设计策略摘要Cisco®企业数据中心网络体系结构是CiscoSystems®公司为满足IT环境的业务需求提供灵活支持而设计的一种集成化和具有适用性的网络体系结构,它在很大程度上依靠基础物理设施来提供保证IT环境完美、可靠运行的电源设备、冷却设备、物理机架、布线、物理安全和防火措施。本白皮书讲述了支持新兴的虚拟运算环境的各项设施的设计策略。简介数据中心的管理员们如今更趋向于考虑如何让IT更好地为商业策略服务、提高运营效率和为持续发展提供技术平台这些问题。Cisco企业数据中心网络体系结构是一种集成化和具有适用性的网络体系结构,它在支持新兴的面向服务的架构、基础设施虚拟化以及按需计算的同时,也支持IT组织对(数据)整合、业务持续性和安全的直接需求。这种体系结构让IT管理者可以配备对其目前商业目标提供最佳支持的技术,并且可以高效地引入未来的服务和应用。Cisco企业数据中心网络体系结构的关键部分之一是让IT环境得以运转的物理设施——电源设备、冷却设备、物理支架、布线、物理安全和防火措施。业界的一些企业,包括APC,用术语“网络关键物理基础设施”(NCPI)来概括这套设施:•电源设备——供电基础设施包括楼宇电力供应入口、主配电设备、发电机(组)、不间断电源(UPS)供应系统和电池、过电压保护、变压器、配电盘,以及断路器。•冷却设备——数据中心的散热系统,包括机房专用空调机组(CRAC)及其相关子系统(制冷装置、冷却塔、冷凝器、风道(ductwork)、泵组、管道系统(piping))以及机架级或行级制冷设备或空气分配设备。•布线——数据线缆用不同的材料和连接器来优化系统性能和灵活性,而系统管理则为长距离通信保持这种优化。关于电源线,在本白皮书中也有说明。•机架和物理结构——这些要素中最重要的是放置IT设备的机架结构、房间的物理要素(如:吊顶和活动地板),以及布线通道。•管理系统——要让系统可靠地运行,对所有物理组件进行监控是很重要的。管理系统包括各种系统,如:楼宇管理系统、网络管理系统、网元管理器以及其它监控软件和硬件。•接地——这包括普通接地网络和保护数据中心设备不被静电放电损坏的接地设备。•物理安全和防火措施——这里所说的子系统是指室内和机架级的物理安全设备以及火灾隐患检测/排除系统。如果按照传统方法将以上要素单独落实,得到的将是一个复杂而且无法估量的系统,其组件并不能协同工作。对这些组件的管理工作也变得冗杂,因为必须将各种不同的管理系统拼凑到一起来,即使这样可能都无法为可靠关键业务操作提供必需的完全监控。然而,如果这些要素被整合到一个由全局系统管理系统支持的完善的端对端系统中,该系统将会提供支持Cisco企业数据中心网络体系结构所需的必要基础设施。数据中心的供电问题和不间断电源(UPS)问题如今的IT系统出现了一些在三十年前研发现代数据中心供电原理时无法预见到的新供电问题。专家提出了五个解决目前供电系统问题的基本要求,供电系统应该:1.是一个模块化的、能方便发展并适应不断变化的供电需求的供电系统。系统需求很难预测,而且大多数系统都过于庞大。研究表明,现在的标准数据中心利用率还不到其基础设施实际能力的50%。产业前景预测也显示了不断攀升且不可预计的功率密度需求,而新的数据中心必须符合至少未来10年内的需求。2.采用能减少或简化规划和定制设计的一种预先设计组件的标准供电解决方案,以加快工作进度。传统供电系统的规划和独立设计需要6至12个月,与大多数企业的规划期比起来过于漫长。设计耗费时间、价格昂贵且是后续质量问题的根源之一,这让后期安装的扩展和修改变得非常困难。3.是一个具有防错功能且能减少单点故障以增加系统可用性的供电系统。根据UptimeInstitute提供的信息,40%的宕机时间都是人为故障造成的。另外,传统不间断电源供应系统使IT设备负载过高,以至于需要使用更多断路器来模拟单点故障。4.是一个提供机架级和电源级供电监控的管理系统。服务器间的动态功率变化以及机架级的持续变化、调整的负载,会引起意外的超负荷和机架过热情况。随着每个机架的功率密度不断提高,这些问题只会越来越严重。5.是一个使用标准化、可热交换和用户耐用的模块以减少平均修复时间(MTTR)的供电系统。在传统系统中,没有随时可用的备用部件,诊断和修复都需要进入系统操作。这些系统太复杂了,所以技术服务人员和维护人员往往会在操作和维护系统时犯错或中断放弃。为满足以上要求,必须对现在的设计思路进行一些改进。供电设备的技术和设计,以及如何测定数据中心的供电情况,都需要改进。对供电系统组件的集成工作应从目前惯用的独立系统设计的设计思路转变为采用预先设计甚至预先生产的解决方案。UPS系统设计配置从楼宇的市电电源配电给数据中心的临界载荷是UPS系统设计的五种配置之一。为特定应用选择哪一种配置,取决于可用性需求、风险承受能力、数据中心负载类型、预算以及现有供电基础设施。很多因素都会影响系统的可用性,包括人为故障、组件可靠性、维护安排和修复时间。在很大程度上来说,因素对整个系统可用性的影响,取决于该系统选择哪种配置。表1列出了五种配置以及其相应的可用性排名、“等级”和成本。表1.UPS配置可用性与成本UPS配置描述可用性排名等级*每套机架所需费用(US$)容量(N)单一UPS模块或一组并联UPS模块1=最低等级Ⅰ13,500至18,000美元串联冗余正常情况下由一个主要的UPS模块为负载供电;一个辅助的(“独立”)UPS为主UPS模块的静态旁路供电2等级Ⅱ18,000至24,000美元并联冗余(N+1)多个并联的容量相同的UPS模块共用一条输出总线3分布式冗余三个或多个具有独立输入和输出电路的UPS模块4等级Ⅲ24,000至30,000美元双总线系统(2N,2N+1)两条完全独立的供电线路,每条都可以独立支持负载5=最高等级Ⅳ36,000至42,000美元*“等级”根据由UptimeInstitute()定义的特定目标来划分系统可用性。计算数据中心的功率需求除了选择UPS配置方案,计算数据中心的电力需求也是必要的。这就需要了解制冷系统、UPS系统和IT负载所需的电量。虽然这些元素的功率需求可能实际上相差很多,但是如果已经确定了已规划IT负载的功率需求,就可以准确估计出这些元素的功率需求。除了估计电力线路的容量,这种计算还可以用于估计备用发电机系统的功率输出容量。表2是一张数据中心功率需求的合理估算的数据表。一旦确定了电力线路的容量大小,就可以在有资质的设备系统提供商(如果是大型数据中心,则是咨询工程师)的帮助下,开始规划工作。表2.数据中心功率需求数据表项目所需数据计算合计(kW)功率需求——电力临界载荷—来自APC网站的估算计算器值每个IT设备的额定功率(计算器总VA值x0.67)/1000#1____________kW对于估算计算器中没有列出的设备,临界载荷—铭牌合计VA值(包括消防、安全和监控系统)(合计VA值x0.67)/1000#2____________kW未来的负载每个预期IT设备的铭牌VA值[(未来设备的累计VA额定值)x0.67]/1000#3____________kW由于临界载荷变化导致的峰值功率下降稳定状态临界载荷的总功率下降值(#1+#2+#3)x1.05#4____________kWUPS功率损耗和电池充电实际负载+未来负载(#1+#2+#3)x0.32#5____________kW照明设施与数据中心有关的地板总面积0.002x地板面积(平方英尺)或0.0215x地板面积(平方米)#6____________kW用于满足电源需求的总功率上述#4、#5和#6的总和#4+#5+#6#7____________kW功率需求—制冷用于满足制冷需求的总功率上面#7中的总和对于制冷机系统#7x0.7对于DX系统#7x1.0#8____________kW总功率需求用于满足电源和制冷需求的总功率上面#7和#8中的总和#7+#8#9____________kW估算电力线路容量满足NEC和其他规范组织的需求上面#9中的总和#9x1.25#10____________kW线路入口处提供的三相交流电压交流电压#11____________kW需要从供电公司获取的电力容量(以安培计)#10中的总和以及#11中的交流电压(#10x1000)/(#11x1.73)____________安培估算备用发电机容量(如果可用)需要备用发电机的临界载荷上面#7中的总和#7x1.3*#11____________kW需要备用发电机的制冷负载上面#8中的总和#8x1.5#11____________kW所需发电机的容量上面#12和#13中的总和#12+#13_____________kW*1.3变量适用于使用功率因数完全修正后的UPS。如果使用带有输入谐波滤波器的传统双转换UPS,则必须乘以3.0。数据中心的冷却自1965年以来,数据中心的冷却设施设计只有过很少的改动。这使得与冷却有关的问题日渐突显,尤其是在高密度计算出现以后。目前的冷却系统都必须符合表3中列出的五种关键要求。表3.冷却系统的五种关键要求要求描述可扩展性和适应性冷却系统的需求很难预测,并且,为了满足未来的需要,冷却系统体积普遍较大,因为很难在现有运行空间中加强冷却能力。设备负载常常在不知道冷却系统是否受到影响的情况下悄然改变。标准化客户定制设计是一项费时、高成本的工作,并且是后续质量问题的主要根源之一,因为典型的安装工作会涉及到一大批供应商。系统的规划和特别设计需要6至12个月时间,跟大多数企业的规划期相比,这个时间过于漫长。而从特别设计的系统中获得的经验又很难应用到其它系统,因为特别的解决方案会出现特别的问题。简单化复杂的冷却系统因为人为故障而发生宕机的可能性要高得多,尤其是在修复工作复杂而且费时的情况下。此外,在处理定制的冷却解决方案时要规划和校验冗余也比较困难。智能化机架的上下温差可能高达18ºF(10°C),这会给单个IT设备带来意外的压力,致使设备过早损坏。管理传统冷却管理系统报告的数据通常与实际的故障征兆关系甚微,很少会提供对错误诊断有帮助的信息。其冷却性能数据通常不是统计于单个的CRAC单元,因此无法深入了解系统的整体性能。同供电系统一样,要解决冷却系统的问题,需要对现在的设计思路进行一些改进。这包括冷却设备技术上和设计上的改进,以及如何测定数据中心的冷却要求。冷却系统组件——特别是空气分配和返回系统——的标准化和集成化将极大地提升数据中心的可用性。适度冷却与精确冷却当今的技术室需要精密、稳定的环境,以便高敏感度的电子设备达到最佳运行状态。IT设备会产生不寻常的的集中热负荷,同时,其又对温度和湿度的变化非常敏感。标准空气调节系统并不适合数据中心使用,会造成系统关闭和组件故障。设计条件应该在72~75°F(22~24°C)之间,相对湿度35~50%。不利的环境条件极具破坏性,温度的快速波动也会对IT设备造成不良影响。之所以硬件设备不处理数据也要一直通电,这是原因之一。精确空气调节系统用于长期将温度变化保持在1°F(0.56°C)之内,湿度变化保持在3~5%之内。而普通的“适度冷却”系统,则用于在夏季95°F(35°C)和湿度48%的外界条件下,使室内保持80°F(27°C)的温度和50%的湿度。数据中心环境若维护不善,会对数据的处理和存储操作造成负面影响:•高温或低温——高温、低温或快速变化的温度可能使数据处理崩溃并造成整个系统关闭。温度变化可能改变电子芯片和其它板卡组件的电子、物理特性,造成误操作或故障。这些问题可能只是暂时出现,也可能持续数日。不过即使是暂时出现的问题,也可能难于检测和修复。•高湿度——高湿度可能会造成磁带和表面变质、磁头损坏、机架结露、腐蚀、纸张处理问题、造成组件和板卡故障的金银脱离等问题。•低湿度——低湿度在很大程度上增加了静电放电的可能性,这会破坏数据并损坏硬件。精确空调系统的设计