揭秘谷歌数据中心——李典林TT服务器技术专题之“组策略命令指南”Page2of54揭秘谷歌数据中心Google将其数据中心技术作为一个核心竞争力,很少对外公布其技术细节,因此搜索巨人的数据中心一直是个谜。去年,Google公司第一次允许媒体记者进入其位于世界各地的数据中心进行参观拍摄,向世人展示其迷宫一样的世界。在本期技术手册中,我们带您深入参观谷歌数据中心,介绍谷歌先进的冷却技术,还有其最新的集装箱数据中心以及微模块。图文解析谷歌数据中心谷歌数据中心的处理器日以继夜地处理着全球网民的搜索请求、Youtube视频和邮件等。今天我们就这些有限的图片管中窥豹,更多的是猜测,分别从制冷、机柜、服务器、建筑等方面做一些最粗浅的分析以飨读者,并与同行们共勉。图文解析:让我们深入参观Google数据中心谷歌冷却技术Google将其数据中心技术作为一个核心竞争力,很少对外公布其技术细节,因此搜索巨人的数据中心一直是个谜。近日,谷歌公布了其数据中心能耗发展的图表,在图表中显示近年来谷歌在能耗控制方面有了明显的进步。深度研究:Google最新数据中心自然冷却方案TT服务器技术专题之“组策略命令指南”Page3of54谷歌集装箱数据中心数据中心模块化最近较为热门,其中较为典型的一种模块化实现方式就是采用集装箱数据中心,国内在这方面的推广也有一段时间了,但实际应用却又不多,那么集装箱是否适合中国,业界又是如何来打造的?针对这些问题笔者从一个google的集装箱数据中心专利(其实该专利在2009年已经公开,网络上也有不少相关图片),以及网络上相关Google的集装箱数据中心的视频,做一些最粗浅的分析以飨读者。Google集装箱数据中心原理介绍Google集装箱数据中心制冷Google集装箱数据中心供配电Google集装箱数据中心建设布局谷歌数据中心微模块2005年后,google不再采用大体量大颗粒度的室外型集装箱,而改用了室内型更小颗粒度更为灵活的微模块技术打造其庞大的基础设施。针对这种变化,本系列文章根据google的模块化数据中心冷却技术的一个专利(已于2012年公开),以及在2012年google发布的一系列数据中心照片和北卡数据中心的街景视频,探索Google数据中心微模块。探秘Google数据中心微模块解密Google数据中心制冷模块Google数据中心微模块布局Google微模块数据中心建设TT服务器技术专题之“组策略命令指南”Page4of54图文解析:让我们深入参观Google数据中心近日,Google公司第一次允许媒体记者进入其位于世界各地的数据中心进行参观拍摄,向世人展示其迷宫一样的世界。这些中心的处理器日以继夜地处理着全球网民的搜索请求、Youtube视频和邮件等。虽然公布的只是一些图片和非常有限的视频资料,且没有详细注释说明,但如古老的谚语所述:一张图片胜过千言万语,今天我们就这些有限的图片管中窥豹,更多的是猜测,分别从制冷、机柜、服务器、建筑等方面做一些最粗浅的分析以飨读者,并与同行们共勉。一、制冷篇从下图可以看到这个数据中心的冷站规模很大,整个房间管道林立,并且色彩斑斓非常好看。空调管道采用了Google企业标准色来区分不同管路的功能,比如绿色是冷却水回水管、黄色是冷却水供水管、蓝色是冷冻水供水管,深红色(或者冷机侧的粉红色管)是冷冻水回水管,白色的是消防管路等来区别不同的功能,以便运维人员快速定位并查找问题。还有在IT设备侧也采用同样五种颜色的网线等,加上不同数据中心不同主题的装修风格,这些都是数据中心颜色标识管理的典范。下图的左侧是大型冷水机组,右侧是板式热交换器,以便在室外温度较低时候采用板换散热实现水侧节能。Google也非常重视数据中心的耗水问题,据他们估算采用高效节能数据中心每年可节约几亿加仑的饮用水。TT服务器技术专题之“组策略命令指南”Page5of54还有一些运营中的小细节也考虑非常周全,比如管路屋顶等地方采用了很多的电动吊装葫芦链条方便重型设备的维护更换吊装,比如在管路底部采用了中间凹两边凸的滚轮型支撑,减少管路振动和拉伸形变产生的物理应力,比如楼层间的竖管采用了U型弯曲以便减少水温变化和建筑形变带来的隐形损伤,以及冷机周边地面的应急排水口,最后在偌大的机房中运营人员采用同样是Google标准色的G-bike用于现场巡视等运维和工艺细节。二、微模块机柜篇下图为美国俄克拉荷马州的数据中心,整个机房在大量服务器LED指示灯的闪烁下显得非常整洁和梦幻。从这个整机房的俯视图看,数据中心采用了厂房式大开间框架结构,封闭热通道的一排排机柜构成庞大微模块阵列,机房顶部是供电网络桥架和消防管路,服务器和交换机的状态灯闪烁着,只有极少量的机房级照明。整个房间面积很大,走道以及顶部空间都非常宽敞,但设备区却较为紧凑,机柜间冷通道才两块砖多点的距离(标准砖宽度为600mm),其中热通道占用了大约两块砖TT服务器技术专题之“组策略命令指南”Page6of54的距离,而且服务器机柜的深度较短,也就一块砖多些。从图片较近处还可以发现有蓝色布帘密封的地方,空缺的位置是留给服务器机柜的,这也说明了Google的服务器部署是以机架为单位快速安装部署的。该蓝色布帘密封可以隔绝冷热气流的混合,减少冷量的浪费,体现了精细化运营的思想。高密度的服务器采用全正面维护,顶部为密集的TOR交换机单元。从这个图还可以看出Google采用创新的空调置顶散热方式,整个机房大环境作为冷通道提供冷量给服务器吸入,加热后的热空气在封闭通道内上升,然后通过热通道顶部的空调盘管制冷并被几个烟囱状导风管和大散热风扇重新循环回外部冷环境。这种空调置顶布局虽然存在着盘管漏水、更换维护较难等风险,对产品质量和施工工艺要求非常高,但是其气流组织较为合理,比如热气流自动上升,冷气流自动下沉,可以减少风扇的功耗,且机房大冷池环境可以作为缓冲池等,减少局部空调故障引发的热保护。据相关资料显示Google微模块的整个热通道温度非常高,像个大烤箱,温度可以达到49摄氏度,以至于一旦必须进去维护,那么服务器必须关掉才行。采用热通道封闭可以提供一个较为舒适的现场运营环境,热量只TT服务器技术专题之“组策略命令指南”Page7of54被限制在热通道中并被冷冻水带走,考虑大开间的铁皮厂房冷量密封保温特性不太好,但因为Google服务器的高温工作特性(如图中Google服务器的深度较短,大约只有600mm多的深度,散热会比较容易),送风温度高达27摄氏度,因此这个较高温度下的冷量传递损失不会很大,围栏效应的影响几乎可以忽略。从上面这张照片可以看到Google微模块热通道内部的一些细节,比如热通道宽度大约是两块标准地板砖,里边安装的是机柜顶部空调盘管的安装支架和加固支撑,通过地板底下的快接软管提供冷冻水给热通道顶部的空调盘管提供冷冻水。从冷冻水管的数量和密度上看,顶部空调盘管也做了模块化冗余设计,是个很不错的设计。服务器全正面维护,每台服务器采用三个分布式较大风扇散热,绿光来自服务器内部LED状态灯。Google自行设计的服务器采用尽可能少的能耗,并控制风扇转速足够低,只要服务器内部温度不要超过设定值就可以了,处处都体现节能。Google在供电和制冷等方面总能打破常规,而没有采用商用的传统UPS和精密空调方案,体现了创新颠覆的思想,甚至如右边图Google还申请了三明治服务TT服务器技术专题之“组策略命令指南”Page8of54器的专利,采用液冷散热片,上下两个服务器靠此散热片内部的冷冻水以及循环风扇带走热量等。当然也不是Google的所有机房都采用这些创新的散热方案,比如一些网络设备间和POD小机房等,如下面的这两个例子。该网络设备间采用了传统的风管上送风或者地板下送风方式散热,双路冗余高可靠供电,但是在这些传统机房模块中Google都采用了简单低成本的塑料帘子隔离冷热通道方案,避免了冷热气流直接混合短路,也大大提高了其能源利用效率。据早期谷歌发布的一个POD机房优化视频中可以看到,通过对这些传统机房的精细化运营,比如机房CFD仿真改善气流组织、采用如上的冷热帘隔离、提高送风温度、安装了蓝色LED灯用于照明等等措施,使得PUE从原来的2.4降低到1.5以下,这也说明即便不用很多创新的思路,通过运营优化也可以实现较好的节能优化效果。三、Google服务器篇:步入Google的大型数据中心,整个机房的服务器阵列非常整齐壮观,海量的服务器风扇同时运转带来巨大的噪音,以至于进入数据中心必须佩戴防噪耳塞。从下图可以看到Google的服务器上架有两种配置方式,分别是低密的十五六台一个柜子,以及高密的每机柜接近三十台左右(可能采用类似facebook的1.5U高效风TT服务器技术专题之“组策略命令指南”Page9of54扇设计),TOR交换机置顶,PDU和网络快速接口都在左侧。每台服务器多含有2个或者更多的子机,服务器没有前面板也无上盖板成本更低散热更好,服务器通常很短,采用不同颜色的网线做功能区分,网线和电源线采用快插接口,plugandplay。机柜底下滚轮设计方便整机架快速部署和搬迁,全正面维护,方便现场快速维修和免工具更换。从这些照片也可以看到不同版本不同类型的Google服务器设计,和早前发布的带铅酸电池服务器设计不一样,新版本的服务器结构更为方正美观,但即便如此这些自行打造的简单易维护服务器要比标准的商用服务器要便宜不少。尽管仍被视为互联网公司,Google已经成为世界上最大的硬件制造商之一,因为它的设备多数是自己制造的。1999年的时候,H?lzle从“三个开电子商店的家伙”那里买了2000个剥离下来的电路板。通过改造,去除不必要的部件,Google构建了自己的服务器(DIY服务器的价格是1500美元,而当时的商用机价格约为5000美TT服务器技术专题之“组策略命令指南”Page10of54元),考虑到其上百万量级的服务器设备,那么DIY服务器带来的成本节约会是天文数字。由于DIY简单易维护设计,如果服务器出了故障,甚至可以免工具快速维修,如果实在无法维修则直接报废拆解成电子垃圾回收。且Google在定制的服务器内部安装了分布式的带电池UPS,可以省掉传统数据中心大量UPS的采购成本,并且采用该内置UPS可以实现供电效率99.9%,相比传统的UPS方案也可以实现数据中心总节能15%,在能源紧张运营电费高企的今天也是非常大的费用节省。为了统一管理自己的服务器,Google开发了一个软件系统,开发者能够通过这个系统指挥数千个电脑,如同一个计算机一样。在2002年的时候,它创造了GoogleFileSystem,可以在不同的机器上顺利地传送文件。MapReduce是Google为编写云端服务而开发的系统,它的开源版本Hadoop已经成为业界标准。另外,Google还开发了一个自动化的决策系统Borg,用于决定那条机器最适合某项任务。这对服务器集群的稳定性提出了更高的要求。为此,Google内部有一个团队,叫做SRE(网站可靠性工程团队),他们的任务就是使用各种方法,对服务器进行破坏,以检测公司进行危机处理的能力。每年,SRE都会进行一次虚拟的战争,叫做DiRT(disasterrecoverytest)。攻击是虚假的,但是几乎和现TT服务器技术专题之“组策略命令指南”Page11of54实一样,危机管理人员必须按照处理程序来做,如果他们不能找出处理方式,攻击就必须停止,以免影响到真正的用户。在Google公司内部的某个墙上展示着一排排的主板,那些代表着Google成立以来自己打造的不同时代的服务器,其中有一块标明着2008年7月9日,那是Google有史以来的第一百万台服务器,但这是个累计的数字,并不意味着那个时间Google已经拥有百万台服务器的规模。四、数据中心建筑篇Google每个数据中心的选址都是非常谨慎的,以下图哥伦比亚河畔的Dalles数据中心为例,选择建设在河流旁边开阔的谷地,且可以看到其典型的建筑风格是大开间低层厂房结构,多为结构较为合理的长条矩