讲师:吴铁刚数据中心基础设施运维管理吴铁刚通信行业从业19年,具有多年数据中心规划、建设、维护经验,主要项目经历有中国移动北京公司大白楼项目、北京基地项目,中国移动政企与百度亦庄合建项目等大型数据中心项目。熟悉ITIL2011、ISO2000、UPTIMEM&O等体系。曾完成中国移动集团动环专业UPS企标编写。曾任中国移动北京公司网运中心动环E1专家,传输维护室副经理,目前任职中国移动政企客户分公司云计算中心,负责移动集团政企分公司4大直管基地维护工作;中国数据中心工作组(CDCC)专家技术委员会委员;北京通信电源学会委员;中国移动集团动环专家。邮箱:13901287900@139.com1、数据中心运维管理概述1.1数据中心的概念及专业术语1.2数据中心机房等级和标准(GB,ANSV-TIA)1.3当前数据中心存在的类型及特点(国内外)1.4数据中心运维管理存在的问题2、数据中心运维管理框架2.1数据中心运维管理体系架构2.2数据中心运维管理有关指标2.3数据中心运维管理流程(基于ITIL标准)3、数据中心运维管理突发应急事件处理3.1数据中心应急处理基本原则3.2数据中心突发事件类型及其影响3.3数据中心应急响应计划的制订与执行3.4应急演练场景描述及典型场景应急预案分享(市电掉电、火灾、空调设备故障、油库应急等)通常对数据中心基础设施的定义为保障数据中心所管理IT设备正常运行所必需的网络通信、电力资源、环境资源等。123国外:数据中心基础设施是指包括关键基础设施(暖通系统、电气系统、消防系统、安防系统及弱电系)及IT设施(服务器、存储设备、综合布线)。国内理念:数据中心基础设施是指除了IT设备(计算机、服务器、网络设备等)之外的所有数据机房辅助设施,包括暖通系统、电气系统、消防系统、安防系统及弱电系统等。数据中心基础设施指什么?IT维护应急处置维护保养巡检出入管理发电机UPS供配电消防安全空调系统系统上线办公设备园区环境文件管理。。。。。客户服务监控系统迁移人力资源后勤保障柴油发电机动力配电不间断电源电气工程设备环境控制系统弱电工程建筑机房装修工程专用空调系统辅助空调系统通风系统系统空调系统监控中心控制系统漏水报警系统综合布线系统照明配电系统电源防雷接地机房接地自动报警系统门禁CCTV安防工程分区气体灭火系统分区水喷淋系统应急处置维护管理基础设施优化报告&分析故障处理应急处置应急演练日常巡检维护计划执行监控、培训现场管理能效管理测试评估空间规划数据报告能耗分析容量规划数据中心基础设施运维管理的内容通过对数据中心的基础设施进行日常运维和管理,确保各项基础设施系统安全稳定地运行,从而确保业务的连续性、基础设施的可用性及SLA的达成。规划建设运营咨询设计实施验证运维优化需求评估•数据中心定位•标准•容量•预算•成长计划•关键性•能效指标&PUE•总拥有成本关键技术定位•关键技术论证•节能方案规划需求分析•客户要求与限制•方案参考对照概念设计•概念设计•节能方案设计•项目估算选址评估认证咨询•LEED认证•GBL认证•Tier认证初步设计•分项系统设计•项目概算施工图设计•施工图设计•项目预算•设备材料清单•推荐招标文件项目初始化•设备材料选型•订单及物流管理测试评估•设备测试•可用性评估•客户验收运行管理•运行维护•设备监控•容量管理•资源管理•紧急预案评估•能源效率评估•环境系统评估•可用性评估•风险评估施工组织•施工界面•确定项目团队•项目启动•进度计划项目管理•工程实施•安装调试系统集成•设备安装•系统联调•管理软件配置运维规划•人员培训•运行规范•风险预案持续改进•节能增效服务•扩容改造•系统升级•迁移系统维护•定期巡检•设备维护•技术支撑•备件管理认证评估•LEED认证评估•GBL认证评估•Tier认证评估节能•PUE•能效管理TIA942标准是经美国电信产业协会(TIA)、TIA技术工程委员会(TR42)和美国国家标准学会(ANSI)批准的。TIA每5年回顾标准。那时,标准是根据提出的更新内容被再肯定、再废除、或修订的。包括在本标准下一次修订中的更新内容应该发送给委员会主席或TIA。美国电信行业60多个机构(包括制造商、顾问公司、最终用户和其他机构)为本标准的发展贡献了他们的经验。中华人民共和国住房和城乡建设部公告第161号关于发布国家标准《电子信息系统机房设计规范》的公告现批准《电子信息系统机房设计规范》为国家标准,编号为GB50174-2008,自2009年6月1日起实施。其中,第6.3.2、6.3.3、8.3.4、13.2.1、13.3.1条为强制性条文,必须严格执行。原《电子计算机机房设计规范》GB50174—93同时废止。本规范由我部标准定额研究所组织中国计划出版社出版发行。中华人民共和国住房和城乡建设部KenBrill创造了UptimeInstitute数据中心的分层系统而闻名于世,这种系统为评估和比较计算设施的可靠性提供了一种方法,他认为运营数据中心最佳手段就是让数据中心IT员工与工程师团队有更好的交流。UptimeInstitute首席运营官JulianKudritzki说:“用同一门语言将两个不同领域联系起来,让企业的内部沟通和资源的利用得到改良——这是他最大的遗赠。Brill也一直致力与技术创新,包括为服务器引进双电源,以确保当一个电源出现故障时服务器的正常运行。TierⅠTierⅡTierⅢTierⅣ有效的容量组件,以支持IT负载NN+1N+1N任何故障后分配路径11主用1&备用12同时主用同时并行维修NoNoYesYes容错NoNoNoYes隔间NoNoNoYes持续冷却负载密度依赖性负载密度依赖性负载密度依赖性A级UPTIMETier等级需求摘要•软件定义服务器、软件定义存储、软件定义网络等。•利用率的提升相应带来了对数据中心电力和制冷等技术要求的提高。•未来软件定义一切的趋势将更加明显,数据中心管理将向统一化、智能化的方向发展。•更多针对细分行业的解决方案。云计算在政府、金融、电商、游戏、视频等行业的应用逐步得到完善。•行业云更贴近不同行业客户的需求。如金融对安全性要求较高、而电商和游戏则在峰值访问时对带宽的需求较高。•针对二级市场如医疗、教育等行业的云解决方案仍有待完善。•2014年中国IDC市场增速加快,带动并引领了亚太地区IDC市场的增长。•互联网行业客户由于自身业务发展的需要,对数据中心资源需求旺盛;•云服务商业务量的快速增长也产生了大量的IDC机房和带宽需求。数据中心行业发展特点1、IDC市场快速增长,服务商数量持续增加2、软件定义推动数据中心技术变革3.互联网行业需求旺盛,国务院推动政务云采购4.政府引导绿色数据中心布局,云计算标准逐渐落地5.公有云应用种类增多,细分行业解决方案仍有待完善•云计算已上升到国家战略层面,政务云采购落地加速。•政务云市场已逐步扩大到二到三线城市;•未来政务云市场将进入高速增长期。•政府有关绿色数据中心建设的标准进一步完善;•IDC服务商和互联网企业也加大绿色数据中心投资力度;数据中心的特点及发展趋势——谷歌数据中心的特点及发展趋势——Facebook数据中心行业的发展动态与中国移动合建的亦庄数据中心设计功率密度8.8KW,建筑面积总计3.8万平米。阳泉数据中心已开通运行。中国电信呼和浩特云基地数据中心开通。数据中心行业最神秘的东家,数据中心布局全国;国内云计算排行第一,市场占有率近30%;千岛湖数据中心投产;张北投资180亿数据中心一期正在进行土建和招标,占地630亩,建设规模为60万台服务器。数据中心行业的发展动态投资10亿美元的重庆数据中心已开工建设,可提供30万台服务器装机能力,正式与三大运营商、腾讯、曙光、太平洋电信等展开巷战;天津滨海数据中心二期开始装机。数据中心行业的发展动态•蓝汛首鸣顺义数据中心;•厦门科华亦庄数据中心;•上海国际数据港;•云泰互联鄂尔多斯数据中心;•润泽国际信息港廊坊数据中心;•世纪互联亦庄数据中心;•KDDI亦庄数据中心;•万国数据上海数据中心;•万国数据成都数据中心;•太平洋电信天津武清数据中心;•亚马逊宁夏中卫数据中心•中国移动四大基地,已批复新建数据中心近30个;•中国联通正在建设10大基地;•中国电信呼和浩特云基地、北京稻香湖数据中心等……河北张北地区;宁夏中卫;新疆克拉玛依……银行证券三大电信运营商老牌民营数据中心新兴民营数据中心•建行北京稻香湖灾备中•建行武汉灾备中心;•邮储银行通州数据中心;•中国农业银行北京数据中心•中国银行数据中心•……云南玉溪;内蒙古呼和浩特、鄂尔多斯;贵州贵阳更大更绿更密新一代数据中心行业的特点园区化高功率密度能效更高柴油发电机UPS/电池低压配电市电配电动力切换精密配电制冷电源质量能源管理安防环境健康安全监控与软件业务连续性资源管理能耗管理可用性系统庞大结构复杂等级高保障级别高持续不断的挑战……能源与服务成本控制不断提升的可用性期望监管要求功率的动态变化容量或密度的不确定性云计算能源效率虚拟化衡量指标和报告服务器整合基础设施管理运维的难题如何解决?能耗成本不断增加电力不足冷却能力不足故障响应能力不足规模庞大,系统复杂缺少体系和标准机遇挑战123321•缺少完整的、行之有效的运维管理体系;•缺乏基础设施运维的统一运维资质条件;•专业人员,尤其是有经验的运维管理人员匮乏。•精细化运维的实践者;•数据中心基础设施运维变革的参与者;•基础设施运维体系的创立者;基础设施运维基础设施运维以宽广的运维视野来实现您所有的目标基础设施运维管理目标可用性(Availability)GB/T3187-97对可用性的定义:在要求的外部资源得到保证的前提下,产品在规定的条件下和规定的时刻或时间区间内处于可执行规定功能状态的能力。它是产品可靠性、维修性和维修保障性的综合反映。Availability=MTBF/(MTBF+MTTR)或者(考核期时间-DT/考核期时间)基础设施运维的关键三要素技术人员流程流程是核心、人员是关键、技术是手段人员是关键人员是数据中心运维管理的基础,也是数据中心运维管理的关键。一个好的数据中心运维管理框架,离不开合适的技术和管理人员。目前全行业缺乏基础设施运维相关标准和资质要求;基础设施运维专业跨度大:暖通系统、电气系统、消防系统、安防系统及弱电系统;数据中心的高速发展造成基础设施运维管理人员短缺的现状短期内难以改变;精通数据中心基础设施的性能、架构,熟悉运维管理工作,对行业的发展有较深入的了解。维护工作核心人员,精通数据中心基础设施的性能和系统,制定维护目标和维护计划,完成维护人员的管理、故障处理。熟悉数据中心配电、制冷、安防消防等设备,熟悉系统结构,主要进行日常巡检、完成日常维护作业计划,可进行一般故障的处理。基础设施运维人员构成基础设施运维管理人员现状运维专家运维管理人员现场值守人员技术能力层次不齐;人员流动性大;相关从业经验少;缺乏相关资质要求;高水平运维管理人员短缺;人员流动性大;缺乏相关资格要求全行业稀缺人员;具有丰富的运维管理和技术技术经验;了解行业发展;基础设施IT设备系统与数据管理工具人员是数据中心运维管理的基础,也是数据中心运维管理的核心建立起一套科学合理的包括选、用、培养、考核及解聘的人员管理生命周期;如何通过合理的组织架构设计与人员分工,最大限度地发挥个人的主观能动性,为组织目标贡献力量等。人为操作失误是造成数据中心宕机的头号因素,而非糟糕的设计或施工。人员技能提供的服务是标准且符合合同要求工作执行的标准化服务过程的可监控、可管理人员分工合适的组织架构可提高维护效率优化故障处理和紧急响应优化维护操作人员管理过高的流失率是维护的风险;完善的培训和良好的职业发展空间可增加员工粘性。1、数据中心运维管理概述1.1数据中心的概念及专业术语1.2数据中心机房等级和标准(GB,ANSV-TIA)1.3当前数据中心存在的类型及特点(国内外)1.4数据中心运维管理存在的问题2、数据中心运维管理框架2.1数