CDFOM培训笔记2011年8月2日-4日王海峰1223195547@qq.com什么是DC?演化过程1998年后才出现,之前只有(site)机房,没有network。1999-2000年,DC第一次建设井喷期2005-08年,TEA-942标准出现2008年,国标GBT-27001出现,开始第二次井喷期到现在IDCinternetEDCenterpirse-CDCcloudJamesHamiltion博客4.管理安全和法规的需求•法规和行业合规,制度•应急效应,安全策略和流程•保证运行的需求和流程•数据中心的通用规则和制度•符合人体工程学的工作环境•关于防范电源故障和火灾危险的运行流程和标准5.服务级别协议的管理•定义数据中心设计的限制•定义衡量标准和报告•关联业务的SLA和供应商的SLA•定义设备上架和下架的管理流程•报告和上报管理6.管理物理安全•有效的巡视和如何保证24x7的警戒•安全事故管理•应对外部威胁,危机/紧急情况•来源于ANSI/TIA-942,ISO/IEC-27001/02,SS507,ISO/IEC-24762的知道准则•针对日常安全访问控制的标准管理流程,诸如-进出控制和访问管理-PTW和供应商按流程和合同工作-其他-客户访问-物品交付7.服务级别协议的管理•数据中心内部的ITSM/ITIL•换班交接的需求和流程•硬件,软件,备件和消耗品等资产和库存的管理•高架地板场地空间管理流程和关于机柜空间分配,安装管理的职责8.巡查职责•接受和检查管理的标准流程•准入设备的交接•检查,拆包和安全流程•卸货流程和需求•设备运输到主机房•完成安装•部署安装和验收流程•安装前对于电力,制冷,重量,电磁,消防和其他影响因素的分析9.容量管理•定义了数据中心的设计极限•设定阈值,监测和报告•业务回顾及未来的容量规划•容量规划的技术解决方案,如计算流体动力学(CFD),容量和配置管理解决方案10.容量管理•概述ANSI/TIA-942,ANSI/TIA-606的要求•基于ANSI/TIA-606的布线和标签规范•电力和网络的布线•标签的要求•电缆/电缆桥架布局文件11.数据中心清洁及危害物控制•数据中心污染的常见原因•数据中心污染类型,比如硫化氢污染,空气颗粒物等•减少和清除灰尘,害虫,危害物及其他污染的标准,政策和技术12.维护M&E的最佳实践•分级保养注意事项•以预防,预测,可用性和可靠性为中心(RCM)的维护•针对不同的设备制定不同的全面的维护方案,如发电机,UPS等•预防性主动维护的重要性,例如;热扫描,泵振动测试,BMS•错误检测,系统备份测试,发电机负载测试等•对主要环境的定期和不定期年度检测,如变压器,发电机组,风冷或水冷机组,冷却塔等•管理本地/非本地的备件以及如何选择应当存放本地的备件•日常维护保养程序,如数据记录,每日检查,每日维护,报告和分析等13.数据中心的监控和自动化•数据中心的监测要求•阈值设置和报告要求•通知和上报要求•24小时的自动帮助台跟踪系统•突发事件管理和客户投诉管理和变更管理•性能测量和监控要求,比如能源和水的消耗,PUE的/DCiE等14.文档的管理和保管•文档管理标准•文件管理程序的要求•文档设计要求•运营管理文件15.环境的生命周期管理•审查,触发器和报告•生命周期的测试•服务状况•生命周期管理的政策和程序•包括软件和硬件在内的资产管理Lesson1数据中心运维团队1)运营团队的重要性人为原因和操作失误是主要原因2)导致操作问题的常见原因人员能力不足、缺乏预见性保养、核心人员流失、缺乏流程、缺乏维护合同、维护合同没有落实、操作流程和导引陈旧或缺乏3)如何提升效能和效率领导有力、卓越的运营(制度、流程和技术工人)、预算、持续投入(培训、工具)、一定的弹性机制、不断测试和改进4)如何根据业务范围组建运营团队业务范围:建筑、电力、环境、通讯、安保、人身安全、设备监视5)岗位描述的内容和重要性内容:名称、在组织中的角色、上下级报告路径、岗位职责、承担责任、技能要求、工作经验、工作环境6)合理KPO的几个要素举止、职业技能、语言沟通能力7)表现评价和奖励几个方面:行为举止、工作任务表现、技能差距奖励内容:培训、荣誉、加薪、一次性奖金、升职8)职业规划、世代交替、轮岗和培训9)如何制定合理的运营轮班10)总结:有效和高效的运营团队是数据中心的关键一个强大和有动力的运营团队能阻止DC的操作事故确定运营团队结构前要先定义好DC的规模岗位描述很重要正确设置KPO、评价和奖励机制可以提高团队的水平保证团队成功的关键因素:应变计划、职业发展规划和世代交替值班表和人员安排表可以保证DC岗位合理安排和后备支持3.维护合同•维护选择•维护协议的主要出发点•保修中的陷阱•服务报告和服务协议的关联•关于系统维护制度的最佳实践Lesson2供应商管理11)供应商管理的重要性12)供应商选择的标准和流程需求确定、确定期限、确定范围、确定交付内容、确定商务和技术框架、寻找供应商、筛选供应商、签订合同(SLA)13)服务需求分析的要素技术差距、组织差距、财务差距14)RFI和RFP资格审查:招标文件:15)RFP的最基本要求标的物(招标范围)、背景、工作范围、交付物、合同条款、付款条件、赔偿、期限、评估和奖励条款16)供应商评估标准评分标准:公司资质、技术应答、价格、法律法规、主观标准17)供应商的动态管理18)总结:供应商很重要供应商需要按业务需求进行选择服务需求分析和差距分析可以作为外部供应商选取的凭据分别用RFI和RFP流程选择供应商创建SLA供应商持续管理Lesson3服务合同19)维保的重要性阻止一些意外的发生、加快故障的修复20)三种服务产品和利弊权衡时间和材料服务:时间和服务级别没有保证、没有预见性保养、按时计费(节假日加倍)、配件不承诺、现价买配件。部分覆盖式服务:完全覆盖式服务:取决于业务需求、预算、自能能力三者之间的平衡,最基本的是业务需求。主要考量:对业务的影响、冗余能力、情绪因素、设备的生命阶段、预算、议价21)服务提供商的关键评判标准按uptime和downtime来分别考察、是原厂商还是授权经销商、是否提供基本服务(培训、支持、备件)、私交22)保修的常见陷阱23)维保合同的主要要求标准的合法性、设备清单、可量化的SLA、罚则、故障修复、电话响应时间、现场响应时间、修复时间、备件库存、季度报告、年度回顾24)维保合同和维保报告的不一致性25)总结维保服务是支持DC运行的关键三种维保合同类型及其比较服务提供商需要持续评估维保合同的关键因素服务报告和服务合同的一致性L4人身安全和法规管理26)安全法规的应用场合日常操作、专项工作、事故处理27)常见事故及发生原因掉进洞里、跌打损伤、触电、高处坠落、高空坠物、烧伤、气体28)事故预防全民动员(everybodyjobs)、领导责任制(safetyManager)、制定规章制度(statutory、industrial、company)、全民的意识和遵照执行29)工作许可单PTW的重要性四种类型:无火操作、明火操作、封闭空间、危险品30)外部供应商安全管理31)安全装备32)应急响应计划和疏散计划33)个人定制安全34)结论:各种安全规则事故是很难避免的正确的事故预防和衡量PTW可正确地控制高风险工作确定:计划、许可、审查和控制外部供应商应良好控制和引导以减少风险紧急响应计划需要制订,并定期进行良好培训和测试个人安全需要定期设计和审查L5ServiceLevelAgreement35)SLA设定边界和期望值的重要性(4个方面)客户承诺、客户服务KPI、内部KPI、罚则36)一个好的SLA要写到的五个关键方面承诺内容、如何兑现、怎么衡量、违约责任、超出部分37)数据点的重要性及应用重要性:数据混淆、无效沟通挫折、客户流失。包括:分类、时间框架、前提和责任、计算单位、计算公式、采样周期、数据来源38)结论:是微量性能的关键,为客户设定正确的期望顾客、服务提供商、设施和供货商之间的关系SLA可以避免:混淆、挫折、客户流失数据点的设定SLA周期管理L6ManagingPhysicalSecurity39)信息安全和ISMI定义:保护资产的C、I、A(保密、完整、可用)40)3D3R(Deterrence)威慑、侦测、推迟,响应、恢复、再评估41)ISMI建设周期(Plan-Do-Check-Act)规划-建设-运行-改进42)规范ISO27001、EIA942、SS507、ISO2476243)周界防护的措施篱笆、可视IDS、可视警示、CCTV、保安、狗44)标准操作规程SOP45)钥匙管理规定钥匙编号、分配记录、丢失报告、使用记录46)结论需要有制度、流程、技术方案保护资产各种安全管理的标准标准操作规程:安全巡逻、人员车辆进出、钥匙管理安全事件处理流程安保人员的甄选L7日常管理、机房管理员和上下架管理47)ITIL\ISO20000DC可以遵照ITIL和ISO2000,但并不完全followITIL48)交接班规定包含:事件记录、重要事件、服务申请、参数异常、PTW、工作情况、巡视、签字49)安装前评估物理(政治、承重、尺寸)、电源(相、平衡、额定功率、漏电电流、冗余)、冷却(CFM、气流方向、消防感应)、网络(可用网口、网络负载、冗余)50)交付测试和试运行、下架收货(检验、拆包)、准备(适应环境、配置、测试)、设备入机房51)货物接收流程确认流程、通知货物需求、交付、验货、卸货、差异记录52)阶段性测试、测试大纲步骤:物理检测、加电测试、能耗测量、冗余测试能耗测试:CPU、内存、IO、入口温度测量数据包括:时间、入口温湿度、电压、电流、电力因素、漏电电流53)下架流程声明、假停机、设备丢弃、数据销毁、更新图纸记录、配置管理工具L8CapacityManagement54)容量管理的3个主要步骤确定设计上的局限、审查目前的使用水平、审查将来可扩展水平是3个因素的平衡:设计容量、成本、业务需求55)DC的4个主要物理限制空间、机械、电力、网络56)各种主要功能区域的物理限制机房空间:机柜位置可用数、非机柜位置可用数、可转非机柜位置数、机柜可用U数57)在各种级别要求下冷却限制正常情况(普通设备失效或平均温度)和最坏情况(最不可能设备失效和极端温度)一般考虑环境:18-27C(64-81F),40-60%H(22.572.5/50%)机柜冷却能力取决因素:功耗和温差58)如何计算CFMCoolingcapacity=0.317*deltat*CFMTf=9/5*Tc+32CMH=CFM*0.03*603000/(0.317*10)=946(cfm)=1703(cmh)59)电力限制市电容量、变压器容量、变压器扩展能力(了包括发电机、分配屏等)、空间限制(走线架和竖井)、物理限制(开关、发电机、UPS和电池等)绝对上限80%有时候可以到90%,域值60%60)网络限制网络出口、最大端口数、网络性能、布线空间(走线架和竖井)设计考量:弱电走线架、光纤中继器、线缆捆扎61)容量管理工具和计算的主要原理功能:配置数据、使用情况监视、事故预想评判:详细需求分析、demo、调研、概论认证、审查培训、服务支持、更新和补丁L9CableManagement62)理解TIA942和606的区别TIA942数据中心综合布线设计TIA606管理流程、标签63)按TIA606识别线缆分类和标签Class1单独机房,无骨干Class2多机房,骨干标识,防火封堵标识Class3多建筑单网站,大楼标识,城际网骨干Class4多站点,城市标识标签标准:机打标识、终生寿命、易识别、标明源和目的、一致性64)铜缆和光缆的正确使用65)标签要求符合TIA-606,使用正确材质、简明的公约电力布线:标签和电源接头有一定的安全距离、使用“铁弗龙”标签数据布线:牢固、易读66)布线和电缆桥架67)柜内电源布线接