UPTIMEM&O运维管理体系和运维实践中科仙络陈高平29,Mar,2017现有运维管理标准介绍UPTIMEM&O运维管理体系简介UPTIMEM&O体系建设流程运维实践分享目录2014年8月发布中国数据中心工作组(CDCC)2017年5月发布国家标准化委员会2015年3月发布中国数据中心产业发展联盟2010年5月UPTIMEINSTITUTE数据中心运维行业标准指导数据中心服务能力构建、监视、测量和评价外部评价机构对数据中心服务能力成熟度进行测量和评价数据中心运维人员指导从安全、人员、设施、运行四个方面界定运维实践推广数据中心运维体系建设数据中心服务能力评价基于故障防范的数据中心管理及运行体系,以保持“业务持续性”结果为导向UptimeM&O运维管理体系和标准,是全球数据中心领域权威的第三方研究机构Uptime研究所提出的,用于指导和验证数据中心基础设施的管理及运营水平。UptimeInstitute创始人-KenBrillUPTIMEM&O运维体系提出较早,体系成熟。经过近几年推广,得到业界广泛认可系统、完善的运维服务能力构建及评价标准(M&O人员认证和场地认证)数据中心事件的几个重要定义事件(Incident):任何机房设备的异常动作,定义为事件。故障(Failure):导致IT系统中断的,定义为故障。故障是事件的子集。拯救(Save):因为人员的干预,或者系统冗余,没有导致故障的事件,称为拯救。–数据中心的事件不可以避免,从运行管理人员的角度来看,就是多研究事件的原因,尽量减少事件转化为故障的可能。数据中心事件\故障分析Root-CauseofIncidentsRoot-CauseofFailuresSavesbyCategory现有运维管理标准介绍UPTIMEM&O运维管理体系简介UPTIMEM&O体系建设流程运维实践分享目录数据中心管理要求及管理方针管理手册数据中心各项工作输出文件及记录数据中心管理要求的具体实施方法管理指引输出记录123体系文件分级体系文件树第一级:管理手册第二级:管理指南体系文件(示例)管理手册管理指引操作表单操作程序现有运维管理标准介绍UPTIMEM&O运维管理体系简介UPTIMEM&O体系建设流程运维实践分享目录数据中心运维体系建设时间节点过渡期(开荒期)1-2个月磨合期3-6个月平稳期6-9个月成熟期9个月后UPTIMEM&O运维体系建设流程体系建设流程•现场调研&差距分析——了解数据中心运维现状,根据标准找出差距•计划制定&体系导入——制定体系建设实施计划;结合本地化特点,建立体系模型•体系文档建立——管理性文件、操作性文件、输出表单撰写•体系文档验证及发布——验证体系文档的适用性,对试运行发现的问题进行完善和优化;经过完善和优化后的运维体系正式发布体系落地STEP1:现场调研&差距分析确定管理目标与差距分析•前期沟通•确定运维管理目标•现场调研•结合标准进行差距分析•提供差距分析报告输出•现状调研问卷•调研分析报告体系落地STEP2:计划&体系导入计划&体系导入•设定目标时间和阶段里程碑•建立实施计划•评估工作量•体系建设人员分工•体系导入搭建体系管理模型(5大管理领域、22项管理子域)管理性文件、操作性文件、相关输出表单模板确认输出•实施计划&分工•数据中心运维体系模型•运维管理领域、子域手册模板•操作手册、表单模板体系落地STEP3:体系文档建立体系文档建立•体系管理手册撰写•体系管理指南撰写•体系维护操作文档撰写•相关输出表单建立根据实施计划,结合数据中心本地化的特点,对体系中涉及的管理性文件、操作性文件及相关输出物进行撰写。输出•数据中心运维管理手册•数据中心运维管理指南•数据中心运维操作手册(SOP\MOP\EOP)•数据中心运维管理输出表单•数据中心运维管理文件树体系落地STEP4:体系文档验证文档验证•管理流程验证•操作流程验证•体系的修订及完善•体系正式启用体系文档建设完成后进行试运行工作,在试运行过程中对于发现的问题及时进行修订、完善。同时再次验证运维体系的适用性。输出•管理手册、指南发布•操作手册发布•输出表单发布体系认证认证预审•文件预审•流程执行情况预审•运维人员操作预审•审核问题点的整改、优化由具备UptimeATD和ATS认证的顾问亲临数据中心,模拟UptimeM&O认证现场,对数据中心运维团队进行审核,了解与认证通过之间的差距并给与改进意见。根据具体模拟审核情况对运维体系作进一步的完善。输出•认证预审流程•认证预审内容清单•认证预审分析报告•认证预审问题整改计划体系认证认证正审•认证正审(2天)•审核报告(3周)•认证授予审核顾问通过现场观察、文档审核、与数据中心员工的交谈来评定人员配置和组织架构、设备维护、培训体系、计划、协调和管理、设备运行条件几大方面所要求的检查条目是否存在并被有效执行。输出•正审分析报告•认证授予体系建设成果•成熟运维管理体系的导入或优化•20余项运维体系管理文档•100余项手册及输出表单•有效提升数据中心可用性、性能和效率•运维管理水平达到国际标准,容易获得M&O认证证书体系建设成果UPTIMEM&O体系辅导案例客户数据中心使用面积(㎡)咨询进度百度北京M1数据中心7000㎡已通过认证招商银行深圳数据中心6000㎡已通过认证上海数据中心4000㎡已通过认证中国移动百度亦庄云数据中心25000㎡认证辅导中贵州移动贵阳数据中心5000㎡认证辅导中数据中心的唯一价值是支持企业的应用不间断地运行。数据中心的规划、设计、建造、运行,每个生命阶段都有可能影响其最终运行的可靠性。我们的宗旨是以结果为导向,协助客户在每个生命阶段做好工作,保证系统的最高可用性。数据中心的生命周期数据中心全生命周期咨询服务现有运维管理标准介绍UPTIMEM&O运维管理体系简介UPTIMEM&O体系建设流程运维实践分享目录运维人员的重要性从研究数据来看,称职的现场员工是保障数据中心稳定运行的第二大功臣。现场员工的技术能力要过关,能够完成份内职责,对于数据中心运行的经验越丰富,可靠性就越有保障。拯救运维人员岗位职责JD(JobDescription)JobTitle:项目经理(PositionDefinition:A)GeneralStatementofDuties:项目接口人,对于项目总体交付质量负责SupervisionReceived:SupervisionExercised:副项目经理、总工程师、项目经理助理ExampleofDuties:PrimaryDuties-1、保证交付团队员工完成本职工作,并对工作质量进行监督考核;2、负责对每月消耗品、维修费用及其它费用进行审核;3、作为管理供应商的总接口人,进行供应商管理并每季度进行考核;4、监督PPM的执行进度及完成质量;5、负责跟踪重大改造和维修,每周审批工作计划;6、每周安排交付会议,向客户汇报工作进度;7、对于各岗位的职能和流程进行界定管理。8、负责项目交付人员整体素质提高、安排员工培训;9、负责与客户接口,对所有汇报给客户的报告进行审核;OtherDutiesPerformed-1、安排完成客户临时安排的其它任务。RecordListA3;A4;A5;A6;A7;A8;A9;A1;A2;编号内容频率起草人审批人发送至备注A1人员更新计划季度副项目经理项目经理根据每月员工考评成绩决定A2培训计划季度副项目经理项目经理根据PPM及WO完成情况决定A3员工月度考评月度副项目经理项目经理A4消耗品采购申请表月度仓库管理员副项目经理项目经理每月汇报至客户审批A5供应商季度考评季度总工程师副项目经理项目经理对供应商KPI进行考评A6PPM月度完成情况汇总表月度总工程师副项目经理项目经理A7工程审批表即时副项目经理项目经理每周四汇报客户A8周工作进度表每周副项目经理项目经理每周召开会议A9工作描述和工作流程优化季度副项目经理项目经理根据实际情况优化工作分配和流程运维人员培训计划运维人员培养模式技能提升实施联合项目管理:六大步骤、八个要点岗位技能标准要求技能测试技能差距GAP分析技能提升计划①需求调研②技能模型建立④技能培养③模底评估联合技能认证⑤技能认证关键里程碑节点岗位匹配应用⑥岗位应用(可选)问卷调查运维人员培养方法(导师制)预评输入·新员工简历·面试记录·引导培训输出·ETSS新员工岗位培养预评表·培训考试记录·选定导师、实习岗位初评终评第二阶段在岗实习期输出·导师、直接主管定期检查和监控新员工培养进度和成长情况·培训记录输出·ETSS新员工岗位培养评定表(若不需第二阶段培养,初评即为终评)输出·ETSS新员工岗位培养评定表·定岗定级输出·导师、直接主管定期检查和监控新员工培养进度和成长情况·培训记录第一阶段在岗实习期输入·导师制订培养培训计划·岗位培训(岗位职责、岗位要求和基本素质、岗位流程规范规章制度、岗位技能)输入·导师制订第二阶段培养计划·技能培训(产品知识、产品维护规程规范)·根据第一阶段情况针对性提高岗前培养在岗培养(导师负责制)后续培养输入·定期组织培训和考试·员工之间交叉培训输出·培训记录和考试成绩后续培养运维人员培养---带教计划第一周第二周第三周第四周第一周第二周第三周第四周第一周第二周第三周第四周计划20次10次10次10次10次10次10次10次10次10次10次10次执行4次10次10次计划1次1次1次1次1次1次1次1次1次1次1次1次执行0次3次2次计划了解熟悉考试执行了解熟悉计划执行计划执行计划安全了解了解熟悉熟悉复习考试执行安全计划了解掌握复习考试执行了解计划一篇一篇一篇一篇一篇一篇一篇一篇一篇一篇一篇一篇执行一篇一篇计划执行计划初定细定优化定稿执行初定计划了解掌握考试执行了解计划20次20次10次10次10次10次执行2次计划了解熟悉掌握复习考试执行计划了解熟悉掌握复习考试执行了解计划了解熟悉掌握复习考试执行空调系统自控逻辑学习6现场安全及空调系统基础原理知识培训日常保养工作落实,工程师需现场复查并记录存档1011122347空调系统运行模式学习15空调自控系统失效应急办法学习13运行事件跟踪处理学习心得体会(每人一篇)日报,周报汇报《设备巡检参数记录表格》《每日工作内容表格》《每周工作内容及下周工作计划》制设备实际操作学习,参照《系统操作指引》监控系统认知学习空调整个系统管路路由查看巡检要点及维护要点学习序号带教内容92015年6月2015年7月14空调系统常用应急处理办法学习2015年8月设备现场巡检,熟悉现场158整体带教计划(全员整体带教计划,类似学校教学进度安排)个人带教计划(导师根据个人情况制定的个人带教计划)运维人员培养---技能认证及梯队建设主管后备管理人员总工专业工程师基础维护工程师新员工初级培训中级培训高级培训专家级培训管理培训人员技能培养认证流程人员梯队建设操作流程操作流程(SOP、MOP、EOP)要具备可操作、可执行性SOP、MOP、EOP图像化评审过的SOP、MOP、EOP严格遵照执行,不仅停留在纸面示例:数据中心巡检操作指引.docx目的:避免运维人员因技能差异导致的操作风险和执行质量差异保证作业过程、输出结果的规范性和一致性降低对人员技能和经验的依赖操作流程---应急演练制定和完善各种场景的应急预案制定应急演练计划,定期实施各种应急演练通过应急演练,检验现场运维人员对应急保障方案(EOP)操作的熟练程度,提高应急处理能力。同时,检验应急保障领导小组的应急协调能力及应急保障物资的准备情况。制定应急演练计划应急演练准备:演练脚本、应急资源(如工具、通讯设备等)应急演练实施演练总结评估应急预案及相关应急资源完善市电停电启动柴发应急演练一路市电故障低压侧不能切换故障演练冷冻水停供应急演练练空调故障演习UPS故障停机应急演练数据中心UPS系统A、B路切换应急演练机房漏水故障演习机房消防演习……应急处理能力是运维工作的核心价值体现评分及意见110分1.11.21.31.4