惠普认证数据中心运营经理(CDFOM)培训笔记

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

CDFOM培训笔记2011年8月2日-4日王海峰1223195547@qq.com什么是DC?演化过程1998年后才出现,之前只有(site)机房,没有network。1999-2000年,DC第一次建设井喷期2005-08年,TEA-942标准出现2008年,国标GBT-27001出现,开始第二次井喷期到现在IDCinternetEDCenterpirse-CDCcloudJamesHamiltion博客4.管理安全和法规的需求•法规和行业合规,制度•应急效应,安全策略和流程•保证运行的需求和流程•数据中心的通用规则和制度•符合人体工程学的工作环境•关于防范电源故障和火灾危险的运行流程和标准5.服务级别协议的管理•定义数据中心设计的限制•定义衡量标准和报告•关联业务的SLA和供应商的SLA•定义设备上架和下架的管理流程•报告和上报管理6.管理物理安全•有效的巡视和如何保证24x7的警戒•安全事故管理•应对外部威胁,危机/紧急情况•来源于ANSI/TIA-942,ISO/IEC-27001/02,SS507,ISO/IEC-24762的知道准则•针对日常安全访问控制的标准管理流程,诸如-进出控制和访问管理-PTW和供应商按流程和合同工作-其他-客户访问-物品交付7.服务级别协议的管理•数据中心内部的ITSM/ITIL•换班交接的需求和流程•硬件,软件,备件和消耗品等资产和库存的管理•高架地板场地空间管理流程和关于机柜空间分配,安装管理的职责8.巡查职责•接受和检查管理的标准流程•准入设备的交接•检查,拆包和安全流程•卸货流程和需求•设备运输到主机房•完成安装•部署安装和验收流程•安装前对于电力,制冷,重量,电磁,消防和其他影响因素的分析9.容量管理•定义了数据中心的设计极限•设定阈值,监测和报告•业务回顾及未来的容量规划•容量规划的技术解决方案,如计算流体动力学(CFD),容量和配置管理解决方案10.容量管理•概述ANSI/TIA-942,ANSI/TIA-606的要求•基于ANSI/TIA-606的布线和标签规范•电力和网络的布线•标签的要求•电缆/电缆桥架布局文件11.数据中心清洁及危害物控制•数据中心污染的常见原因•数据中心污染类型,比如硫化氢污染,空气颗粒物等•减少和清除灰尘,害虫,危害物及其他污染的标准,政策和技术12.维护M&E的最佳实践•分级保养注意事项•以预防,预测,可用性和可靠性为中心(RCM)的维护•针对不同的设备制定不同的全面的维护方案,如发电机,UPS等•预防性主动维护的重要性,例如;热扫描,泵振动测试,BMS•错误检测,系统备份测试,发电机负载测试等•对主要环境的定期和不定期年度检测,如变压器,发电机组,风冷或水冷机组,冷却塔等•管理本地/非本地的备件以及如何选择应当存放本地的备件•日常维护保养程序,如数据记录,每日检查,每日维护,报告和分析等13.数据中心的监控和自动化•数据中心的监测要求•阈值设置和报告要求•通知和上报要求•24小时的自动帮助台跟踪系统•突发事件管理和客户投诉管理和变更管理•性能测量和监控要求,比如能源和水的消耗,PUE的/DCiE等14.文档的管理和保管•文档管理标准•文件管理程序的要求•文档设计要求•运营管理文件15.环境的生命周期管理•审查,触发器和报告•生命周期的测试•服务状况•生命周期管理的政策和程序•包括软件和硬件在内的资产管理Lesson1数据中心运维团队1)运营团队的重要性人为原因和操作失误是主要原因2)导致操作问题的常见原因人员能力不足、缺乏预见性保养、核心人员流失、缺乏流程、缺乏维护合同、维护合同没有落实、操作流程和导引陈旧或缺乏3)如何提升效能和效率领导有力、卓越的运营(制度、流程和技术工人)、预算、持续投入(培训、工具)、一定的弹性机制、不断测试和改进4)如何根据业务范围组建运营团队业务范围:建筑、电力、环境、通讯、安保、人身安全、设备监视5)岗位描述的内容和重要性内容:名称、在组织中的角色、上下级报告路径、岗位职责、承担责任、技能要求、工作经验、工作环境6)合理KPO的几个要素举止、职业技能、语言沟通能力7)表现评价和奖励几个方面:行为举止、工作任务表现、技能差距奖励内容:培训、荣誉、加薪、一次性奖金、升职8)职业规划、世代交替、轮岗和培训9)如何制定合理的运营轮班10)总结:有效和高效的运营团队是数据中心的关键一个强大和有动力的运营团队能阻止DC的操作事故确定运营团队结构前要先定义好DC的规模岗位描述很重要正确设置KPO、评价和奖励机制可以提高团队的水平保证团队成功的关键因素:应变计划、职业发展规划和世代交替值班表和人员安排表可以保证DC岗位合理安排和后备支持3.维护合同•维护选择•维护协议的主要出发点•保修中的陷阱•服务报告和服务协议的关联•关于系统维护制度的最佳实践Lesson2供应商管理11)供应商管理的重要性12)供应商选择的标准和流程需求确定、确定期限、确定范围、确定交付内容、确定商务和技术框架、寻找供应商、筛选供应商、签订合同(SLA)13)服务需求分析的要素技术差距、组织差距、财务差距14)RFI和RFP资格审查:招标文件:15)RFP的最基本要求标的物(招标范围)、背景、工作范围、交付物、合同条款、付款条件、赔偿、期限、评估和奖励条款16)供应商评估标准评分标准:公司资质、技术应答、价格、法律法规、主观标准17)供应商的动态管理18)总结:供应商很重要供应商需要按业务需求进行选择服务需求分析和差距分析可以作为外部供应商选取的凭据分别用RFI和RFP流程选择供应商创建SLA供应商持续管理Lesson3服务合同19)维保的重要性阻止一些意外的发生、加快故障的修复20)三种服务产品和利弊权衡时间和材料服务:时间和服务级别没有保证、没有预见性保养、按时计费(节假日加倍)、配件不承诺、现价买配件。部分覆盖式服务:完全覆盖式服务:取决于业务需求、预算、自能能力三者之间的平衡,最基本的是业务需求。主要考量:对业务的影响、冗余能力、情绪因素、设备的生命阶段、预算、议价21)服务提供商的关键评判标准按uptime和downtime来分别考察、是原厂商还是授权经销商、是否提供基本服务(培训、支持、备件)、私交22)保修的常见陷阱23)维保合同的主要要求标准的合法性、设备清单、可量化的SLA、罚则、故障修复、电话响应时间、现场响应时间、修复时间、备件库存、季度报告、年度回顾24)维保合同和维保报告的不一致性25)总结维保服务是支持DC运行的关键三种维保合同类型及其比较服务提供商需要持续评估维保合同的关键因素服务报告和服务合同的一致性L4人身安全和法规管理26)安全法规的应用场合日常操作、专项工作、事故处理27)常见事故及发生原因掉进洞里、跌打损伤、触电、高处坠落、高空坠物、烧伤、气体28)事故预防全民动员(everybodyjobs)、领导责任制(safetyManager)、制定规章制度(statutory、industrial、company)、全民的意识和遵照执行29)工作许可单PTW的重要性四种类型:无火操作、明火操作、封闭空间、危险品30)外部供应商安全管理31)安全装备32)应急响应计划和疏散计划33)个人定制安全34)结论:各种安全规则事故是很难避免的正确的事故预防和衡量PTW可正确地控制高风险工作确定:计划、许可、审查和控制外部供应商应良好控制和引导以减少风险紧急响应计划需要制订,并定期进行良好培训和测试个人安全需要定期设计和审查L5ServiceLevelAgreement35)SLA设定边界和期望值的重要性(4个方面)客户承诺、客户服务KPI、内部KPI、罚则36)一个好的SLA要写到的五个关键方面承诺内容、如何兑现、怎么衡量、违约责任、超出部分37)数据点的重要性及应用重要性:数据混淆、无效沟通挫折、客户流失。包括:分类、时间框架、前提和责任、计算单位、计算公式、采样周期、数据来源38)结论:是微量性能的关键,为客户设定正确的期望顾客、服务提供商、设施和供货商之间的关系SLA可以避免:混淆、挫折、客户流失数据点的设定SLA周期管理L6ManagingPhysicalSecurity39)信息安全和ISMI定义:保护资产的C、I、A(保密、完整、可用)40)3D3R(Deterrence)威慑、侦测、推迟,响应、恢复、再评估41)ISMI建设周期(Plan-Do-Check-Act)规划-建设-运行-改进42)规范ISO27001、EIA942、SS507、ISO2476243)周界防护的措施篱笆、可视IDS、可视警示、CCTV、保安、狗44)标准操作规程SOP45)钥匙管理规定钥匙编号、分配记录、丢失报告、使用记录46)结论需要有制度、流程、技术方案保护资产各种安全管理的标准标准操作规程:安全巡逻、人员车辆进出、钥匙管理安全事件处理流程安保人员的甄选L7日常管理、机房管理员和上下架管理47)ITIL\ISO20000DC可以遵照ITIL和ISO2000,但并不完全followITIL48)交接班规定包含:事件记录、重要事件、服务申请、参数异常、PTW、工作情况、巡视、签字49)安装前评估物理(政治、承重、尺寸)、电源(相、平衡、额定功率、漏电电流、冗余)、冷却(CFM、气流方向、消防感应)、网络(可用网口、网络负载、冗余)50)交付测试和试运行、下架收货(检验、拆包)、准备(适应环境、配置、测试)、设备入机房51)货物接收流程确认流程、通知货物需求、交付、验货、卸货、差异记录52)阶段性测试、测试大纲步骤:物理检测、加电测试、能耗测量、冗余测试能耗测试:CPU、内存、IO、入口温度测量数据包括:时间、入口温湿度、电压、电流、电力因素、漏电电流53)下架流程声明、假停机、设备丢弃、数据销毁、更新图纸记录、配置管理工具L8CapacityManagement54)容量管理的3个主要步骤确定设计上的局限、审查目前的使用水平、审查将来可扩展水平是3个因素的平衡:设计容量、成本、业务需求55)DC的4个主要物理限制空间、机械、电力、网络56)各种主要功能区域的物理限制机房空间:机柜位置可用数、非机柜位置可用数、可转非机柜位置数、机柜可用U数57)在各种级别要求下冷却限制正常情况(普通设备失效或平均温度)和最坏情况(最不可能设备失效和极端温度)一般考虑环境:18-27C(64-81F),40-60%H(22.572.5/50%)机柜冷却能力取决因素:功耗和温差58)如何计算CFMCoolingcapacity=0.317*deltat*CFMTf=9/5*Tc+32CMH=CFM*0.03*603000/(0.317*10)=946(cfm)=1703(cmh)59)电力限制市电容量、变压器容量、变压器扩展能力(了包括发电机、分配屏等)、空间限制(走线架和竖井)、物理限制(开关、发电机、UPS和电池等)绝对上限80%有时候可以到90%,域值60%60)网络限制网络出口、最大端口数、网络性能、布线空间(走线架和竖井)设计考量:弱电走线架、光纤中继器、线缆捆扎61)容量管理工具和计算的主要原理功能:配置数据、使用情况监视、事故预想评判:详细需求分析、demo、调研、概论认证、审查培训、服务支持、更新和补丁L9CableManagement62)理解TIA942和606的区别TIA942数据中心综合布线设计TIA606管理流程、标签63)按TIA606识别线缆分类和标签Class1单独机房,无骨干Class2多机房,骨干标识,防火封堵标识Class3多建筑单网站,大楼标识,城际网骨干Class4多站点,城市标识标签标准:机打标识、终生寿命、易识别、标明源和目的、一致性64)铜缆和光缆的正确使用65)标签要求符合TIA-606,使用正确材质、简明的公约电力布线:标签和电源接头有一定的安全距离、使用“铁弗龙”标签数据布线:牢固、易读66)布线和电缆桥架67)柜内电源布线接

1 / 10
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功