IDC数据中心运维要点在数据中心生命周期中,数据中心运维管理是数据中心生命周期中最后一个、也是历时最长的一个阶段。数据中心运维管理就是:为提供符合要求的信息系统服务,而对与该信息系统服务有关的数据中心各项管理对象进行系统的计划、组织、协调与控制,是信息系统服务有关各项管理工作的总称。数据中心运维管理主要肩负起以下重要目标:合规性、可用性、经济性、服务性等四大目标。合规性可用性经济性服务性IDC数据中心运维对象机房环境基础设施机房硬件系统和应用管理工具人员对于IDC数据中心运维理解IDC运维项目架构客户项目管理组(PMO)项目负责人(PM)运维流程设计ITIL专家技术团队运维团队监督,指导监督协调IDC运维职能表项目管理(PMO)IT服务台请求管理知识库自助门户资产管理ITIL模块事件管理CMDB问题管理变更管理管理模块业务规则SLA通知规则IDC运维需要提供的信息•监控管理平台到服务管理平台的信息•1.自动监控发现的异常事件•2.自动发现的配置信息•3.设备可用性历史信息及趋势•4.设备性能历史信息及趋势•5.设备容量历史信息及趋势•服务管理平台到监控管理平台的信息•1.异常事件解决跟踪信息•2.异常事件解决确认信息•3.历史事件解决知识库查询•4.设备管理责任人信息•5.用户环境设备信息•6.服务厂商相关服务信息IDC运维能力细分机房环境基础监控项目级别监控系统级别人员技能要求Level1:1:供配电系统监控2:空调监控(散热系统)Level1:1:报警处理功能(手机短消息,电话通知,事件记录)2:基于WEB的远程监控功能Level1:1:懂得机房各种基础设施,动力,空调,UPS,电源线及网线规范2:看得懂监控软件Level2:1:机房环境(温度,湿度)2:UPS状态监控3:漏水监控Level2:1:故障派单和闭单流程,系统能根据故障级别自动或手动派单,并跟踪故障过程2:手机短消息反查功能,能用移动终端查询机房环境实时情况Level2:1:熟悉系统派单流程,简单故障处理能力2:具有记录和发布监控系统事件记录的能力Level3:1:机房各种传感器的监控Level3:1:良好的扩展性Level3:1:具有根据客户要求定制监控软件的能力2:优化机房基础设施的能力IDC运维能力细分机房硬件(网络监控)监控级别监控系统级别人员技能要求Level1:1:网络拓扑监控2:网络性能监控(CPU,内存,可用性)Level1:1:报警处理功能(手机短消息,电话通知,事件记录)2:基于WEB的远程监控功能Level1:1:能基本了解网络拓扑,知道网络设备的功能。2:基本网络排错技能3:相关认证:CCNALevel2:1:故障节点定位2:端口流量监控3:交换机配置管理Level2:1:使用基于SNMP,SSH,Telnet的信息采集,管理模式2:多厂商硬件支持3:故障派单和闭单流程,系统能根据故障级别自动或手动派单,并跟踪故障过程Level2:1:熟悉派单流程2:具有多厂商网络认证3:会配置交换机,快速排错4:相关认证:CCNP(CCIE)CCSPJNTCP、5:根据监控系统出相关报告Level3:1:路由表管理2:网络拓补发现Level3:1:基于网络管理参数的监控系统(详见表Level3:1:对网络协议熟悉2:优化网络配置,提升安全等级3:相关认证:CCIE网络管理参数(表一)网络设备在线可用性CPU平均利用率内存利用率网络设备内存池占用容量网络设备内存池可用容量总接收吞吐量总发送吞吐量吞吐量丢包率所有接口接收的丢包数所有接口发送的丢包数接收和发送ICMP包率发送的ICMP包率接收的ICMP包率网络设备的OID连续运行时间网络设备说明交换机下的IP地址网络设备MAC地址CiscoConfig状态CPU个数内存总容量网络接口个数IP地址网络设备名称CPU利用率CPU名称CPUID号管理状态操作状态ARP包率接收的ARP包数发送的ARP包数单播包率接收单播包数发送单播包数发送利用率发送的丢包数发送的错包数发送速率广播包率接收的广播包数发送的广播包数接收利用率接收和发送利用率总和接口累计接收和发送的包数接口累计接收的包数接口累计发送的包数接收的丢包数接收的错包数接收速率组播包率发送组播包数接收组播包数接口带宽网卡ID号接口名称索引接口类型接口带宽MAC地址链路可用性链路名称链路ID号所属网络接口目标IPIDC运维能力细分机房系统(主机监控)监控项目监控需要达到的要求主流OS性能监控1:报警处理功能(手机短消息,电话通知,事件记录)2:使用基于SNMP,SSH,Telnet的信息采集,管理模式3:主流OS支持(MSWindows,linux,SUN,IBM)4:基于WEB的远程监控功能,基于agentless的监控方式5:故障派单和闭单流程,系统能根据故障级别自动或手动派单,并跟踪故障过程6:基于主机管理参数的监控系统(详见下表)主流OS可用性监控系统备份访问权限设置系统日志主机细分管理参数主机在线可用性CPU平均利用率CPU非空闲模式百分比CPU中断时间百分比CPU特权模式百分比CPU用户模式百分比内存利用率内存页交换速率内存错页率硬盘平均等待队列硬盘平均磁盘时间硬盘平均读写速率分区平均利用率接收和发送的ICMP包率核心内存利用率虚拟内存利用率认可用量利用率主机总内存容量主机总可用内存容量主机已用用内存容量分区总容量分区总使用容量发送的ICMP包率接收的ICMP包率页面调进速率页面调出速率硬盘平均读速率硬盘平均写速率连续运行时间主机基本信息操作系统MAC地址主机操作系统的OID包含的IP地址系统版本系统SP等待处理队列进程数线程数句柄数当前在线用户数核心内存总量剩余核心内存已用核心内存虚拟内存总量虚拟内存已用量认可用量总量已用认可用量IDC运维能力细分应用系统(数据库监控)监控项目监控需要达到的要求主流数据库性能(MSSQL,Oracle等)1:报警处理功能(手机短消息,电话通知,事件记录)4:主流数据库支持(MSSQL,Qracle)4:基于WEB的远程监控功能,基于agentless的监控方式5:故障派单和闭单流程,系统能根据故障级别自动或手动派单,并跟踪故障过程主流数据库可用性监控数据库CPU用量,内存用量,物理读写,会话数链接,系统日志数据库备份,优化