河北、内蒙古、辽宁IT运维管理系统技术方案汇报汇报目录系统建设目标及实施范围12系统功能3系统接口和配置4成功案例项目背景监控手段单一不能进行集中的监控管理故障监控不准确各类主机、交换机、路由器防火墙、存储设备、中间件、数据库、业务系统等管理流程不清晰谁使用,谁监控IT支撑体系构架不完整缺乏管理IT复杂流程不清建设目标技术导向救火队被动非正式流程从IT部门内部考虑IT管理客户价值之前之后流程导向预防为主主动正式的最佳实践从业务角度出发目标全方位的7*24小时集中监控管理,建立故障预警机制,及时发现问题,解决问题,提高IT系统可用性;改进支持管理流程,提高运维效率,降低企业管理成本。IT系统处于无序状态IT管理难度大IT系统可用性得不到保证IT管理成本高可有效的管理IT系统IT管理变得轻松、规范大大提高IT系统可用性降低IT管理成本实施范围123实现北方电信九省OSS域IT基础设施及核心应用的集中监控,其中基础设施主要包括网络设备、主机、数据库、中间件、存储等,核心应用主要指业务系统功能的使用实现北方电信九省OSS系统的集中管理,包括服务开通、服务保障、综合激活业务系统监控.实现IT运维管理,包括服务事件管理、问题管理、变更管理、配置管理、服务级别管理等流程。根据集团公司统一规划,IT运维系统先完成内蒙古、河北、辽宁三个分公司IT运维系统建设。实现服务保障、服务开通、综合激活系统的应用监控及主要IT基础设施平台的集中监控管理;同时实现基于ITIL的事件管理和问题管理、变更管理、配置管理等IT服务管理功能,提高IT系统运维的效率,确保IT系统持续可用性;后续再完成中国电信北方九省除内蒙古、河北、辽宁之外的IT运维系统建设。汇报目录系统建设目标及实施范围12系统功能3系统接口和配置4成功案例目标构架服务台、专家台、维护经理IT监控管理IT应用监控管理数据库CMDB主机网络数据库中间件存储备份应用其他事件管理IT平台监控业务关联分析问题管理变更管理配置管理SLA管理IT运维管理IT监控管理-监控数据采集方式KMAgentKM采集机代理网络设备存储设备非代理代理方式非代理方式通过在被管对象部署代理软件,收集被管对象运行的管理数据,实现底层数据采集通过标准协议如SNMP等获取被管对象的运行管理数据IT监控管理-监控对象网络设备•路由器•交换机•防火墙主机平台•Windows系列•Solaris•HP-Unix•Linux•Aix•Sco-UNIX数据库•Oracle•Sybase•SqlServer•Informix•DB2通用服务•DNS•FTP•HTTP中间件•WebSphere•Tomcat•JBoss•WebLogic•MQ•Tuxedo存储介质•IBM•HP应用系统•服务开通•服务保障•综合激活IT监控管理-告警管理告警采集告警处理告警显示•告警监视•告警定位•告警浏览•告警操作•历史告警查询•…•基于XML的告警过滤•告警级别重定义•告警业务影响分析•…•SYSLOG•SNMPTRAP•ICMPPOLL•TCP/UDPPOLL•性能阀值•…•告警设备•告警时间•告警类别•告警级别•告警内容•告警处理人•…告警格式告警指标•主机、网卡、连接状况•数据库、表空间、锁状况•中间件连接、监控、群集、执行队列、JDBC连接池IT监控管理-性能管理性能采集性能处理性能展现•性能图标监视•性能数据查询•性能历史数据查询•性能报表•预警分析报表•…•性能阀值分析•预警分析•性能数据归并•…•SNMP•HTTP/HTTPS•SQL*NET•DNS•PMI/JMX•…数据库指标•表空间、缩、连接•日志、回滚段•共享内存命中情况•动态捕捉SQL•…中间件指标•服务器可用性•JVM性能、队列•前端资源情况•后端JDBC连接情况•…主机指标•系统信息、版本•监控处理器、内存•磁盘空间利用率•IPC、进程、日志•…IT监控管理-对应用系统的监控支持的接口方式:FTP/FILEDBLINKXML/SOCKETSNMP监控信息点指标:退单处理数接口超时工单总数接口失败工单数等IT运维系统综合激活服务开通服务保障…IT监控管理-业务关联分析传统业务监控的缺陷–只能进行进程、数据库或中间件的单点监控–不能按照业务的资源组成进行关联分析–需要从庞大的告警数据中寻找问题源业务影响分析–多点监控,有效的发现业务问题–可通过配置和规则关联业务分析–方便定位,并实现业务的预警和决策支持IT运维管理功能架构总体功能流程服务台功能事件管理流程变更管理流程发布管理流程问题管理流程配置管理流程定义突发事件,尽快解决并恢复正常工作请求变更配置升级为问题寻求根本解决方案请求变更配置获取相关系统的配置信息获取相关系统的配置信息更新系统的配置信息IT运维管理-事件管理目标:在尽可能小地影响企业及用户业务的情况下使IT系统尽快恢复到服务级别协议所定义的服务级别,以确保最好的服务质量和可用性级别。主要任务:•及时识别并跟踪发生的事故•对事故进行分类并提供初步支持•对事故进行调查与分析识别引发事故的潜在原因•解决事故并恢复服务•跟踪和监督所有事故的解决过程,并随时进行沟通IT运维管理-问题管理目标:寻找发生问题的根本原因,根据优先级定义首先解决关键性问题,并防止与这些事故相关的事故再次发生,增加支持人员解决问题的能力。。主要任务:•识别和记录问题•对问题归类,主要关注影响业务的问题•调查问题的根本原因•解决问题•终止问题对事故进行分类并提供初步支持IT运维管理-变更管理目标:确保在变更实施的过程中使用标准的方法和步骤,从而以最快的速度实施变更,将由变更所导致的业务中断的影响减少到最低。主要任务:•记录和筛选变更请求•对RFC进行分类并划分优先级•评价RFC对基础架构和其他服务的影响,及非IT流程与不实施RFC的影响•实施RFC所需要的资源•获得实施RFC的正式批准•变更进度安排•实施RFC•评审RFC的实施IT运维管理-配置管理目标:核实有关IT基础架构的配置记录的正确性并纠正发现的错误;提供准确的配置信息支持其它服务管理流程。主要任务:•识别相关信息的需求•与配置项所有者一起识别和标识配置项,有效的文档、版本及相互关系•在中心配置管理数据库中记录配置项•可追溯的历史记录•确保数据的永久状态•对CDMB中记录的配置项进行审验IT运维管理-服务级别管理目标:确保组织所需的IT服务质量按服务级别协议规定的质量提供,同时在成本范围内得以维持并持续提高。主要任务:•记录服务级别需求(SLR)•通过建立或更新服务质量计划(SQP)、与第三方服务商签订外包合同和运营级别协议(OLA)来确保按服务级别协议规定的质量提供•监控提供的服务水平•提高服务质量•建立和维护服务目录汇报目录系统建设目标及实施范围12系统功能3系统接口和配置4成功案例系统接口1、IT基础构架接口•SNMP•SYSLOG•FILE等。2、第三方平台接口•SNMP•SYSLOG•API•WEBSERVICE等3、业务系统接口•SNMP•FTP•SOCKET等主机数据库磁盘阵列网络设备IT运维系统业务系统接口服务开通系统服务保障系统综合激活系统中间件IT基础构架接口第三方平台软件集成接口设备配置建议各省配置建议如下:根据测算,每省建议配置两台pc-server做数据库/应用服务器汇报目录系统建设目标及实施范围12系统功能3系统接口和配置4成功案例某省电信IT运维实施案例某省电信IT运维系统工程分三阶段实施,其中第一期完成对部分核心业务系统的应用监控和部分平台及网络设备的监控管理,实现基于ITIL的事件管理、问题管理等IT服务管理功能;第二期完成IT运维系统的全省推广建设,进一步完善系统基于ITIL的IT服务管理功能;第三期工程优化系统架构和功能,实现企业转型支撑,通过IT运维系统向外部客户提供IT资源管理监控服务。建设目标200820092010网络层:省中心和长电汇聚层以上及重要接入层网络设备应用系统:省集中计费系统、联机采集系统、EDW、号码百事通系统、IP认证计费系统和全球眼系统。网络层:其他本地网汇聚层以上及重要接入层网络设备。应用系统:CRM&SPS、资源管理系统、服务保障、IPTV等系统。IT服务:IT运维系统向客户网络延伸;可支持提供客户IT资源监控外包服务。提供外包网络呈现,定期报告监控机制等IT运维一期IT运维二期IT运维三期某省电信IT运维系统建设规模阶段区域主机服务器数据库应用服务器存储/备份切换软件网络设备IT运维一期省中心65411721215869317长电291642083合计68313321616069400IT运维二期其他本地网37720852260260总计106034126818669660说明:1.IT运维系统监控数据处理层数据、应用层数据在线存储12个月。2.IT运维系统一期接入6个业务系统平台(计费系统、联机采集、IP认证计费、CRM及互增业务平台);3.IT运维系统二期接入9个业务系统平台,两期共计15个业务系统平台;4.二期网络设备按每个本地网20台计算,共计260台。某省电信IT运维管理系统已正式上线投入使用!