某部委数据中心IT运维系统解决方案第1章IT系统运维现状分析经过多年的建设,各省(市)厅(局)信息中心的信息化建设已经处在一个比较高的水平。其网络规模庞大,网络应用系统紧密结合工作流程,具有特别的重要性和特殊性;其环境复杂,多系统、多数据库和多应用平台,多厂商网络及系统设备,多业务应用等复杂的管理环境。“三分建设、七分管理”,其运行维护质量与工作水平将直接关系到该部委所建的信息资源库以及各个应用系统能否发挥效益和业务专网能否安全、高效运行。按照ITIL的服务理念和服务水平的成熟程度要求,某部委数据中心在信息技术的管理标准、服务流程和服务质量上还有待改善,目前的IT服务管理水准与实现信息技术资源共享、信息技术专业服务的要求相比较,有一定差距。主要表现在:缺乏统一的集中监控与管理平台。IT系统日常运行管理条块分割,网络、应用、安全、IT基础环境等基本上是各管一摊,缺乏一个统一的、主动的集中运行监控平台,既浪费了人力资源,也难以做到快速发现故障。缺乏统一的规范的有效的IT服务管理流程以及与其配套的管理制度,支持IT系统的运行维护。对于日常故障和服务请求的处理,重大故障的处理,以及系统变更等运行维护工作,很难监督处理过程,改善处理效果,提高处理效率。IT部门对整个IT基础设施和服务的配置信息(包括硬件,软件,文档,合同,过程,人员等)缺乏全面有效的管理,跟踪和控制,不能为日常运行维护提供准确的信息。对事件和问题的管理比较被动,缺乏服务的前瞻性,不能形成从监控系统发现事件和问题到IT服务管理平台处理事件和问题的闭环工作流。第2章系统建设思路随着数据中心信息系统规模的不断扩大,业务应用的持续增加,IT基础架构已经变得越来越复杂。仅仅依靠某个工具或个人,已经不能胜任如此巨大的工作量并满足业务紧迫性的要求。因此,必须有一套完整的IT运维管理解决方案帮助数据中心完成系统的运营和维护。通过IT运维管理项目建设,将做到信息系统故障早发现、早解决,确保计算机系统、网络和应用的连续、可靠、安全运行,降低发生故障的可能性,提高数据中心的系统运行管理水平和服务保障能力,为相关业务工作提供高效、贴身服务。2.1全方位的运维管理广通BroadviewIT运维平台解决方案是“IT管理思想+系统工具”的组合,它不仅是管理软件产品本身,而且还包括管理流程(Process)、管理规范(Policy)、业务(Business),并将管理流程、管理规范、业务贯彻到软件产品中去的实施方法。因此,广通公司为数据中心提供的IT运维管理解决方案不仅提供软件产品工具,还包括管理流程与规范、业务及实施方法在内的全方位建设。通过IT运维管理项目建设,将做到信息网络故障早发现、早解决,确保计算机系统、网络和应用的连续、可靠、安全运行,降低发生故障的可能性,提高数据中心的系统运行管理水平和服务保障能力,为该部委相关业务工作提供高效、贴身服务。2.2满足多角度的管理需求ITIL运维管理可以看成由服务支持和服务提供两部分工作组成。服务支持是对基础IT设施的综合管理并帮助维护人员完成日常运营工作,工作重点偏重数据中心IT运维系统解决方案于IT技术。服务提供是将管理数据转化为决策信息和业务层面的支持,工作重点偏重于从业务视角来看待问题。BroadviewIT运维管理解决方案面向不同层次的工作人员,可以满足多角度的管理需求。2.2.1面向基础设施的管理(1)全面管理系统资源提供对网络、主机、操作系统、存储设备、数据库、中间件及应用软件等IT资源的全面管理;包括纵向资源的配置与拓扑管理。(2)性能管理与优化面对网络、服务器、数据库、中间件系统等性能进行监控,建立性能处理的基线。定期提供性能报表和趋势表,可以根据趋势分析,提出性能优化的建议,如修改系统参数、系统扩容等。(3)故障管理提供一个集中管理故障和事件的中心,能够收集各种管理功能产生的故障事件(例如:网络事件、主机事件、存储备份事件、安全事件等)。完成故障事件收集、过滤、关联和处理等工作,以实现对故障的快速处理。2.2.2面向维护管理者(1)运维服务管理运维服务管理基于人与流程的结合,提供方便,灵活工作流程的管理功能,使工作人员维护管理工作的自动化和信息化,其中包括帮助台、事件、问题、变更、配置管理以及值班管理等根据客户量身定制的业务管理功能;(2)资源监控通过实时动态视图显示管理系统的实际数据,一目了然地看到当前IT系统的运行状态及趋势。可以综合监控IT系统中各种资源的实时状态和性能信息等所有运行情况,帮助管理人员快速发现问题,分析和确定问题所在;(3)知识库使工程师在处理系统故障的时候,能够参考相关故障处理的方法,让有较低技术水平的工程师也能够进行系统维护,从而降低IT运维管理对个人的依赖。2.2.3面向领导决策者(1)综合报表对IT系统运行状况信息进行汇总,并以图表的方式为管理人员提供直观的分析结果,帮助领导更全面的了解网络、主机、数据库、应用系统的运行状况和运行趋势,为领导决策提供支持信息。(2)绩效评估通过运维平台的工单处理数据,领导可以对系统维护人员的工作绩效有一个直观的了解。从而通过预定的关键绩效指标对工作人员进行绩效评估。2.3系统建设内容搭建IT运维管理体系包括四个层次的工作:一是实现数据中心IT系统的故障信息采集和统一处理。即对网络、服务器、数据库、中间件、磁盘阵列、应用系统及机房环境进行有效的管理和监控,将网络管理、IT运维管理、安全管理、IT基础环境管理等功能整合在一起,实现统一的监控数据采集、一体化的报警数据处理、统一的故障流程处理。二是管理流程整合和统一管理。统一网络管理、IT运维管理、安全管理、IT基础环境管理相关的各个业务流,如值班管理、工单管理、资产管理、知识库管数据中心IT运维系统解决方案理等,形成数据中心运行维护的规范化流程。三是统一的信息展示和运行考核。根据资源监控系统采集的各类数据,提供网络、业务应用的信息展示功能,并与运行管理的绩效考核相结合。四是实现地市IT运维管理平台向省(市)厅(局)IT运维管理平台系统的数据上报,省(市)厅(局)可以全盘掌握各地市的运行情况,并生成各种统计分析报表。第3章系统架构3.1逻辑架构IT运维管理平台是一个完整的网络与系统管理、安全管理、IT基础环境管理、运维流程管理解决方案,可以最大限度的保护网络中的投资,并充分考虑到将来管理需求扩展。其中每一个层次之间的描述如下:图1.BroadviewIT运维系统逻辑架构3.1.1管理对象层管理对象层能够管理数据中心信息平台,涵盖了机房环境、网络设备、主机系统、业务应用软件、网络安全设备等。同时系统可以管理由网络设备和线路构成的多种链路。3.1.2组件管理层组件管理层通过各类探针(Probe)获得各类被管对象的数据。采集方式支持多种网络协议和采集方式,对于不符合标准网络协议的设备,系统提供二次开发的数据采集接口。采集协议与方式主要包括:SNMP、SNMPTRAP、Agent、WMI、SYSLOG、Telnet、Socket等。采集的数据类型主要包括:网络设备、主机系统、系统软件(中间件和数据库)、业务应用软件等。3.1.3数据汇聚层来自不同被管对象的,通过各种采集手段获取的告警、性能、配置数据在数据汇聚层按照预定的规则和流程进行处理。3.1.4功能展现层展现层主要是将其下层模块所提供的功能的整合,为用户提供一个图形操作界面、浏览器访问等用户操作和使用功能。在其下层模块所提供的功能基础之上,我们提供服务器、事件管理、问题管理、变更管理、日常作业管理、配置管理等ITIL服务提供管理流程功能。3.2产品架构BroadviewIT运维服务方案面对用户日益复杂的IT环境,整合以往对网络、服务器与业务应用、安全设备、客户端PC和机房基础环境等的分割管理,实现了对IT系统的集中、统一、全面的监控与管理;系统通过融入ITIL等运维管理理念,达到了技术、功能、服务三方面的完全整合,实现了IT服务支持过程的标准化、流程化、规范化,极大地提高了故障应急处理能力,提升了信息部门的管理效率和服务水平。图2.Broadview产品架构Broadview运维服务方案由网络管理NCC、业务应用管理BCC、安全管理SCC、桌面管理DCC及集中运行管理COSS五大部分组成。1.网络监控(NCC)(1)自动、准确、及时地发现各类异构复杂网络的拓扑结构(2)可持续地监视、报告网络的运行情况(3)提供网络运行状态和性能的多角度分析与统计(4)拦截非法接入,保障网络系统安全(5)监控异常流量及ARP欺骗等病毒2.应用监控BCC)(1)资源监测子系统监控企业的服务器、中间件、数据库、业务应用、安全设备及基础支撑系统(如机房、空调、UPS等)的运行状况;建立性能基线;发现系统异常并及时告警。(2)运行展现子系统围绕IT业务和IT资源,采用人性化多层导航呈现模式,由全局到局部、由粗线条到细颗粒度地逐层展现业务应用的运行状况。3.安全监控(SCC)(1)对各类安全设备告警事件进行采集和跨类型、跨厂商的分析(2)可将处理后的告警信息自动精确关联到安全知识库(3)实时的、翔实的、准确的呈现告警事件及信息4.桌面监控(DCC)(1)桌面资产统一管理(2)桌面安全策略的强制执行(3)终端用户行为审计(4)补丁发布(5)实现用户桌面系统的标准化5.集中运行管理(COSS)(1)IT资源监测结果综合展现(2)提供各种报表和视图,呈现IT资源的运行状况和运行趋势(3)基于ITIL的运维流程化管理(4)知识库管理第4章功能实现4.1NCC实现对网络的管理(1)网络拓扑发现■自动、准确、及时发现各类大型网络的拓扑结构,持续监视、报告网络的运行情况。■直观和自定义化的界面拓扑呈现。图3.广域网拓扑图(2)网络异常监测通过监测网络系统的各项运行参数,全面全面掌控网络的异常和性能情况,发现异常及时告警。■设备故障与链路阻断告警■设备与链路性能告警■异常流量告警,如病毒爆发、BT下载等图4.网络异常报告(3)终端合法性监控内置设备合法性监测引擎,自动监测网内终端设备的基本属性,自动比对资源表,告警非法终端设备。图5.网络异常报告(4)网络链路管理图6.网络异常报告(5)统计报表提供了性能、告警、状态、资源多个角度的统计和分析报表。图7.运行报告4.2BCC实现对业务应用的管理4.2.1资源监控系统提供了近200种监测器。支持通过SNMPPolling、SNMPTrap、Syslog、CLI(Telnet、SSH)等协议或者UniAgent代理,对整个网络运行参数进行全面、系统、深入的采集。系统不仅能够对网络中的服务器、网络设备进行监测,同时还具有强大的应用监测功能。组合使用它们可以对WEB、Email、DNS、FTP、ERP、CRM、MIS、中间件、财务、电子商务等应用系统从应用可用性、系统资源占用和性能指标三个层面进行全面深入的监测管理。(1)业务系统监测(2)服务器监测略(3)数据库监测图略(4)中间件与群件管理图略(5)基础应用监测图略(6)存储监测图略(7)扩展接口图略4.2.2运行展现(1)全局展现(一级视图)图8.BroadviewBCC主页(2)全局的健康排名(一级视图)对所有被管对象分类展现,根据负荷情况排名分析。图9.BroadviewBCC服务器负荷排名(3)服务器节点展现(二级视图)图10.BroadviewBCC节点运行展现页面-服务器(4)数据库节点展现(二级视图)图11.BroadviewBCC节点运行展现页面-Oracle4.3COSS实现ITIL运维流程管理运维流程化管理系统提供了简洁直观地界面,将当前IT环境的运行情况直观地呈现给值班员,实现服务器、事件管理、问题管理、变更管理、配置管理等ITIL服务支撑管理功能。4.3.1服务台作为用户与IT部门的唯一连接点,服务台能够确保用户找到帮助其解决问题和请求的相关人员。服务台不仅负责处理事故、问题和客户的询问,同时还为其它活动和流程提供接口。包括客户变更请求、维护合同、服务级别管理、配置管理、可用性管理和持续性管