IT运维监控管理平台建设方案XXXXXXX目录第1章概述1.1建设背景随着近年来经济的进一步迅速发展,企事业机关单位IT运行环境日趋复杂,运行监控工作难度加大,尤其是随着信息化建设的不断深入,信息系统越来越多,各类系统越来越复杂,系统的关联度也越来越高。?数据处理量成倍增长,而随着互联网应用的发展,网上应用系统也越来越多,使IT?系统运行环境变得更加复杂,造成了机房管理、系统监控、运行维护工作十分困难的局面。?虽然信息中心各科室对已经有各的监控管理手段,但缺乏一个集中、统一的监控平台,及时发现与解决网络、硬件、安全设备、操作系统、数据库、中间件、应用系统、机房空调、UPS?等突然出现的问题。?因服务对象的不同,使用产品混杂。怎样很好地解决以上问题,把各种类型的监控对象进行统一集中监控,并将其格式统一规范,并对其有效处理、分析,以直观的界面展现给各科室管理员、领导,成为目前面临最大的挑战。1.2建设目标加强信息资源的维护平台建设,提高信息资源的运行管理水平,通过运维体系的建设,结合构建集中式的服务热线、运维流程、系统监控和综合展示系统,通过系统联动,及时、准确、全面反映与掌握信息系统的运行状态,保障各业务系统的正常运行,应达成如下目标:(1)强化主动监控,实现集中管理。以IT资源可用性监控为主线,构建统一集成的IT资源及应用服务监控平台,能够主动、及时地发现问题,并调度资源解决问题,形成IT运维管理主动服务的新局面。(2)帮助定位故障,快速恢复系统运行。建立集中的告警分析及展现平台,提供灵活、自动化的事件处理能力。当故障产生时,可以进行故障的快速定位,发现故障原因,调度资源快速恢复系统服务,从而缩短故障解决时间,降低维护成本,提高系统整体可用性。(3)掌握运行质量与效率,合理利用资源。建立IT运维平台后,可以实时了解全部IT资源的负载与使用情况,根据需要从整体角度考虑资源的使用,同时可以根据业务高峰期的不同来调剂业务系统对资源的使用。(4)规范运行管理,有序开展维护。参照ITIL规范,对运维管理工作进行优化,对服务管理进行改善,将管理数据电子化,管理过程规范化。根据相关制度进行运行维护管理,对内完善流程,对外提高服务,加强管理,使流程更规范更合理,使技术人员具备更高的工作效率,提高业务技术能力和解决实际问题的能力。(5)共享运维经验,完善知识库。把运维过程中产生的丰富经验进行积累和总结,形成有效的知识库,建立知识的共享机制,提供信息共享和交流的平台,提高运维人员的工作效率。1.3建设思路IT运维管理理论、方法和标准,结合中心实际和建设需要,遵循立足需求、统一规划、保障重点、分步实施、务求实效的原则,建立一套融合组织、制度、流程、人员、技术的IT运维管理体系,建立组织机构,制定规章制度,规范管理流程,明确职责分工,强化技术支撑,实现对网络及信息系统的综合管理监控和日常技术支持,快速响应和及时解决信息系统运行过程中出现的各种问题和故障,确保所维护网络及信息系统正常、稳定、高效运行。第2章系统总体设计2.1总体架构依据对IT运维管理体系的建设经验,以及对用户信息系统现状、需求的分析,我们提出三位一体综合运维管理平台框架图如下:IT运维管理平台包括:“IT运行集中监控、IT运维流程服务、统一运维门户”三个部分。底层基础平台主要实现对底层数据的采集、存储、分析等工作,为上层监控及流程系统提供基础数据;IT运行监控主要完成对基础设施故障、性能、配置等方面的全面监控管理,实现主动式的IT管理;IT运维流程服务主要根据IT服务管理的国际标准ISO2000,并结合ITIL最佳实践,梳理出了事件管理、问题管理、变更管理等运维流程,实现对日常运维工作的流程化、规划范管理,提升IT服务的质量。统一门户主要实现对监控信息、运维流程信息进行集中展示。平台三个子系统关系如下:(1)以IT运行监控为“基础”这部分的功能主要是对被管对象运行的状态以及其配置资产信息进行统一监控、管理、分析,实现对各种故障和性能异常的及时报警,对系统运行性能进行实时监控,对系统运行的各种状态信息进行汇总、分析以及预测。另外,还包括对IT系统的全部配置资产情况进行统一管理,对配置信息的异动提供检查及告警。IT监控管理除了实现网管的告警、性能、配置几大基本功能以外,还从运维的角度提供丰富的数据综合分析和运维工具,例如综合报表、综合监控、信息点管理等。(2)以IT服务管理为“导向”这部分功能主要依据ITIL架构进行建设,为IT系统的维护服务提供电子化的控制手段。系统通过事件管理、问题管理、变更管理、配置管理等功能,为IT维护人员提供以流程为基础的服务管理方式,规范管理模式,达到快速消除IT系统故障、解决潜在问题,减少不规范的系统变更引发的系统故障率和故障隐患等目的,实现对IT系统的主动式服务,提高服务水平。(3)以统一运维门户为“体现”即是整个系统的对外界面,通过统一的权限管理和统一风格的B/S展现,为系统的操作使用人员提供统一的系统接口,做到一点接入,通观全局,能够以灵活的组织数据的展现方式,定义用户、角色、组织机构,并为每个不同角色提供不同的功能模块,为每个用户分配不同的展现内容,方便用户进行企业整体的运行维护管理。2.2设计原则IT运维平台作为信息中心未来运维工作的核心支撑系统,需要系统本身具有高可靠、易扩展、易维护等特点,并且在系统功能应用上要具备一定的技术先进性和实用性。所以,本次项目的方案设计遵循以下设计原则:(1)先进实用平台注重先进性和实用性的统一,以实用为目的,合理选用各类成熟、先进技术。在体系结构、功能算法等诸多方面都采用先进计算机技术和理论,应用功能体现实用性。(2)可靠性在系统结构、设计方案、设备选择、技术服务等方面综合考虑,保证系统能够7*24安全无故障运行,系统有很好的容错功能;对IT资源的监测应保证不影响相关设备和系统的正常良好运行,并实现最好的响应效率及最小的资源占用。(3)安全性注重安全方面的设计,确保IT运维监控管理平台的稳定、安全运行。系统要保证数据的安全,不会增加现有应用系统的复杂性,更不会降低现有应用系统的稳定性。(4)开放性采用符合国际国内标准的通用协议,为实现与其他系统监控软硬件互联或接入本系统进行监控提供接口,支持各种主流计算机平台、操作系统以及数据库厂商的各类软硬件产品。(5)可扩展、易集成系统需具备很好的扩展性,能适应不断发展的业务需求。随着IT资源种类和数量的扩大,系统也应能适应新的系统的对IT运维管理的需求。系统具备高度集成性,可以和第三方产品进行集成,进行功能扩展。系统提供开发工具和接口,方便其他监控系统集成和统一管理。2.3运维管理体系架构设计与运维综合监控相关的运维管理体系架构主要包括以下内容:1)资源监控与操作管理体系:面向资源,以统一资源配置库(资产与配置、监控数据库)为基础,建设面向被管理资源的监控管理与操作自动化管理体系。2)数据综合分析体系:面向管理者,以统一资源配置库为基础,对资源监控与操作管理体系数据进行分析挖掘,建设辅助运营决策的数据综合分析体系。运维管理体系架构是一个完整的IT系统运维管理架构,是IT综合运维管理的较高目标。2.3.1系统总体架构设计系统由监控采集层、数据处理层、服务管理层、运行展现层组成。2.3.2监控采集层监控采集层主要由网络监控模块(NCC)、应用监控模块(BCC)组成,实现对IT基础支撑系统的监控,包括:网络设备、业务服务器、存储设备、数据库系统、中间件系统、安全设备、业务应用系统、网络流量等。同时,从第三方系统(如机房环境监控和视频监控系统等)抽取数据(包括资产配置数据、故障告警数据),实现对IT资源的全面监控。2.3.3数据处理层数据处理层由统一事件平台(Arbiter)、数据指标抽取模块(Bridge)、监控指标库(RDB)、可视化展现视图(Live)等模块组成。监控指标库(RDB)存放了所有监控对象的当前运行状况、重要告警、重要KPI性能指标等数据,实现性能基线管理,并为监控对象的可视化展现提供数据支持。CMDB与RDB数据库的记录通过资源唯一标识ID(UUID)实现一一对应,并能够自动维护其相互关联关系。数据指标抽取(Bridge)负责从底层监控工具和第三方系统抽取各类管理数据,如资产配置数据、性能数据、监控对象运行状态数据、故障告警数据等。其中故障告警数据送到统一事件平台进行处理,性能和状态数据进过处理后存放到RDB数据库中,资产配置数据经过数据清洗、调和处理后送到CMDB数据库中。统一事件平台负责对来源不同的告警信息进行过滤、压缩和关联,以及对不同来源的性能数据进行规范、汇聚、分析等,并通过根源问题发现等功能,实现快速的故障定位,保证业务系统的监控运行。灵动展现平台是一个个性化监控视图开发工具,可以根据管理需求,对各类资源进行灵活组合,生成各类资源展现监控视图。2.3.4运行展现层运行展现层有运维门户(Portal)、用户管理(ACM)、报表开发工具(Report)组成。运维门户(portal):向用户提供基于WEB的统一运维管理访问入口,使用户能够在统一登录、统一认证的情况下,实现对故障告警台、服务台、服务流程管理、监控视图、统计报表的访问。报表开发工具能够根据管理需要抽取监控、操作、资产、流程等各管理层面的数据,并生成各类统计报表,为运行分析和管理提升提供支持。用户管理实现组织架构管理、帐户管理、角色管理、授权管理等功能,实现整个运维平台的统一帐户和授权管理。2.4系统技术路线2.4.1采用Java语言开发系统采用JAVA和XML相结合的技术进行网站设计开发,由于Java的平台无关等特性,而在数据表示和传输方面,XML有着得天独厚的优势。Java与XML的组合提供了建立三层应用程序的最佳手段,开发的系统具有跨平台运行的能力,无论在windows环境下还是在其他主流操作系统环境下都能运行。主要特点:平台独立性这是Java最吸引人的地方。由于它采用先编译成中间码(字节码),然后装载与校验,再解释成不同的机器码来执行,即“Java虚拟机”的思想,“屏蔽”了具体的“平台环境”特性要求,使得只要能支持Java虚拟机,就可运行各种Java程序。面向对象的技术面向对象的技术是近年来软件开发中用得最为普遍的程序设计方法,它通过把客观事物进行分类组合、参数封装、用成员变量来描述对象的性质、状态,而用方法(成员函数)来实现其行为和功能。面向对象技术具有继承性、封装性、多态性等众多特点,Java在保留这些优点的基础上,又具有动态联编的特性,更能发挥出面向对象的优势。多线程多线程机制使应用程序能并行执行,Java有一套成熟的同步原语,保证了对共享数据的正确操作。通过使用多线程,程序设计者可以分别用不同的线程完成特定的行为,而不需要采用全局的事件循环机制,这样就很容易实现网络上实时的交互行为。动态性Java的设计使它适合于一个不断发展的环境。在类库中可以自由地加入新的方法和实例变量而不会影响用户程序的执行。并且Java通过接口来支持多重继承,使之比严格的类继承具有更灵活的方式和扩展性。安全性Java有建立在公共密钥技术基础上的确认技术,指示器语义的改变将使应用程序不能再去访问以前的数据结构或是私有数据,大多数病毒也就无法破坏数据。因而用Java可以构造出无病毒、安全的系统。2.4.2采用J2EE框架考虑到系统的跨平台性和将来良好的移植性,并且考虑到系统能够将来很好地与其他业务子系统的集成,本系统采用J2EE平台,并且根据J2EE的中间件规范进行产品开发,本系统采用J2EE平台集成的标准中间件,并在数据交换和数据导出上支持XML标准。平台比较目前,可作为开放式数据应用集成的规范和平台的技术主流有两种,一种是微软公司的WindowsDNA平台,另一种是SUN公司的J2EE平台。虽然这两种集成平台和分布式计算技术都能满足实施开放式的数据应用集成的需求,但是从规范的开放性、支持异构性、可移植性、支持的广泛性、对现有系统数据的继承性和技术优势等方面比较,J2EE比WindowsDNA具