IT综合监控平台技术白皮书IT综合监控平台–APEXIMAPEXIntegrationManager是一款以业务系统的综合监控为核心,全方位的IT综合监控平台,从业务系统视角出发,对IT基础设施(网络、服务器硬件、软件及服务)进行全面监控,保障业务系统正常稳定可靠运行,支持的监控类型超过数十种,支持的监控指标超过数千个。服务器管理WindowsLinuxSolarisIBMAIXHP-Unix/Tru64FreeBSDAS400/OS400应用服务器Microsoft.NETOracle应用服务器JBossTomcatWebLogicIBMWebSphereIBMWebSphereMQOfficeSharePointWebLogicIntegration、MSMQ、IBMWebSphereMQ、Domino、EAServe、AD、Ping、Telnet、SNMP、DNS、脚本监视数据库监视OracleMySQLMSSQLServerIBMDB2SybaseInformix中间件其他自定义监视Web服务器Apache服务器IIS服务器PHPHTTPURL监视邮件服务器ExchangeServer标准邮件服务器FTP/SFTP、服务IT综合监控平台技术白皮书IM的主要功能:网络设备、链路监控支持交换机、路由器、防火墙等网络设备的监控、支持链路流量、链路带宽利用率、链路丢包率、链路错包率等指标的监控,可以帮助网络管理员实时监控各台网络设备的可用性和负载情况,以及各条链路的当前可用性、流量大小情况,并支持通过曲线图查看链路的历史流量情况。服务器监控支持Windows、AIX、Linux、Solaris、HP-UX等服务器的监控,能够监控服务器的CPU使用率、物理内存/虚拟内存使用率、磁盘分区使用情况、磁盘IO(包括平均每秒IO请求数、平均每秒读字节数、平均每秒写字节数、IO等待队列深度、平均IO完成时间等关键指标)、系统进程与服务的运行情况、系统日志(EventLog与Syslog)、服务器系统时间等。IT综合监控平台技术白皮书服务器硬件状态监控IT综合监控平台技术白皮书支持IBM、DELL、HP服务器的硬件状态(服务器需支持IPMI协议),包括机箱温度、电源电源、风扇状态和转速虚拟化监控支持对VmwarevSphere虚拟机环境进行监控,对虚拟环境的监控方式是通过vCenterServer对ESX/ESXi宿主机间接进行监控,所有的数据均从vCenterServer上获取,不直接与ESX/ESXi宿主机进行通讯。即APEXIT监控系统与vCenterServer通过SOAP/HTTP协议集成,对整个虚拟环境进行监控。宿主机对于物理机,也就是宿主机,支持获取该物理机的硬件配置情况,包括:宿主机上安装的ESX/ESXi软件fullName、支持的SDKAPI的版本号。宿主机的硬件能力属性、宿主机的BIOS信息,包括biosVersion,和releaseDate。CPU信息,包括CPU个数、CPU核心总数、每核心CPU频率、CPU并发线程数,CPU厂商、物理内存总大小。网卡个数和网卡背板带宽;磁盘总大小、已使用容量、剩余容量、使用百分比。自动发现该宿主机上当前已经创建的虚拟机的数量,当虚拟机的数量增加、减少时能够自动感知到这种变化,当虚拟机被删除或被迁移到其它宿主机时能够自动产生告警。除了静态信息,还需要能够定时采集物理机的动态性能数据,当性能数据超过阈值时能够产生告警,包括:电源状态、可用性、CPU使用率、内存使用率、磁盘使用率、磁盘IO、网卡流量、响应时间。IT综合监控平台技术白皮书虚拟机自动发现每个宿主机中已经创建的虚拟机,包括基础信息与动态历史性能数据,基础数据包括:创建虚拟机时给虚拟机分配的的硬件资源,包括虚拟机的名称、安装的客户操作系统类型、是否是模版虚拟机、是否支持CPU热插拔、是否支持内存热插拔、分配的物理内存大小、分配的CPU数量、每个CPU的核心数,虚拟机当前的运行状态(GuestInfo#guestState)、虚拟机的网卡信息(GuestInfo#net,包括网卡是否使能、配置的IP地址和掩码、)虚拟机的主IP地址、虚拟机的磁盘信息(GuestDiskInfo,包括磁盘名称、容量、剩余空间)动态历史性能数据包括:虚拟机的启动时间、电源状态、连接状态、CPU使用率、内存使用率、磁盘IO、网卡流量,这些数据需要以趋势图的形式显示,并可以支持自定义时间段。当虚拟机的动态性能指标超过阈值时,能够产生告警提醒管理人员。IT综合监控平台技术白皮书数据中心能够查询到当前vSphere环境中已经创建的Datacenter,并发现它所包含的其它实体对象,比如Cluster、Folder、Host、VM、Datastore。支持以树结构的方式展示Datacenter和其它物理/逻辑元素之间的父子关系。集群支持发现vCenter中配置的Clustor,包括发现Clustor与宿主机之间的一对多关系,支持在界面上以树结构的方式显示Clustor与Host之间的父子关系。当Clustor发生变化时,如新增Clustor、删除Clustor,修改Clustor中包含的Host主机时,系统要能够感知到这种变化,并自动更新系统数据库中的相应模型数据,在用户刷新界面时自动反映这种变化,不需要操作人手工进行刷新操作。数据仓库支持当前VSphere环境下的Datastore,可能有多个,包括数据仓库的名称、剩余容量(字节为单位)、最大文件大小;支持自动发现Host主机与数据仓库之间的多对多关系。告警管理支持获取vSphere环境中的实时告警信息,通过AlarmManager接口实现。IT综合监控平台技术白皮书vSphere定义的告警通过对象Alarm及AlarmInfo描述,包括creationEventId、key、lastModifiedTime、lastModifiedUser、description、name、systemName。支持接收vCenter发送出来的SNMPTrap信息并产生告警、执行告警动作。自动发现虚拟机从vCenterServer中读取到宿主机信息的时候,要支持自动发现该宿主机上的虚拟机,当Host主机上的虚拟机发生新增、删除、修改变化时,系统能够自动感知到这种变化并同步更新APEX系统数据库中相应的模型数据。集成vCenter支持与vCenter集成,需要输入的参数包括:主机名称(也即运行vCenterServer的服务器的名称,只是为其取个名字,做个标识而已)、IP地址、端口、轮询周期。添加成功后,需要自动发现vCenterServer中正在管理的宿主机、虚拟机、Datacenter、Datastore、Cluster、Folder信息,并能够发现他们之间的父子关系。与vCenterServer同步支持自动、手工两种方式与vCenterServer中的VirtualComponent同步,当vCenterServer中添加了新的组件时(比如对Datacenter、Folder、Host、VM等的增删),通过同步的方式,监控系统就能够感知到这种变化,保持与vCenterServer中数据的同步;在自动同步的模式下,同步时间可以配置,比如每X天同步一次;默认的同步模式是手工同步。存储监控支持多厂商的存储区域网络(SAN)和网络附加存储(NAS)监控,能够监控HP、IBM、DELL、EMC、NETAPP、日立等主要厂商的StorageArray、光纤交换机、磁带库、HBA等存储设备。支持多种监控协议实现对高中低端存储的监控,如命令行、SNMP、SMI-S协议,支持SNMPAgent或SMIAgent,APEX系统通过对SNMP和SMI-S协议的支持,尤其是SMI-S协议,实现了对存储的颗粒度更细的监控,可以得到更多细化的关键指标。IT综合监控平台技术白皮书对于支持SNMPTrap的存储,APEX存储监控模块通过支持接收和解析存储发送的Trap事件和告警,可提高对存储故障的监测实时性。FC交换机监控:保证端口可用性监控端口性能和利用率监控区域、虚拟存储区域网络存储阵列监控:监控物理组件(包括控制器、端口、驱动器)监控逻辑组件(包括LUN、卷、存储组)监控资源的健康状况、可用性和利用率监控传感器故障、电池、电源状态磁带库监控:监控物理组件(包括磁带驱动、端口、磁带等)监控逻辑组件(包括分区、移动器)监控资源的健康状况、可用性和利用率监控传感器故障、电池、电源状态数据库监控支持Oracle、MySQL、DB2、SQLServer、Sybase、Informix等数据库的监控,能够监控数据库的内存使用情况、会话、表空间和数据文件、数据库的访问连接时间、缓冲区命中率、共享池命中率、内存排序比、数据字典命中率、数据库Job作业执行、死锁等主要指标,方便数据库管理员深入了解数据库的运行情况,及时作出调整。IT综合监控平台技术白皮书IT综合监控平台技术白皮书应用服务器监控支持Tomcat、JBoss、Resin、WebLogic、WebSphere、MQ等应用服务器的监控IT综合监控平台技术白皮书Web服务器监控支持Apache、MS-IISWEB服务器的监控,能够监控Web服务器的并发访问量、吞吐量、平均请求字节数、响应时间等关键指标,在大访问量的网站监控方面效果很好。IT综合监控平台技术白皮书支持MS-Exchange邮件服务器的监控支持HTTPURL监控可监控任意Web应用系统的某些特定URL的可用性、响应时间,当URL访问失败或响应时间过长时,及时发出预警IM的主要亮点及优势:集中监控在单套软件中实现了对网络设备、服务器、数据库、中间件等软硬件的监控,避免安装多套软件带来使用上和管理上的不便IT综合监控平台技术白皮书无代理的监控不需要在被管服务器上安装监控软件,是一种无侵入式的监控方式,大大减少了实施与后期维护的工作量支持服务器硬件状态监控包括服务器的电源、风扇转速、温度、磁盘坏道支持业务拓扑图功能可以从业务系统的角度建立业务拓扑图,并在拓扑图中构建各元素之间的业务,从业务可用性、健康状态、端到端性能等多个维度全面监控业务系统IM的主要价值体现:APEXIM综合管理平台,为用户提供了一个单一的集成的IT监控软件套件,将IT运维与业务运营紧密结合,提供运维服务质量,降低风险,为客户提供多重价值:1.故障告警及时准确,利于及时排障,保证信息系统的安全,降低运维风险;降低运维风险2.Web及手机客户端,多种告警通知方式,实现远程运维,加快排障速率,降低运维风险;3.主动预警,防患未然,快速定位故障根源,缩短故障时间和降低对业务的影响;1.主动预警,防患未然,快速定位故障根源,缩短故障时间和减小对业务的影响范围;提升运维效率2.利于关注问题根源,持续优化,从而使可预知故障发生率收敛,减轻运维工作量;3.减少事务性工作量,加快突发性事件处理速率,提升工作效率提升运维能力提升运维服务质量满足合规性要求通过持续降低故障率,提升运维效率,借助智能化的相关性分析,快速定位问题根源,利于持续优化,可提升运维能力,保证业务连续性通过快速排障、恢复系统,持续降低故障率,持续优化,可提升运维服务质量,从而维持并提高用户满意度,改善用户体验,提升IT部门价值满足行业监管标准和要求(比如金融行业)、内部合规和审计的要求IT综合监控平台技术白皮书1.直观展示业务运行状态,将IT运维与业务直接关联,保证业务的连续性面向业务2.随着运维效率提高,事务性工作量的降低,IT部门可介绍大量精力,也会有更多时间去考虑如何优化现有业务,更多关注业务改造和规划上面,真正实现IT为业务服务的目的。统一管理统一性能展示、统一故障处理、IT监控数据集中整合,有助于以较少的资源和成本,实现全局管理从繁杂异构的命令行、文字表格展示向表达清晰、直观明了的图形展示转换。无需可视化管理登陆各种异构应用软件,降低管理技术门槛,降低对人员的要求,使得