中国金融期货交易所ChinaFinancialFuturesExchange系统监控方法及HostMonitor系统监控软件使用说明-2-内容提要第一部分:系统监控方法及内容系统监控的作用、范围及实际应用第二部分:HostMonitor系统介绍介绍HostMonitor系统监控软件的主要功能与使用方法-3-第一部分:系统监控方法及内容系统监控能带给我们什么系统监控的范围及实际应用如何制定相应的监控策略系统监控能带给我们什么?(一)系统运维从“被动管理”向“主动管理”转变第一时间发现系统异常,避免问题向事故转化对系统运行状态的集中化管理辅助系统管理员快速判断问题及解决问题-4-系统监控能带给我们什么?(二)提供多种故障告警方式,及时通知相关责任人,避免故障发生收集系统及应用的运行日志,分析发现其中的异常,预测系统可能出现的问题,将问题消灭在萌芽状态-5-系统监控的范围网络:网络设备(支持SNMP指令的)、联通性、路由等主机:CPU利用率、内存使用、IO性能、网络流量等数据库:可用性、性能、空间、连接数、死锁等应用:可用性(OA、邮件)、CPU利用率、内存使用、网络资源占用、进程资源、网络资源、磁盘访问资源等-6-监控的实际应用(一)外联单位链路、主机、路由、应用端口•交易所•银行•保证金监控中心•营业部•拨号备份线路-7-监控的实际应用(二)服务器主机•CPU利用率(10-30秒采样)•磁盘可用空间(10-30分钟采样)•内存使用(10-30秒采样)•网络连通情况(5-10秒采样)-8-监控的实际应用(三)数据库服务•连接及登录检查•监听端口检查•数据库可用空间检查•死锁检查•无效的对象检查•连接数检查•LOG文件检查•核心参数检查-9-监控的实际应用(四)核心应用监控•应用端口检查(可用性、响应时间)•运行环境检查(CPU、磁盘、内存、网络)•进程数检查•进程资源占用检查•应用日志文件检查(定时增长、异常输出等)•配置文件检查•核心参数检查-10-监控的实际应用(五)周边应用•OA系统•报表系统•邮件系统•FTP系统等…-11-如何制定相应的监控策略了解应用特性,制定相应的监控策略•避免和应用冲突•避免影响应用性能•根据具体应用规划监控时间及监控频率•无人值守时通过短信等方式报警•涉及到性能的监控应采用多级监控及报警如CPU、内存、空间占用等•核心应用应从多方面、多角度进行监控-12-制定监控策略应注意的问题不能影响现有系统的正常工作监控对系统资源的占用上不对系统产生较大影响CPU资源占用应该在5%以下监控策略不是越多越好,应注意逻辑控制,防止异常时多个监控项同时报警,不利于问题查找-13-监控与巡检的关系系统监控是既有运维经验的提炼系统监控是高效的巡检方式系统监控是运维的辅助工具,为系统运维提供帮助定期对系统重要运行环节的检查是不可替代的-14-巡检注意事项巡检应该在关键时间节点进行•开盘前,交易小结前后,午盘前后,收盘等关键的业务节点巡检注意事项•巡检中不应该夹杂操作内容•尽量避免可能的误操作•在不同的时间点,检查项目有所偏重-15-性能指标的收集巡检和监控中定期性能指标的采集•CPU、内存、磁盘等性能容量采集性能指标用途•容量管理基础数据积累•容量指标异常时,可能预示故障-16-监控系统奠定基础监控系统建设的基础•IT系统风险点的识别•监控指标的识别•配置的识别•容量的识别从运维辅助工具作起,逐步完善日常系统运维体系-17--18-第二部分:HostMonitor系统介绍HostMonitor软件主要功能特点HostMonitor主要监控方法介绍•网络监控•磁盘空间、文件监控•服务器主机监控•数据库监控•TextLog检查灵活的监控时间控制远程监控HostMonitor软件主要功能特点58种检测方法,能检查主机及应用的各种参数全面的异常报警方法多种格式的日志记录灵活的监控时间控制内置报表管理器,可生成各类自定义监控报表可使用RMA(RemoteManageAgent)监控远程网络支持Web、Telnet、RemoteControl等多种远程管理方式-20-系统主要功能介绍——58种检测方法17项网络相关监控(Ping、TCP、UDP)8项磁盘、文件相关监控7项数据库相关监控6项Windows相关监控3项常规监控15项UNIX相关监控2项其他监控系统主要功能介绍——30种报警方式弹出窗提示、声音报警EMAIL通知发送HTTP、TCP、UDP数据到指定地址输出到Syslog日志服务器外部程序或者脚本调用启动、停止指定服务重启远程计算机-21-系统主要功能介绍——强大的报表管理和日志分析工具可将测试结果生成不同类型的日志文件TXT、HTML、DBF、ODBC可针对不同的岗位定制特定的日志报告如主机管理、数据库管理、OA管理、IT管理人员等可针对不同的测试根据时间周期产生图形化的报表-22-系统主要功能介绍——跨平台支持的远程监控代理可通过RemoteMonitorAgent(RMA)监控在其他网络的远端主机可支持Windows、Linux、Unix等多种平台-23-系统主要功能介绍——支持多种远程管理方式可通过Web方式进行远程管理可通过Telnet方式进行远程管理可通过RCC远程控制远端的HostMonitor-24--25-HostMoniter常用监控方法介绍网络监控:Ping、Trace、TCP磁盘空间、文件检查:UNCWindows相关监控:Process、CPUUsage、PerformanceCounterTxtLog检查DbServer检查Ras检查外部程序调用检查网络监控——Ping监控-26-原理:发送ICMP报文到目的地址,根据对方回应进行检测用途:检查远端主机、路由或者其它网络设备的连接状态报警:指定时间内X%的回应报文丢失显示:响应时间、丢包百分比、收包百分比网络监控——PingTest设置界面-27--28-网络监控——Trace监控(一)原理:发送ICMP报文到目的地址,根据对方回应进行检测用途:用于路由检测报警:1、路由改变2、总跳点数不等于指定值3、总跳点数大于指定值网络监控——Trace监控(二)4、总跳点数小于指定值5、应答超时6、路由通过指定IP7、路由没有通过指定IP显示:1、总响应时间2、平均响应时间3、最大响应时间-29-网络监控——Trace监控(三)4、总跳点数5、没有响应的节点数6、路由信息(只显示IP)7、路由信息(显示跳点、IP、响应时间)-30-网络监控——TCP监控可监控所有基于TCP的应用,如FTP(21)Telnet(23)SQLSERVER(1433),ORACLE(1521)等可发送测试报文,检查指定端口的应答报文可根据收到的回应报文报警有/无应答应答报文的内容进行匹配包含/不包含指定字符串或等于/不等于指定字符串-31-磁盘、文件相关监控——UNC检查(UniversalNamingConversion)通用命名约定检测本地或者网络共享资源的磁盘空间检测类似\\server\share描述方式需指定连入用户及密码报警:1、资源不可用2、可用空间小于指定值(登录用户)3、总可用空间小于指定值-32-RAS(RemoteAccessService)通过RAS的连接进行远程监控访问,可用于拨号链路、ISDN的检测可用于拨号备份、公司内部的ISDN的检测-33-Windows相关监控——Process监控检查本地或者远端进程数,当进程数不在指定的区间内则报警Windows:需要用指定帐号连接到远端机器,且远端主机的RemoteRegistryService服务必须打开也可通过RMAforwin实现UNIX:使用RMA进行监控-34-Windows相关监控——CPUUsage检测检查本地或者远端主机的CPU利用率,当利用率大于指定值时报警Windows:需要用指定账号连接到远端机器,且远端主机的RemoteRegistryService服务必须打开也可通过RMAforwin实现UNIX:使用RMA进行监控-35-Windows相关监控——PerformanceCounter监控监控目标主机的性能计数器可监控内存、处理器、磁盘、进程等各项资源可设定多种报警方式及提示通过登录用户或者RMA进行连接-36-TextLog检查检查指定文件中的指定特征串(文件可使用日期宏)可使用表达式进行查找如(‘error’or‘warning’)andnot‘16550’可全字匹配、大小写不敏感、可使用全局的宏定义报警时可定义错误行的显示内容(按单词拆分),也可显示指定特征串在文件中的位置或者提示文件长度-37-DBServer检查检查SQLServer、Sybase、Oracle连接通过指定用户进行登录验证-38-外部程序调用检查加载外部可执行程序(exe、bat)检查程序的退出参数(errorlevel)来进行报警可设定应用程序的运行模式可设定指定时间无响应则kill相关应用-39-灵活的监控时间控制——定时执行控任务(一)定义自己的监控时间表7×24监控(主机、链路、数据库、邮件系统)周一到周五(OA)交易时间(应用)指定时间,每天一次或者每周一次-40-灵活的监控时间控制——定时执行控任务(二)-41--42-远程监控——RMA(RemoteManageAgent)使用(一)RMA的使用提高了网络的安全性降低了网络数据的流量简化了网络的管理通过RMA,可以实现非WIN32平台下不能完成的功能RMA与Hostmonitor的数据是加密传输的。RMA有监控站点限制通过RMAMANAGER可以配置、重启、升级RMA-43-远程监控——RMA(RemoteManageAgent)使用(二)-44-远程监控——Telnetservice的使用及特点以TelnetServer的方式运行,提供Telnet管理接口通过指定端口(1054)连接远端或者本地的HostMonitor(需要打开RCI支持)客户端与Server点通讯数据加密传输可以以服务(Service)方式运行客户端权限控制,不同的用户拥有不同的管理及操作权限TelnetService设置界面-45--46-Webservice的使用及特点以HTTPServer的方式运行,提供Web管理接口通过指定端口(1054)连接远端或者本地的HostMonitor(需要打开RCI支持)客户端与Server点通讯数据加密传输可以以服务(Service)方式运行客户端权限控制,不同的用户拥有不同的管理及操作权限RCC(RemoteControlConsole)的使用可通过RCC控制远端的HostMonitor终端HostMonitor可对远端RCC用户进行权限设置HostMonitor可限制远端RCC的接入IP多个用户可通过RCC连接到同一个HostMonitor多用户不能同时编辑同一个监控策略-47-中国金融期货交易所ChinaFinancialFuturesExchange谢谢!