Zabbix运维监控解决方案目录一、背景....................................................................................................................................3二、目标....................................................................................................................................3监控的基本内容.......................................................................................................................4三、采用的软件..........................................................................................................................4四、软件的特点..........................................................................................................................5五、软件的优势..........................................................................................................................5系统架构...................................................................................................................................7监控实现方式:.......................................................................................................................8监控指标...................................................................................................................................8规则引擎...................................................................................................................................9一、背景网站平台部署运行后会出现各种各样的故障,比如服务器CPU负载高,磁盘容量使用超过80%,内存使用超过阈值,系统进程多,tomcat服务宕机等问题都会给公司平台稳定和服务带来非常大的损失,此时需要一个相对完整的监控体系可以24小时监控您的网站,一旦网站发生异常,会有报警提醒您,如邮件,微信,电话,短信,及时避免流量损失。Zabbix是一个企业级的开源分布式监控解决方案,它是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。zabbix具备常见的商业监控软件所具备的功能(主机的性能监控、网络设备性能监控、数据库性能监控、FTP等通用协议监控、多种告警方式、详细的报表图表绘制)支持自动发现网络设备和服务器;支持分布式,能集中展示、管理分布式的监控点;扩展性强,server提供通用接口,可以自己开发完善各类监控。zabbixserver可以通过SNMP,zabbixagent,ping,端口监视等方法提供对远程服务器/网络状态的监视,数据收集等功能,它可以运行在Linux,Solaris,HP-UX,AIX,FreeBSD,OpenBSD,OSX等平台上。二、目标物理范围:组件:硬件,OS,存储,中间件,数据库,机房,网络等维度:可用性,性能。指标:见下。监控的基本内容性能数据基本CPU,磁盘,网络,内存等关系系统正常运行的基本指标。端口状态一般交换机或网络设备,端口启动状态,流量大小,网络状态日志内容日志内容监控,系统日志,应用程序日志,错误信息。系统状态DB,OS,中间件等的系统状态硬件状态硬盘状态,风扇,电池,内存,主板等系统状态机房状态UPS,机柜电功率,机房电功率,机房温度,湿度,空气质量,漏水,消防,人员出入,机房门状态,机柜门状态,红外线,图像,防盗等应用状态程序启动时间,网站访问速度等。三、采用的软件软件名称:ZABBIX4.0LTS四、软件的特点zabbix是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。zabbix能监视各种网络参数,保证服务器系统的安全运营;并提供柔软的报警机制以让系统管理员快速定位/解决存在的各种问题,其真正的可扩展性,高可用性,易用性,灵活性,极大地降低了企业的总成本,是目前最受欢迎的解决方案五、软件的优势1.企业级开源监控方案2.各组件分离Zabbix由3部分构成,zabbixserver,Webfront,zabbixDB,ZabbixProxy与可选组件zabbixagent。3监控方式zabbixserver可以通过SNMP,zabbixagent,ping,端口监视等方法提供对远程服务器/网络状态的监视,数据收集等功能,它可以运行在Linux,Solaris,HP-UX,AIX,FreeBSD,OpenBSD,OSX,W等agent配置文件中,根据要求编写脚本,将定期执行该脚本获取指定的信息。格式:UserParameter=custom.updatescript,/etc/z平台上。4支持自定义监控Zabbixagent支持脚本监控,只需要在abbix/zabbix_agentd/custom_updatescript5支持远程执行命令允许指定的server,调用agent本机系统命令,获取相关信息。6硬件配置信息采集zabbixagent需要安装在被监视的目标服务器上,它主要完成对硬件信息或与操作系统有关的内存,CPU等信息的收集。7丰富的可视化功能,包括仪表盘,自定义图表和网络拓扑功能8代理支持的系统版本zabbixagent可以运行在Linux,Solaris,HP-UX,AIX,FreeBSD,OpenBSD,OSX,Tru64/OSF1,WindowsNT4.0,Windows2000/2003/XP/Vista)等系统之上。9支持无代理监控方式Zabbixserver可以支持fping,对网络通畅,丢包率,错误率,重传等的监控10支持Web网站的自动登录测试可以支持对web网站的自动登录测试,并对登录结果进行匹配和测试。11核心功能zabbixserver可以单独监视远程服务器的服务状态;同时也可以与zabbixagent配合,可以轮询zabbixagent主动接收监视数据(trapping方式),同时还可被动接收zabbixagent发送的数据(trapping方式)。另外zabbixserver还支持SNMP(v1,v2),可以与SNMP软件(例如:net-snmp)等配合使用。12支持分布式监控Zabbixproxy为分布式服务器的一种实现方式。Zabbixproxy和zabbixserver同步config。Zabbixproxy主动轮训zabbixagent,将数据采集到zabbixproxy的数据库中,将数据,zabbixproxy使用一个进程将数据同步到zabbixsever上。如果发生proxy联系不到server,将对在本地数据库保持2天的数据,网络联通或server可以通信后,proxy将对把数据重新传送到server。准备采用的软件:zabbix4.0LTS系统架构监控实现方式:OS安装Agent,zabbixserver设置监控配置项,采集结果。网络设备通过SNMP,zabbixServer开启snmppoller进程轮询SNMP,根据SNMP查询结果存储设备一般通过API方式,没有API的,采用登陆设备上,返回命令采集结果,对采集结果进行格式化。数据库一般为通过插件,第二种为通过集中库,对数据库进行读取。硬件通过IPMI方式,获取相关硬件信息,如风扇,温度,电池,硬盘,内存插槽等硬件环境信息。机房监控通过API方式,直接调用机房环境监控系统的数据。中间件通过JMX监控,MQ或其他的memocache通过编写脚本并格式化输出。应用:通过嵌入Jar包,程序轮询,将相关信息收集到本地,然后推送到监控服务器上业务:通过将数据库中的数据采集,查询发送给监控服务器。监控指标NumberTypeCase备注1CPULoadAverage2CPUUtilization3MemoryMemoryUtilization4Swap/pagfileUtilization5NetworkTransfer6NetworkError/DropPacket7DiskFileSystemUtilization8DiskI/O9ServiceProcessMonitoring10WindowsService11TCPPortConnectivity12TCPPortResponseTime13DNSMonitoring14NTPMonitoring15LogTextLog16EventLog17FileFileMonitoring18OtherPerformancecounter(windows)规则引擎1、警报触发机制:规则引擎,查询zabbix监控数据DB中的事件,根据系统架构编写,根据指标或触发器,生成事件,规则引擎对事件和系统的的负责人,显示警报内容。2、警报的校验:对任何警报,通过3种的间接方式验证,如果在3个网段发生的事件进行校验,如果发生两个重复的警报内容,则触发警报。3、警报的发送方式:事件平台,邮件,微信,电话和短信现阶段,事件为统一平台事件平台4、警报推送方式:PUSH方式,即根据CMDB中的系统的负责组的信息进行定位目标人群,群组人员信息由负责人负责。ZabbixDB规则引擎,警报发送调度警报规则获取所有事件邮件服务器Web警报事件展示台发送邮件报警展现事件及警报CMDB获取系统负责人