CNNOG3面向服务与流程的监控系统建设面向服务与流程的监控系统建设面向服务与流程的监控系统建设面向服务与流程的监控系统建设李晓栋李晓栋李晓栋李晓栋新浪网新浪网新浪网新浪网E_Mail:xiaodong2@staff.sina.com.cnMSN:lixiaodongzz@sina.com内容提纲内容提纲内容提纲内容提纲1.传统的监控系统理念传统的监控系统理念传统的监控系统理念传统的监控系统理念1.传统的监控系统理念传统的监控系统理念传统的监控系统理念传统的监控系统理念2.ICP日常监控的困惑2.ICP日常监控的困惑3.面向服务的监控理念4.进一步延伸:面向流程4.进一步延伸:面向流程5.新理念的实际效果5.5.新理念的实际效果新理念的实际效果传统的监控系统理念传统的监控系统理念传统的监控系统理念传统的监控系统理念侧重于技术层面侧重于技术层面侧重于技术层面侧重于技术层面面向设备的面向设备的面向设备的面向设备的信息信息信息信息“孤岛孤岛孤岛孤岛”传统的监控系统理念传统的监控系统理念传统的监控系统理念传统的监控系统理念侧重于技术层面侧重于技术层面侧重于技术层面侧重于技术层面(丰富的监控手段丰富的监控手段丰富的监控手段丰富的监控手段):SNMPSYSLOG&SNMP-Trap分析分析分析分析NetflowSniffer&ProbePing………..传统的监控系统理念传统的监控系统理念传统的监控系统理念传统的监控系统理念面向设备的:注重的是每设备的各项指标和异常状况监控系统监控系统监控系统监控系统管理员管理员管理员管理员CPU流量磁盘CPU流量磁盘传统的监控系统理念传统的监控系统理念传统的监控系统理念传统的监控系统理念流量监测的例子:监控系统监控系统监控系统监控系统管理员管理员管理员管理员Gi-0/1Gi-0/2Gi-0/3Gi-0/1Gi-0/2Gi-0/3传统的监控系统理念传统的监控系统理念传统的监控系统理念传统的监控系统理念形成了信息形成了信息形成了信息形成了信息“孤岛孤岛孤岛孤岛”管理员面对管理员面对管理员面对管理员面对N多监控界面多监控界面多监控界面多监控界面,信息分散信息分散信息分散信息分散内容提纲内容提纲内容提纲内容提纲1.传统的监控系统理念1.1.传统的监控系统理念传统的监控系统理念2.ICP日常监控的困惑日常监控的困惑日常监控的困惑日常监控的困惑2.ICP日常监控的困惑日常监控的困惑日常监控的困惑日常监控的困惑3.面向服务的监控理念4.进一步延伸:面向流程4.进一步延伸:面向流程5.新理念的实际效果5.5.新理念的实际效果新理念的实际效果ICP日常监控的困惑日常监控的困惑日常监控的困惑日常监控的困惑监控系统众多,界面纷繁监控系统在网络故障时作用无法充分体现对服务水平缺乏了解洪泛式的报警缺乏与流程的配套跟踪ICP日常监控的困惑日常监控的困惑日常监控的困惑日常监控的困惑监控系统众多,界面纷繁管理员面对一堆的监控界面和屏幕.看似“气派”日常运维人员需要不停的学习新系统的报表/统计ICP日常监控的困惑日常监控的困惑日常监控的困惑日常监控的困惑监控系统在网络故障时作用无法充分体现例如:当接到报告反映某地用户访问站点速度慢时,需要经过如下步骤定位故障:定位服务器定位服务器定位上联网络设备定位上联网络设备定位故障定位故障查找域名对应查找域名对应查找域名对应查找域名对应的服务器的服务器的服务器的服务器IP查找这些服务器查找这些服务器查找这些服务器查找这些服务器对应的交换机端口对应的交换机端口对应的交换机端口对应的交换机端口、、、、LB设备设备设备设备IP查看各监控分系统查看各监控分系统查看各监控分系统查看各监控分系统ICP日常监控的困惑日常监控的困惑日常监控的困惑日常监控的困惑对服务水平缺乏了解各服务器每周菪机时间平均几次?菪机持续时间多久?某项服务所用的整体带宽是多少?某项服务中服务器负载情况如何?负载均衡效果是否理想?各地IDC之间丢包率,延迟多少?……..在传统的监控系统下,恐怕问及这些,管理员很难回答清楚ICP日常监控的困惑日常监控的困惑日常监控的困惑日常监控的困惑洪泛式的报警报警信息缺乏一定的关联性。当网络、服务器菪机时触发洪泛式的报警(可能来自不同系统)传统的报警方式:超过阈值立即报警导致大量重复报警服务器、网络例行维护期间都有可能产生无用报警ICP日常监控的困惑日常监控的困惑日常监控的困惑日常监控的困惑缺乏与流程的配套跟踪报警发生后,只能由SD来去人工建立流程处理提案。监控系统独立于变更流程中。大麻烦啊!由于无服务水平评估,所以很难为SLA流程提供证据ICP日常监控的困惑日常监控的困惑日常监控的困惑日常监控的困惑监控系统投入不少,效果不佳!抱怨的人不少!故障定位如此之复杂故障定位如此之复杂故障定位如此之复杂故障定位如此之复杂!头疼头疼头疼头疼!!!!!!!!建设了如此多的监建设了如此多的监建设了如此多的监建设了如此多的监控系统却对服务水控系统却对服务水控系统却对服务水控系统却对服务水平仍然不了解平仍然不了解平仍然不了解平仍然不了解!!海量数据不分析海量数据不分析海量数据不分析海量数据不分析==垃圾数据垃圾数据垃圾数据垃圾数据!!内容提纲内容提纲内容提纲内容提纲1.传统的监控系统理念1.1.传统的监控系统理念传统的监控系统理念2.ICP日常监控的困惑2.ICP2.ICP日常监控的困惑日常监控的困惑3.面向服务的监控理念面向服务的监控理念面向服务的监控理念面向服务的监控理念4.进一步延伸:面向流程4.4.进一步延伸进一步延伸::面向流程面向流程5.新理念的实际效果5.5.新理念的实际效果新理念的实际效果面向服务的监控理念面向服务的监控理念面向服务的监控理念面向服务的监控理念主旨:以服务为中心,监控要面向服务建立横向和纵向组横向:同一服务指标的不同设备组纵向:同一设备不同指标组聚焦于服务水平分析扩容要以监控数据为依据运维部的新出路—增值服务报警的更“智能”要深入各部门了解需求实践中摸索出的经验和建设的关键面向服务的监控理念面向服务的监控理念面向服务的监控理念面向服务的监控理念建立横向和纵向组监控系统要能打破设备的界限,能将同一服务所需要的不同资源分成“组”的形式。监控系统要能对上述分组进行报表统计。横向分组示例:面向服务的监控理念面向服务的监控理念面向服务的监控理念面向服务的监控理念要聚焦于服务水平分析要由过去的专注于设备向专注于分析服务水平过渡时间周期上的横向和纵向分析:•横向:周一至周日每天比较…•纵向:本周与上周比较…组对象上的横向和纵向分析:•横向:同一服务指标的不同设备组•纵向:同一设备不同指标组面向服务的监控理念面向服务的监控理念面向服务的监控理念面向服务的监控理念扩容要以监控数据为依据改变传统的“拍脑门”或“凭感觉”式扩容需求从服务水平分析中得出客观数据和瓶颈所在为公司节省了宝贵资金,各设备得到充分利用面向服务的监控理念面向服务的监控理念面向服务的监控理念面向服务的监控理念运维部的新出路—增值服务传统运维部的尴尬:•吃力不讨好:由于传统运维部的主要工作是保证网络和系统的稳定运行,由此导致了运维部做了千件好事,大家也感受不到,一旦出一件大的故障,若不能及时解决,各部门和客户抱怨一堆。•默默的努力:传统运维部想尽各种办法加了各种监控手段和人员,比如:定期交换机配置备份,异常流量监测等等。但没有很好的向其它部门展示•源源不断的费用支出:采购各种的监控产品,带宽扩容,人员扩充等费用被划到运维部。由于上述前两点造成只见投入,产出却很少的局面面向服务的监控理念面向服务的监控理念面向服务的监控理念面向服务的监控理念运维部的新出路—增值服务利用监控系统,提供增值服务,重树形象•将我们投入的各种技术方面的努力,集中在监控平台上体现出来,例如:我们一直以来都对各部门应用服务器上联交换机的配置进行定期备份,但是应用部门往往不能直观的看到这些努力。那么在面向服务的监控中,我们可以将“备份”这项列为增值服务,每天将备份成功(结果为1),不成功(结果为0)录入到统一监控平台中(具体手段后面会提到),并且将其归为各应用组,这样就将后台工作前台化面向服务的监控理念面向服务的监控理念面向服务的监控理念面向服务的监控理念运维部的新出路—增值服务利用监控系统,提供增值服务,重树形象•制定VIP级别的服务水平,并列为增值服务例如:传统运维意义上,我们对用户承诺添加、删除DNS记录,会在1个工作日之内完成。制定这个服务时间1天是考虑到最坏情况(比如:配置管理工程师有更紧急的事情处理)。但实际通常情况,可能修改DNS配置工作在2小时内就可完成。这样就导致实际工作优于承诺时间,但应用部门和用户却感受不到,甚至不理解,抱怨:改一个DNS居然承诺我们一天的时间!根本原因在哪里?我认为是由于没有让应用部门直观到看到每次提交DNS修改任务时,任务完成的时间!那么在面向服务的监控系统中,则不同,我们将DNS修改所用时间通过某种手段导入到监控系统中,并列入相应的应用分组,这样应用部门通过观察监控系统生成的报表即可了解到每次DNS修改实际所需时间。并可以在适当情况下,提供VIP级别服务承诺。通过这种办法,可以重新树立运维部形象,也有助于其它部门对我们工作的监督和上级的考核面向服务的监控理念面向服务的监控理念面向服务的监控理念面向服务的监控理念运维部的新出路—增值服务将节约的带宽和服务器资金和人力投入列为增值服务•利用监控系统,查出是否真有必要增加带宽和服务器数量,统计各应用所需设备工作负载.例如:在传统的运维过程中,有些应用部门感觉最近用户登陆特慢,于是提出增加带宽和服务器数量。面对这种情况,往往只能满足该部门需求,一方面带来了采购设备的资金投入,另一方面安装、调试这些新设备也需要很多的人力成本。在采用了面向服务的监控系统后,应用部门提出扩容需求后,运维部首先要从监控系统中调出该应用实际使用的设备和带宽情况,并分析瓶颈,如查明问题不是出在服务器和带宽,而可能是由于应用程序算法问题导致的,则驳回扩容请求,这样为公司大大的节约了资金面向服务的监控理念面向服务的监控理念面向服务的监控理念面向服务的监控理念以监控sw.sina.com.cn为例说明1.统一监控手段,建立类似如下监控组包括到各服务器80端口流量(可能由Netflow采集)到服务器80端口的流量收集sw.sina.com.cn的服务器syslogSNMP-Trap&Syslog组包括sw.sina.com.cn用到的数据库服务器的连接情况数数据库连接请求数目组由Ping各服务器&网络设备的Packetloss组成PingPacketloss包括sw.sina.com.cn的各服务器CPU利用率服务器CPU组包括sw.sina.com.cn的各服务器网卡流量(bps)服务器带宽使用组sw.sina.com.cn共占用的带宽和机房出口总流量带宽使用组包括出口交换机,sw.sina.com.cn对应的各服务器上联交换机,负载均衡设备CPU利用率网络设备CPU负载说明组名面向服务的监控理念面向服务的监控理念面向服务的监控理念面向服务的监控理念以监控sw.sina.com.cn为例说明2.按照分组去报表,类似如下结果:….….nfs:server*.*.*.*notresponding,stilltrying无异常无异常无异常Syslog30%10%5%CPUUtilLoad-BalanceSwitch2Switch1….….7Mbit/s6Mbit/s7Mbit/s7Mbit/sTraffic90%85%50%80%CPUUtilServer4Server3Server2Server1数据组名面向服务的监控理念面向服务的监控理念面向服务的监控理念面向服务的监控理念以监控sw.sina.com.cn为例说明3.当有用户反映网站访问慢时,立即对各分组进行报表,即可查出瓶颈:监