数据中心监控系统技术方案书方案技术背景1.1背景概述项目建设目标是结合数据中心现有的IT服务管理系统,直观地展现业务系统与基础设施之间的关系、有效地预警和监控、保证公司信息服务的可用性与持续性,将监控工作的“被动发现”转变为“主动预警”。1.2典型需求描述1.统一的性能监测采集1)提供统一的监测管理平台,集中监控主机系如AIX/LINUX/WINDOWS等、中间件WEBLOGIC/WEBSPHERE/IIS/APACHE等、数据库ORACLE/SQLSERVER/DB2等、邮件系统Exchange等、业务进程状态等各个业务层次和环节;所有的监测器由统一平台调度;2)对中间件的监控应能监控到中间件内部,包括线程等。3)提供对各种网络设备(交换机、路由器、防火墙等)、小型机(IBM、HP等)、存储(IBM、HP、EMC、HITACHI磁盘阵列;EMC、NETAPP等NAS存储)、光纤交换机等的全方位监控。4)系统管理平台应支持对业务系统自身关键性能点的自定义监测;5)提供界面配置的简易方式,支持VBscript、SHELL、java等方式扩展自定义的个性化监测器;6)支持SNMP、Agent、SSH等多种采集方式,避免采用Telnet、RPC等不安全的采集方式;7)应能支持Agent方式并支持主流的Unix、Linux、Windows服务器平台;8)Agent方式应采用单一模式,当主机服务器上的被监测应用项目发生变更或增加时,无需更换或添加额外Agent程序;9)支持“自动发现”和手动输入两种方式配置被监测对象的配置参数;10)支持分级部署,支持二级管理方式,并能提供全国分布式部署案例;11)能支持3000台或更多IT设备的监测能力。2.管理视图展现1)提供集中登陆页面和整体状态视图,并支持以flash或其它动态图形方式显示;2)支持业务管理视图。应能够建立业务管理目标到被监测设备和系统的纵向逻辑关联,建立从业务到监测数据的层次关联视图,为管理者展现多角度多层次的管理渠道;3)业务视图支持动态展示业务下级层数和显示图形大小等控制;4)可结合“用户和角色管理”模块,实现不同用户从管理不同角度和不同层次的视图;5)管理视图可以动态配置修改,业务关联发生变化时,能够通过界面操作快速适应;6)支持树形视图结构的逐层钻取;7)支持三层拓扑和二层拓扑视图功能,支持全屏显示,支持多个子拓扑的动态刷新显示,设备间连线可以显示连线的状态,还可以根据流量变换连线的宽度,支持显示IP/设备名的切换,用户可以灵活设置拓扑的刷新时间;3.界面模式和安全1)全面支持B/S结构,无需安装额外客户端;2)支持https配置;支持全中文Web界面;3)界面内容可以灵活定制显示内容,不同用户可以定制独立的显示风格;4)支持多用户权限划分;不同用户管理不同操作和资源视图界面4.告警管理1)集中统一的界面显示来自不同平台和事件源的告警信息;2)能够通过接收SNMPtrap和syslog,集成来自不同系统、设备、第三方网管系统的事件告警。3)提供机制保存和积累处理告警的专家建议;4)告警能够通过声音、email、短信、弹出窗口等多种方式及时通知到管理员;5)能够配置告警发生时自动触发的恢复操作;比如,执行一个自动脚本;6)提供告警确认、反确认、清除等规范的告警处理机制;7)对于每个告警从产生到确认、评注、清除的响应时间都能够记录、统计、查询,可以作为监控人员岗位考核的指标8)可以将告警的清除、确认等动作按照告警级别通过短信、邮件、声音等方式通知不同级别的用户;9)提供告警的过滤、合并、门限、根源性分析规则,以减少告警的误报;10)当前告警清除后保存在历史告警;提供历史告警的分类查询和统计操作;5.SLA管理1)提供SLA管理能力,用户可以指定多个SLA计算规则,并提供按时间进行SLA计算数据的回滚展示2)提供离线计划功能,用户可以指定一个周期或临时离线操作,并能准确的反应到SLA计算中。6.报表管理1)每个监测器都提供原始数据的性能报表,用户可以指定任意查询周期;2)提供常用的网络、系统、通用、SLA等多种报表模板,用户可以灵活定义报表内容,能提供报表定时发送功能;3)可分级别分权限推送事先定制好的不同报表。7.诊断工具1)至少包括以下几种工具:ping,telnet,nslookup,traceroute,SNMPScan,SNMPWalk,MIB浏览器;2)支持其他常用系统命令工具的自定义扩展机制;8.易用性和可维护性1)管理平台底层操作系统应具备安全性和可靠性,要求基于Linux/Unix系统内核;2)系统部署和使用具备易用性。采用软硬件一体化的集成方案,能够实现快速实施、快速培训、减少人员投入;3)提供接入后即用的自动化配置。通过“自动发现”和“自动发现监测器”功能能够自动配置基础监测对象。4)具备灵活扩展性,能快速适应管理需求变更、有效控制上线后需求变更/扩展的全周期性价比。9.扩展功能1)监控平台最少支持多个网口,可以接多个逻辑隔离的区域;2)监控平台自身具有成熟的HA(高可用性)解决方案;3)提供开放的接口,可以与机房环境动力、安全平台等无缝集成,并有成熟的案例;4)与业界知名产品,如HP、IBM、BMC、CA等产品,有成熟接口;5)支持与现有ITSM系统无缝对接,支持手动/自动上传告警生成工单,当ITSM完成处理后,需要与监控平台形成闭环;6)支持根据客户环境不同,而产生的二次开发,包括与其它系统的接口;7)可根据现场实施要求修改产品基础功能;8)支持主机虚拟化,描述支持主机虚拟化监控的具体方案;9)系统整体权限体系实现方案;NMS背景1.3Nimsoft简介Nimsoft是面向虚拟化数据中心、主机托管和管理服务、云平台和SaaS资源的UnifiedMonitoring™解决方案的第一提供商。经证实,NimsoftMonitoringSolution™(NMS)的价值实现只需数周时间,与传统系统管理厂商相比,可将企业的总拥有成本最高降低80%,通过NimsoftUnifiedMonitoring体系结构,无需为外包服务、公共或私有云或SaaS实施部署新的监控解决方案。自2004年以来,Nimsoft一直以高双位数实现了收入增长,并不断证明市场需要Nimsoft易于部署的解决方案来削减各方面的成本。公司现金流为正,并持续将最优秀的服务提供商和公司企业充实到其客户群,以增长其业务。Nimsoft的客户包括AlvakaNetworks、AmwayCorporation、BarclaysCapital、Betfred、CDWBerbee、CanadianNaturalResources、CommunityHealthSystems、DekalbMedicalCenter、Easynet、ErieInsuranceGroup、Foley&Lardner、FusionStorm、LadbrokesLimited、LibertySavingsBank、MTUAeroEngines、NorthropGrummanCorporation、RackspaceManagedHosting、Ramesys、蒙大拿州政府、Steria、TriNet和美国退伍军人管理局。美国Nimsoft公司总部位于美国加州坎贝尔市。2010年被CA公司以3.5亿美金收购为全资子公司。1.4Nimsoft监控方案简介Nimsoft的解决方案为希望自主管理内部和外部IT资源的组织提供可伸缩、弹性且可靠的监控功能。并提供全面的性能和可用性监控,从简单的设备监控到复杂的业务服务管理。Nimsoft针对服务器监控、网络监控、数据库监控、应用程序监控、最终用户反应时间监控、服务水平监控以及业务服务管理提供解决方案。另外,在过去几年里,Nimsoft已成为虚拟化基础架构管理领域的创新领先者。已有数百个客户正依靠Nimsoft全面监控他们的虚拟和物理IT基础架构。今天越来越多的关键业务应用部署到了SaaS、云计算、虚拟机等环境中,例如一个典型的电子商务企业可能依赖主机托管、SaaS形式的业务系统、外包IT运维,在自己企业内部数据中心则部署虚拟系统等等。然而,大多数的IT监控系统仍然基于传统数据中心监控模式,独立安装部署监控系统软件来解决性能、可性能、安全、合规性等等问题,而解决现代商务环境的监控问题很可能需要数套甚至更多软件才能完成,多来诸多不便以及资源、投资的浪费;同时,解决问题时也非常麻烦。CANimsoft交付了跨越这些复杂环境的监控管理系统,以单一方案形式满足今天与未来监控的要求,方案简称为NMS,即NimsoftMonitoringSystemNMS满足企业如下五点关键监控需求:•拥有能满足现在与将来革命性变化需求的体系架构,其伸缩性与扩展性无以伦比──该架构采用了一套独特的消息传递总线,基于发布/订阅框架。全面的数据采集能力──NMS是覆盖面最广的监控系统,同时其API接口的集成、部署也非常简单。业务系统适应能力──不仅仅能从各种IT系统中采集、分析数据,更可以从各种业务系统中采集、分析数据灵活的报表与可视化能力──整个系统基于可定制策略的用户组机制,对所有仪表板、报表、报警都可以灵活定制。方便多样化的部署能力──即可以部署到传统企业中,也可以部署到新兴的云计算、MSP、SaaS环境中。••••目前在全球有近一千家用户成功实施了基于NMS系统的SLM&BSM实践,该方案基于其伸缩性与稳定性极强的统一监控架构(NimsoftUnifiedMonitoring™)上使得用户能够跨越企业内部网与互联网进行全面的性能与可用性管理。NMS有190多种探针来监控网络、服务器、数据库、应用系统等,尤其能够智能分析报告有关网卡、内存、CPU、磁盘等资源的详细信息。此外,在数据中心,NMS可以监控各种虚拟环境如VMwareESXServer,VSphere,MicrosoftHyperV,SolarisZones,CitrixXenServer,以及IBMPowerVM。同时,NMS更可以监控各种公共云服务Rackspace,Amazon,WindowsAzure,Vblock,Salesforce,Google等。1.5Nimsoft监控方案特色•功能先进──NMS提供主动监控与报警、性能分析、多用户管理、历史报表、真实用户监控、高级SLM、使用计量、综合服务模型、BSM等功能。覆盖全面──单一方案监控各种应用服务器、Web服务器、数据库、网络设备等,支持各种操作系统、虚拟平台、私有云,对公共云、SaaS、托管平台等也提供全面的监控服务;部署容易──NMS可以在几十分钟内安装完毕,整个企业的实施、部署也可以在数小时内完成;使用简单──完整的弹性仪表板使最终用户几乎不用培训即可使用;••••伸缩自如──监控架构是一套强壮的、多层Portal或API驱动的解决方案,目前用户的服务器数量小到数台服务器,大到数万规模均可在一套系统下稳定运行;集成方便──提供已预制的APIs方便与各种系统进行集成•1.6Nimsoft监控方案优势分析NMS为企业信息系统各个层面提供了完整的控制能力,无论是内部平台还是外部平台,因此能更好的满足业务发展的信息化要求:•增强基础架构的性能与可靠性──NMS有助于系统管理员把业务系统及其基础架构调整到最佳状态适应最新的计算平台──使技术人员更能适应最新的技术,如虚拟化、Vblock、云计算等等提高工作效率──NMS可以有效监控最终用户体验EUE,提供可视化界面以便主动发现问题、解决问题,避免生产系统中断更好地融合业务与IT──NMS能够更好的理解业务信息化的关联,使技术人员按照业务轻重缓急优化技术资源,更快地为业务服务提升服务水平──性能门限、实时报警、统计分析等能力使信息人员在SLA受到影响之前解决问题优化资源利用率──提供可视化的性能趋势分析,为投资规划、负载均衡、问题改进等等提供决策依据••••••降低劳动强度──为用户提供了综合的监控能力、自动化报警能力、无缝排错能力、资源