CRM域专业网管项目-需求说明书

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第1页共33页1*********************************2014年CRM域专业网管项目(项目编号:)需求说明书2014年5月14日第2页共33页2第1章建设背景随着业务发展,公司业务系统逐渐增多,线上系统的数量也在不断增加,依靠过去人工巡检系统的方式发现系统故障、潜在风险及安全隐患的方式效率越来越低下且运维人员的工作强度及压力也在不断增加,为了提高发现系统故障的及时性、系统维护的专业性、规范化、科学性同时也能把运维人员从重复的工作中解放出来去做更多有意义的事情,因此我们亟需引入新的监控手段、工具来协助运维工程师解决当前的问题。第3页共33页3第2章建设目标2.1实现的业务目标为保证自有软件平台运行稳定性,对线上平台进行自动化监控,合理设置监控粒度及监控对象。尽可能的把潜在问题在萌芽状态解决及消除隐患,以此提高IT技术支持部门的整体集成能力和交付系统运行质量。针对分散的IT资源通过自动化的监控工具来进行管理,实现从“被动”转“主动”管理,随时掌控设备、系统、应用的运行情况,并对监控资源进行整合,以业务的形式展现给管理人员,供管理人员来判断问题,最终形成一种主动化、自动化的监控方式,来减轻管理人员的压力、提升工作效率,保障业务正常运。及时发现潜在的问题化被动为主动维护为平台性能优化提供直观参考依据提高系统维护的专业性和规范性提高用户体验,降低服务宕机时间,随时掌控业务的运行情况为保障CRM域各系统的运营稳定,减少事件发生的数量提升ITSM运维处理效率加强系统正常运营监控,缩短故障停机事件接口探测,预防接口异常导致系统间流程中断,预防事件的发生监控目标:资源:对每一个资源进行监控,细化到具体指标。支持对各种软硬件的监控,包括主机、应用、中间件等监控:灵活多样的轮询策略及阀值设定提供多种告警方式。系统可以灵活的设置性能阀值、监控频率,并支持在告警后加频监控,可以设置几次出现问题后才告警,避免引引瞬间负载过高而告警,并可以设置告警的级别。展现:以业务、资源、节点等方式进行展现。提供以业务为核心,提供业务逻辑关系图,在业务关系中图中能看第4页共33页4到每个环节所处的地位,一旦当业务系统不正常时,拓扑图中相应的环节颜色就会发生变化,黄色代表不健康,但是可以使用,红色代表不可用,这样当业务系统不正常时,可以快速的定位故障点。系统可以资源进行分类显示,显示每一类资源正常的个数,不正常的个数,点击可以进去查看详细的情况。系统也可以按照IP节点进行显示,并通过颜色来区分节点中相关的资源的运行情况。分析:提供业务系统的运行质量和运行趋势报表。系统提供以业务为核心,把组成业务的相关资源组合到一起,通过加权算法,计算出整个业务的可用率和健康率,提供业务系统运行质量分析,针对有问题的业务,系统通过颜色来区分,当鼠标停留到业务系统上可以看到具体不健康的节点或资源,点击进去可以看到相应的告警原因。系统以柱形图、折线图的形式,直观的展现各类监控指标的运行情况,并提供近期的趋势图。2.2应用范围第5页共33页5第3章功能需求3.1通用功能需求1.集中监控管理负责收集和处理来自系统中的各类告警信息,并进行告警信息的汇聚和根源分析,帮助运维人员找出故障发生的原因,快速定位故障点并包含网络、主机、数据库及应用管理(系统软硬件配置信息、系统性能指标、故障告警和日志管理)。具体实现:对于日志的归档工作采用本地shell及信息收集引擎的方式将系统信息及异常日志集中存储到监控平台做分析并进行告警、生成报表等工作。2.统一监控管理界面和多样的告警方式通过布局合理的图形化界面集中反映网络、系统、数据库和应用的实时状态,通过手机短信、邮件以及页面等多种方式进行告警。3.自定义告警优先级策略一般的监控到的结果是成功或者失败,如Ping不通、访问网页出错、连接不到Socket,发生时这些称之为故障,故障是最优先的告警。除此之外,还能监控到返回的延时、内容等,如Ping返回的延时、访问网页的时间、访问网页取到的内容等。利用返回的结果可以自定义告警条件,如Ping监控的返回延时一般是10-30ms之间,当延时大于100ms时候,表示网络或者服务器可能出现问题,引起网络响应慢,需要立即检查是否流量过大或者服务器CPU太高等问题。4.自定义告警信息内容标准当服务器或应用发生故障时告警信息内容非常多,如告警运行业务名称、服务器IP、监控的线路、监控的服务错误级别、出错信息、发生时间等。预先定义告警内容及标准使收到的告警内容具有规范性及可读性。这点对于用短信接受告警内容特别有意义,短信内容最多是70个字符,要在70个字符完全知道故障内容比较困难,更需要预先定义内容规范。如:“CRM工作流服务器监控:组建异常,请重启”,清晰明了的知道故障原因。第6页共33页65.短信告警功能目前平台可以实现按照不同业务、责任人通过短信告警功能自动发送告警短消息到相应运维工程师手机之上。同时可以实现调用第三方API方式进行系统告警功能,第三方API只需须留有手机号码,短信内容变量即可完成短信的即时发送功能。6.通过邮件接收汇总报表实现每天收到一封网站服务器监控的汇总报表邮件,花两三分钟总体了解网站和服务器的状态。7.监控管理标准实现对网络运行状态、系统服务质量和故障告警等的实时监控管理。8.丰富的数据报表分析功能结合上述的各项功能,系统能够根据工作需要产生标准格式报表,并能够按条件生成和调整各类报表,以满足IT系统管理及审计等多种需求。3.2功能模块需求3.2.1拓扑管理3.2.1.1拓扑对象浏览根据CRM、CSB、EAI、PPM、10000号门户、代理商门户、UAM等系统硬件配置及当前应用,通过图形化展现。同时能够自动识别网段范围内的机器和应用的配置情况。拓扑图按系统类别区分,不同的系统,以相同的展示风格分开展示。根据发现设备之间的关系自动生成全局的二层或三层的网络拓扑结构图。经过网络拓扑结构的生成后,可以在拓扑图上看到整个网络的拓扑结构图,并能直观地看到各个资源的状态变化。通过双击拓扑图中服务器,页面可跳转到当前服务器的应用情况、机器配置情况及资源占用情况等。第7页共33页73.2.1.2拓扑对象编辑系统管理员可以在有限制的范围内对在线的硬件配置及应用情况进行编辑操作,自动记录编辑操作日志。3.2.1.3管理功能关联系统管理员,可手工添加服务器,并通过线条配置,将新增服务器添加至响应系统的拓扑图中。3.2.1.4拓扑对象清单(后续补充)1.CRM清单2.CSB/EAI清单3.PPM清单4.10000号门户清单5.代理商门户清单6.UAM清单3.2.2故障管理故障管理是网管系统监控平台的核心组件。可以对原始事件、事件、告警信息进行多环节的处理,实现实时告警定位、展示和通知。可以通过告警内容直接定位到拓扑中的设备。3.2.2.1告警采集实时地采集所有服务器生成的各种设备故障告警报告、网络事件报告以及与网络、业务相关的应用故障报警报告。能够自动采集告警数据,采集时间和采集周期可设置;需要时能够即时手工启动告警数据采集程序,保证数据采集的完整性;第8页共33页83.2.2.2告警规则配置系统可根据业务要求,配置告警规则,根据规则自动识别系统问题,自动生成告警提升。告警规则配置可以增可改,系统记录规则变更记录。告警规则:可设置告警阀值,超过阀值自动生成告警。具备告警升级功能,当连续告警未处理时,告警提示到上级主管。升级策略可自定义配置并实现逐级配置。增加告警暂停功能,当有人开始处理告警时,系统可手工暂停告警提示,暂停时间可通过阀值设置。可手工触发告警升级机制,已通知上级主管及时了解告警情况。3.2.2.3告警处理系统可以定义告警相关及处理的具体规则,对每条将要入库的告警信息按规则进行相应的告警相关性分析,然后根据分析结果进行相应的处理。告警相关分为两类,一类产生新的告警,涉及告警的自定义,另一类并不产生新的告警。例如:消除重复发送的同一告警;去除已有告警引起的其他告警;推测出一组告警中的决定性告警,并清除其他次要告警;对频繁发生的告警自动提高告警级别,从而保证网管中心告警信息的有效性、重要性。3.2.2.4告警过滤根据配置进行告警事件的过滤,过滤条件的设置可通过图形化的用户界面完成。3.2.2.5告警呈现告警序列号、告警发生时间、告警确认时间、告警清除时间、告警类型、第9页共33页9告警级别、告警原始类型、告警原始级别、活动状态、告警源、确认操作人员、清除操作人员、告警标题、告警内容等3.2.2.6告警查询能够对告警数据进行查询。系统提供界面,能够按照用户的要求或时间表的设置对所采集的告警数据进行查询;3.2.2.7告警关联分析在具备相关信息库的条件下,系统具备关联分析功能,可进行相关性分析,确定主要告警,标识或删除从属告警;另外系统还可以就告警对业务或客户产生的影响进行分析,帮助操作人员及时发现告警所影响的业务或客户。3.2.3性能管理系统要实现全面的性能管理,包括服务器性能管理、数据库性能管理、中间件性能管理、存储性能管理、网络性能管理、应用性能管理等。维护人员可以根据需要灵活的设定性能阀值,生成相应的性能告警。可以以图形化的方式,批量对监控对象、监控指标和监控策略进行设置,并支持灵活的设定采样周期。根据采集到的不同对象的性能参数,在统一的界面内分别以曲线图,饼图或表格的方式显示,可以根据分析的需要,将不同的参数指标或不同主机的性能参数指标在同一窗口内显示比较,从而可以了解系统的性能瓶颈和不同系统的负载压力。对于性能的指标,还可以做到根据历史的变化趋势,设置在某一置信度下的预测功能。从而可预言到系统需要升级扩展的时间。性能管理会集成所有收集到的性能指标信息,与后端的报表工具集成,生成性能统计报表。第10页共33页103.2.3.1性能采集管理性能数据采集应具有以下四个主要功能:能够周期性地24小时自动采集性能数据,采集周期和采集时间可选择,最小的数据采集时间周期为15分钟,采集的时间粒度可以基于服务器和应用进行选择;能够即时手工启动性能数据采集程序(分系统、分时段);当报表数据不全时,能够提供简单的手段确认所采集的系统数据的齐全;采集和补采的数据能够自动入库。3.2.3.2性能阀值管理告警产生机制:根据性能采集后的数据结果和性能告警设置进行比较,如果满足性能告警设置条件,发送相应的性能告警。恢复告警:如果发生了“满足性能告警设置条件”-“不满足性能告警设置条件”的变化,则发送相应的恢复告警。性能告警分类:阈值性能告警:通过阈值设置产生的性能告警基线性能告警:偏离基线时产生的性能告警梯度性能告警:梯度变化满足一定条件时产生的性能告警高级性能告警:满足给定的组合条件时产生的性能告警说明:性能告警,如果满足性能告警设置条件,则每5分钟发送一次,直到告警恢复为至。3.2.3.3性能数据保存网管系统应该能够对性能数据进行备份、删除和恢复。系统提供界面,能够按照用户的要求或时间表的设置对所采集的性能数据进行归档、删除和恢复。第11页共33页113.2.3.4性能数据查询能够对性能数据进行查询。系统提供界面,能够按照用户的要求或时间表的设置对所采集的性能数据进行查询。3.2.3.5完整性检查系统能够通过手工触发方式,对系统各关键节点进行完整性的检查,包括应用是否完整、对象是否完整、部署是否完整等。3.2.3.6实施性能监视当性能指标超出预先设定的范围时,系统触发的告警称为性能告警。系统需提供对性能告警信息的显示、查询和统计的功能。用于性能告警的主要指标有:Cpu的使用效率网路的丢包率内存的使用量等等3.2.4安全管理通过用户名密码认证控制,限制用户的权限,确保用户只能使用权限范围内的功能,只能浏览权限范围内的数据。丢失密码的用户可以通过“回答密码找回问题”顺利找回密码。同时,系统提供授权控制,包括系统管理员和内容发布管理员。网站或应用系统管理IT人员:可以查看所有监控数据,并多维度给出分析报告

1 / 33
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功