运维管理体系运维团队运维过程团队角色角色职责素质要求人员组成运维规范质量考核规范工作内容界定制度规范运维流程运维监控ITIL运维体系对象界定安全管控采集平台质量管控监控中心应用中心知识管理流程协作协作监控事件升级运维流程-概述FMKR运维流程管理:结合实际按规范建立六大流程故障,问题,提数,发布,变更,交接流程。定义流程各角色职能协作流转。运维过程监控:对于运维事件协作过程分层级(红色,橙色,黄色等)进行监控预警。触发点事件环节流传点通知提醒,事件处理时间超期提醒,事件紧急处理提醒,事件升级告警运维知识管理:运维过程知识体系,包括项目文档,常见业务咨询问答,常见故障问题解决,支撑服务台人员对于事件甑别,事件初检。运维过程事件职能分析成知识。运维事件升级管理:事件在规定的时间内不能由一线支持小组解决,那么更多有经验的人员和有更高权限的人员将不得不参与进来。运维流程主要是通过流程协作的形式对于运维过程中运维事件进行处理。建立维护工作平台管理积累运维知识,记录运维流程轨迹,并对整个运维过程管控。包含四个部分:运维流程管理,运维知识管理,运维过程监控,运维事件升级管理。运维流程-流程呈现通过目前流行的地图呈现形式,将运维流程各关键流程节点直观展现,详细描述已经流转节点以及预计描述未来节点走向。节点中呈现相关节点信息。发起人:发起时间发起人描述到达时间处理人预期完成时间实际完成时间处理情况描述处理评分预计到达时间预计处理时间流程发起节点一当前节点节点三【MPT20152011200001】属于提数流程,目前处于正在处理状态,完成度为50%,当前处于第二节点,距离预警时间为2小时,工单紧急度为一般到达时间处理人预期完成时间实际完成时间剩余处理时间WEB门户手机WIDGET桌面WIDGET展现渠道运维流程-故障,问题流程一输入客户服务台维护工程师运维经理输出发起阶段处理阶段电话,邮件,QQ,工单开始事件发起有效性ITIL单登记FAQ解决单独处理编写处理方案执行处理方案事件升级反馈客户结果验证结果FAQITIL事件单ITIL归档YNYNY故障,问题流程根据发起人的不同分为外部流程与内部流程。外部流程发起人为运维项目使用人员,内部流程是运维团队内部人员在巡检,稽核,或者使用过程中发现的故障,问题。本流程为外部流程运维流程--故障,问题流程二团队成员服务台维护工程师运维经理输出处理阶段开始事件发起ITIL单登记FAQ解决单独处理编写处理方案执行处理方案事件升级反馈结果验证结果FAQITIL事件单ITIL归档YNNY本流程是内部流程运维流程-提数,发布,变更流程流程规范1提数规范模式借鉴软件开发规范中的快速开发模式,必须由主提数人,副提数人各自提数进行对比校验,确定统一口径后由审核人员审核。风险评估1版本发布之前,需要对发布风险进行预前评估,包括发布版本导致业务风险,系统内风险,外围系统影响风险等,发布前出示风险评估文档以及发布操作步骤文档。恢复机制2发布过程具有不可控因素影响发布实际效果,在风险规避的基础上,对于不可以规避的突发风险需要预先设计恢复方案,以其风险发生可以恢复发布之前状态。提数要素2提数过程中,交接给下一审批人必须完成以下要素的填写:提数周期,数据简介,数据量,数据SQL脚本(包含SQL脚本注释),数据说明等提数流程发布流程运维流程-运维交接流程开发团队运维团队提交运维申请提交软件文档检查文档质量合格?测试软件质量填写测试结果合格?重新交接交接成功输出注:交接过程中,提交的软件文档一般包含需求说明书,概要说明书,详细设计说明书,数据字典,测试报告,试运行情况报告分析,部署文档等,必须保持项目实际情况与文档一致性。运维团队测试包含功能测试,用户测试,业务逻辑测试,集成测试,压力测试,需要在流程中填写相关的测试总结以及上传测试报告,不合格需要说明不合格原因。以上过程需要再严格的规范下进行,不然,流程会因为只是个形式而失败,达不到预期效果开发团队将软件项目交接给运维团队进行项目运维,该过程是一个责任过度的过程,需要严格的规范以及流程进行支撑。该部分叫做运维交接流程。运维流程-运维知识管理整个运维过程中,知识的积累沉淀,传承至关重要,可以有效的避免对同一事件重复运维以及由于人员流动导致知识流失。良好的知识库体系应当包含知识广泛的收集渠道能力,知识强大的管理能力,知识有效的应用能力。知识分类智能检索知识应用能力知识地图知识视图业务培训问卷调查知识采集知识共享知识审核知识评价知识推荐知识传播知识服务组件常用FAQ管理知识版本管理知识管理能力在线考试知识收集能力人工收集其他知识系统收集智能分析知识收集知识渠道展现运维团队成员使用用户客户电脑平板手机ITC人员运维流程-预警监控预警监控主要对运维流程监控,通过设定预警规则,生成预警信息,后台自动调度的方式将预警信息推送。预警过程的紧急度以及影响度,根据具体处理情况以及历史预警日志,系统智能将预警信息升级。预警分析监控点采集自动调度信息推送预警流程涉及到运维流程中的事件到达提醒,事件将超期提醒,事件逾期通告对采集点进行监控,通过预设定规则,区分紧急度,信息接收对象生成预警信息依据时间,事件紧急程度等实际情况,系统智能按频率触发监控,推送流程依据接收人不同的角色信息,推送相应的预警信息按运维流程紧急度,严重度,相应处理时间限制将预警级别划分为红,橙,黄警告根据流程紧急度,严重度,处理时间限制等规则化时间升级条件,满足条件事件流程自动升级,并进行预警运维流程-事件升级如果某一事件不能在规定的时间内由一线支持小组解决,那么再多有经验的人员和有更高权限的人员将不得不参与进来。这就是升级,它可能发生在事件解决过程的任何时间和任何支持级别,升级分为职能性升级和结构性升级。两者的区别如下:职能性升级:需要具有更多时间、专业技能或访问权限(技术授权)的人员来参与事件的解决结构性升级:当经授权的当前级别的结构不能保证事件能及时、满意地解决时,需要更高级别的机构参与进来运维过程中应当尽量在运维团队内解决,避免结构性升级运维工程师无法完成事件产出项目经理内部专业工程师外围开发团队/移动技术部门协调资源解决协调资源组织团队解决解决方案职能性升级结构性升级YN运维流程-制度规范运维过程中,运维工作如何界定,项目交接给运维团队时机以及交接要求,运维人员对事件如何正确处理等都属于运维制度规范内容。工作内容界定交接规范管理制度规范涉及运维过程中已经交接运维团队项目提数,咨询,查证,数据库库巡检,数据稽核,服务器巡检,服务器漏洞修复,应急演练,故障处理,故障发现,数据修改,项目报告等新项目需稳定运行3个月以上时间才能交接给运维组新项目交接给运维组必须对接手维护的同事做系统业务培训项目交接必须提供《项目需求文档.doc》《项目操作手册.doc》《项目维护手册.doc》《项目常见问题处理.doc》《项目详细设计文档.doc》《项目数据字典》服务时间响应规范:规范服务方式,故障级别相应服务行为规范现场服务支持规范ITIL单操作规范运维监控-监控平台目前ITC自建系统应用较多。影响业务流程可用性因子很多。如何变被动为主动,对事件进行事前管理,快速发现问题,智能分析故障,减少运维过程中事件带来不良影响力以及大量运维工作量。建立完善的运维监控平台,以电子监控的形式辅助运维,提升运维效率以及业务功能可靠性。展现渠道监控中心采集平台监控对象应用中心网络系统操作系统业务系统接口系统采集工具集成采集方式采集调度监控规则监控视图报表中心安全审计智能提数电脑平板手机数据中心告警级别告警调度告警规则信息推送运维流程-监控对象网络系统•监控点:网络互通、端口开放情况、网络权限、网络延迟等•监控频率:实时监控操作系统•监控点:CPU使用、内存使用、硬盘使用、用户数、进程数等•适用系统:windows,unix•监控频率:实时监控业务系统•监控点:系统状态、占用内存、链接数、关键业务状态等•监控方式:间隔频率监控接口系统•监控点:FTP可用性、webservice可用性、servlet等•监控方式:间隔频率监控重点关注运维流程-监控中心在IT日益发展的当今,业务与IT已经紧密结合.一个IT项目的关联着系统,数据库,应用,网络,业务,用户等多方面因素。对单个IT资源进行监控已经越来越满足不了IT运维需求。集成传统的监控方式,将整体业务作为主体,构建业务监控视图。监控主要体现为四字原则:看、监、析、告看得见:可以的通过网络拓扑图的这种表现形式将检测点以及检测点周边环境直观呈现,一目了然监得到:对于监控点进行多层级别监控,通过监控规则快速识别监控点异常。析得清:通过对监控点设置规则,监控中心可以对故障进行智能分析,检查,主动将故障发生的关注点告知运维人员告得快:通过手机短信,手机widget监控视图,WEB视图,EAMIL等多种方式,将监控问题故障及时准确的发给运维人员。监控中心成功四要素1234