自动化运维系统研发项目总结报告一、项目背景随着信息时代的持续发展,IT运维已经成为IT服务内涵中重要的组成部分。面对越来越多复杂的业务、多样化的用户需求,不断扩展的IT应用需要越来越合理的模式来保障IT服务能灵活便捷、安全稳定地持续保障,从初期的几台服务器发展到庞大的数据中心,单靠人工已无法满足在技术、业务、管理等方面的需求,那么标准化、自动化、架构优化、过程优化等降低IT服务成本的因素越来越被广大行业客户重视。二、自动化运维研发阶段性经过对市场背景的分析,在公司高层资源的支持下,2016年7月完成项目立项及成立研发项目团队,12月已完成初步框架认定工作,在对市场需求、业务环境调研过程中,认为自动化运维需满足架构独立、部署友好、可运维性、容错容灾、质量监控、性能成本、用户体验等特点。项目组经过半年的研发努力,项目研发有了阶段性的突破成果。2.1架构独立任何架构的产生都是为了满足特定的业务诉求,如果我们在满足业务需求的同时,能够兼顾运维对架构管理的非功能性要求。那么我们有理由认为这样的架构是对运维友好的。站在运维的角度,所诉求的架构独立包含四个方面:独立部署、独立测试、组件规范、技术解耦等。2.2部署友好希望从端到端打通开发、测试、运维的所有技术环节,以实现快速部署和交付价值的目标。实现高效可靠的部署能力,要做好全局规划,要保证部署以及运营阶段的全方位运维掌控,从以上要求分析,有五个维度是对部署友好相关的:CMDB配置、环境配置、依赖管理、部署方式、发布自测等。2.3可运维性运维从脑海中是最理想的服务架构,首先想到的事可运维性强的那种类型。不具可运维的应用或架构,对运维团队带来的不仅仅是难题,还有阻止运维人员职业发展前进堵绊脚石,因为维护一个没有可运维性的架构,简直就是在浪费运维人员的时间。因为可运维性按操作和管理规范应归纳为以下几点:配置管理、版本管理、标准操作、进程管理、空间管理、日志管理、集中管控等。2.4容错容灾运维的四大职责:质量、效率、成本、安全。安全是一个运维团队首要保障的,运维人员立项的高可用架构设计应该包含以下几点:负载均衡、可调度性、本地双活、主从切换、柔性扩展等。2.5质量监控保证和提高业务质量是自动化运维研发的目标,而监控能力是我们实现目标的重要技术手段。为质量监控提供便利和数据支持,需实现以下几点:指标度量、基础监控、组件监控、业务监控、链路监控、质量评估、数据库监控等;2.6性能成本成本问题,也就是技术ROI(投入产出比)的问题。当系统规模和体量变大之后,掌控在运维手中的各类资源,将占整个研发团队支出的大头。如果没有很好的成本控制意识和策略,资源体量将会持续增大,甚至是翻倍或指数级的增长,对于公司成本会是非常大的负担和压力。运维工作者需要考虑到服务器CPU资源利用率的提升(引申出来各种虚拟化、容器或云资源的使用)、IDC&CDN流量带宽使用的管控,还有人力的投入和成本的管控。如何使得系统能够更高效地被充分利用起来,如何能够最大限度的减少成本支出,是我们必须要去考虑的问题。2.7用户体验这里提到的体验,指的是终端用户的访问体验。对于非功能或非产品的使用体验,运维最需要关注的是访问速度。开发团队可能更多的注意力会放在自己负责的代码以及该部分的性能问题,不会关注到端到端全流程的性能和体验。而运维可以站在全局的角度来审视和治理整个端到端的全链路性能情况,并给出对应的性能优化建议三、项目总结3.1项目研发经费3.2研发工作总结在研发运维自动化项目,遇到了很多问题和经验,要实现运维价值最大化,就要确保业务质量、效率、成本的全面提高,业务架构是不得不面临的问题,能站在不同角度对业务架构提出建议和需求,才能持续优化出最好的架构,在研发过程中一定要着重注意以下两点:1)一定要标准先行,做到技术的标准化。这包括资源标准化、OS的基础配置标准化、基础软件(如Tomcat、JVM)配置标准化、应用配置标准化、流程规范标准化等等。做到了标准化,消除了各种差异,才能为后续的自动化开发铺平道路。2)在技术建设上,我想按照顺序来一个渐进的过程应该是:CMDB、应用配置管理和持续集成&发布。CMDB:这运维自动化的基石,重要性不言而喻。有特别要说明的一点,否则外界容易对CMDB产生错误的认识:CMDB不仅仅是硬件和资源的信息记录,更重要是要建立起应用与资源之间对应关系。建立了这个关联关系,以此为基础,配套着应用配置管理、监控、发布、稳定性等系统的建设,才能最终形成体系化的运维平台,这样的平台才有力量和生命力,否则只是碎片化的运维模式3.3取得的成效通过部署和实施自动化平台,实现对资产信息和配置发现、操作系统安装、补丁管理、应用程序分发、日常巡检、脚本执行等各种报表运维自动化,在这基础之上,可以帮助运维人员更深入的了解配置信息,真正实时的服,快速部署及配置操作系统集和软件应用。提高运维效率通过实现日常运维任务的自动化,缩短操作时间,减少操作失误,使得运维人员从简单的任务中解放出来,进行规则制定、任务设计、系统优化等有价值的工作有效支撑业务通过自动化平台可进行并发,批量的安装与变更操作,变更后验证等,可有效保证变更质量,缩短业务上线时间保证系统合规通过自动化平台进行短周期,高频率的自动巡检,出具巡检报告,自动修补违规项,使得我部已有的安全,配置规范能够有效实施,切实保障安全生产。减少管理风险根据最佳实践流程执行所有更改,以确保和内部政策和外部法规的合法性。高效的变更管理可提供所有变更的详细核查痕迹,指明每个变更的授权人、授权时间、执行人和执行时间。大大减少花在实现和证明监管合规性上的时间和人力消耗。四、IT自动化运维的展望(1)建立自动化运维管理平台IT运维自动化首先要建立IT运维的自动化监控和管理平台。通过监控工具实现对用户操作规范的约束和对IT资源进行实时监控,通过自动监控管理平台实现故障或问题综合处理、集中管理及自动运行维护,以完成对系统补丁的同步分发域升级、数据备份、病毒查杀等工作(2)建立故障事件自动触发流程,提高故障处理效率IT设备在遇到问题时要回自动报警,无论是系统自动报警还是使用人员报的故障,应以红色标识显示在运维大屏幕上。然后IT运维人员只需按照流程,一步一步操作就可以完成告警的处理。(3)建立规范的事件跟踪流程,强化运维执行力度建立每种时间的规划化处理和跟踪指南,可以减少IT运维操作的随意性和强化运维的执行力度,在很大程度上可降低故障发生的概率。同时,用户还应可以通过自主服务台、电话服务台灯随时追踪该故障请求的处理状态。(4)建立统一运维自动化随着企业服务器、网络设备、存储数量越来越多,导致管理复杂,大批量的部署和变更使部署更为简单、减少错误,提高生产力,降低风险与成本。因此,集成统一的自动化工具,可以使IT异常复杂的环境将统一应用的不同IT要求以统一的视图展现,控制统一的变更发布。