运维自动化操作管理平台解决方案2014年3月31日目录项目背景系统目标建设原则系统架构主要功能实施规范风险应对运维现状中国邮政储蓄银行依托邮政网络优势,按照公司治理架构和商业银行管理要求,不断丰富业务品种,不断拓宽营销渠道,不断完善服务功能,为广大群众提供更全面、更便捷的基础金融服务,成为一家资本充足、内控严密、营运安全、功能齐全、竞争力强的现代银行。随着银行业务的迅猛发展,系统数量迅速增加,业务系统复杂多样,各个业务系统间关联关系复杂,运维压力越来越大。中国邮政储蓄银行运维系统随着业务系统的不断发展,也在不断地优化升级,在系统升级应用发布等方面已经逐渐形成了一套完整的流程。为了更好的适应业务发展,提高运维效率,实现运维自动化,建设一套独立运行、高度自动化的运维系统是运维管理发展的必然趋势。运维面临的挑战由于中国邮政储蓄银行运维管理的难度和复杂度,运维管理面临着以下挑战:系统环境复杂庞大业务系统繁多人为手工操作风险高问题故障定位效率不高运维面临的挑战(一)系统环境复杂庞大:多种操作系统,如:hp-unix、linux、windows、AIX等。多种主机设备,如:应用服务器、数据库服务器、管理服务器、前置服务器等;数据库服务器应用服务器管理服务器Web服务器前置服务器HP-UXLinuxAIXWindows运维面临的挑战(二)业务系统繁多:系统关联关系复杂,业务处理环节众多,业务关联性强。例如,中国邮政储蓄银行以储蓄逻辑集中系统和储蓄统版2.0系统为核心,连接着会计处理平台系统、中间业务系统、国际业务系统、汇兑业务系统、代理保险系统等多个外围业务系统;...国际业务...会计处理平台...信用卡...资金清算...中间业务核心业务系统...运维面临的挑战(三)人为手工操作风险高:在版本发布、巡检、配置管理、变更管理、联合排障等过程中多是手工操作执行,操作过程中缺乏透明度,标准化程度不高,应用发布时间长,误操作风险较大。缺乏透明度标准化程度不高应用发布时间长风险高运维面临的挑战(四)问题故障定位效率不高:在应用发布过程中,由于操作过程的复杂性和人为原因,容易发生误操作,却不能及时发现。问题出现后重现操作过程困难,不能快速准确地定位问题根源,最终影响业务系统的正常运行。到底问题出在哪儿呢???目前应用发布流程•目前邮储银行运维系统升级应用发布使用95580运维故障管理系统,其基本流程如下:•(1)需求确认单(需求变更单)和升级申请单由相关领导签署后,版本管理员上传应用系统升级包到95580运维故障管理系统;电子传真发送升级申请单、测试确认单、业务验证单相关业务人员签字后传真给技术人员95580运维故障处理系统上传升级包技术人员运维人员业务人员•(2)运维中心管理人员对95580运维故障管理系统中应用系统升级包审核批复后,下发到各省中心维护人员;95580运维故障处理系统批复审核行方领导(3)各省中心系统维护人员从95580下载升级包,按步骤手工操作发布应用程序;95580运维故障处理系统下载升级包应用系统发布升级运维人员(4)项目组开发人员核查升级操作情况,各省中心维护人员记录升级报告单,提交相关领导。应用系统核查升级情况,填写升级报告技术人员目录项目背景系统目标建设原则系统架构主要功能实施规范风险应对项目目标提高运维效率降低误操作导致的风险系统、应用和交易巡检的可视化规范化标准化应用发布流程实现发布应用及巡检的自动化项目目标项目目标-自动化运维管理自动化操作平台需要实现应用发布和巡检的自动化改变传统的运维模式中手工应用发布的流程,在系统中实现应用发布及巡检的自动化管理流程,建立运维自动化操作平台;减少应用发布过程中人为操作步骤,降低人工操作风险;减轻运维人员负担,提升工作效率,降低运维成本。例如:目前逻辑集中系统每日日终前都须手动检查各节点文件系统使用率,对于使用率过高的节点需要运维人员手动清理日志。该平台可以实现自动化巡检,可以灵活定制巡检任务,自动清理日志并生成巡检报告。项目目标-规范化运维自动化操作在纵向上涉及应用系统和底层技术细节,在横向上涉及各级角色及组织。该体系的成功不仅依赖于平台自身的实施,还在于各管理部门、各管理人员的协同,并高效的进行推进,只有这样才能建设安全、高效、便捷的应用自动化系统。因此,在相关的开发中心、测试中心、运维中心各层面建立统一的规范,具体规范包含如下:应用发布管理规范应用发布操作规范发布脚本规范发布参数配置项目目标-可视化运维管理系统根据巡检内容,按照巡检模板生成巡检报告,便于各级管理者进行查看。巡检内容系统类:CPU、IO、内存、文件系统等数据库类:表空间利用率、日志检查中间件类:Tuxdeo、Weblogic等应用服务:应用交易、应用服务巡检目标减少管理员直接系统登录巡检脚本统一管理发布系统故障快速诊断推进巡检的标准化和规范化巡检周期、频率灵活定制项目目标-低风险运维管理自动化操作目的是降低由手工操作带来的潜在风险,减少人为因素带来的影响传统的的运维管理采用手工操作,在版本发布、巡检、配置管理、变更管理、联合排障等过程中多是手工操作执行,操作过程中缺乏透明度,标准化程度不高,误操作风险较大建立透明的、高标准、高规范的自动化运维管理系统,降低由于手工操作带来的风险自动对各个业务系统进行巡检,及时发现并解决问题,降低由于其他故障问题带来的影响项目目标-高效率邮储银行业务系统繁多,工作内容涉及比较多,需要各管理部门、各管理人员的协同共同推进传统的的运维管理模式在各职能部门的协调和各级管理人员的调度上不灵活,在突发情况下无法快速的解决问题运维自动化操作制定不同的角色,不同的角色根据权限的不同而担任不同的工作目录项目背景系统目标主要功能实施规范风险应对建设原则系统架构建设原则规范性易操作性可扩展性安全性稳定性建设原则建设原则-稳定性从外部来说,充分考虑邮政储蓄银行现有各系统间的关联关系和相互影响,设计阶段,尽量减少现有系统的改造;运行阶段,既不对其它业务系统的正常运行产生大的影响,又要保证自动化运维系统的正常运行;从内部分析,运维自动化系统应有充分的规范的异常处理机制,保证系统在出现错误,甚至严重错误时,没有人为因素的干预或较少干预下,仍能恢复正常运行状态。建设原则-安全性信息安全:针对业务系统、子系统及节点等对象,用户根据不同的角色分配不同的操作权限,保证各业务系统的安全。例如:不同用户登录系统会显示不同的操作界面。此外,对于某些重要的操作需要特定的角色授权;密钥安全:运维自动化平台与各业务系统间数据的传输有安全认证的机制。对于大数据量传输,可采用对称加密算法(如3DES),以提高数据加解密的速度;对于小数据,采用非对称加密(如RSA),提高数据安全性。此外,支持公私钥对对双方身份的认证机制。兼容多种加解密算法等。建设原则-可扩展性对于目前邮储银行日益复杂的各种业务系统,具备增加或减少业务系统、子系统或单个节点等功能;实现系统内不同角色及权限的增删改查,从横向和纵向上满足对业务系统的操作权限。例如:角色A对应的是业务系统B内某个子系统C,那么,角色A对子系统C内所有节点具有操作权限,而对业务系统B内其它子系统没有操作权限;灵活定制各种巡检目标及发布应用;支持与目前邮储银行各种主流操作系统平台对接,例如:hp-unix、AIX、linux等;建设原则-易操作性系统的设计应满足操作简单,便于理解和良好的用户体验。例如:适当减少和屏蔽目前版本升级上线过程中复杂的命令操作方式,实现升级流程配置化。用户与系统应有良好的交互性,每步的运行结果都应有实时的展现,并且方便事后查询。建设原则-规范性平台系统设计过程中应有尽可能多的定制规范性动作,例如:命令、脚本及内部程序的规范;运维自动化管理平台与外部系统的交互尽量使用通用的接口规范。对于系统使用到的命令、脚本程序及各类文件数据要满足定制的规范要求;目录项目背景系统目标建设原则主要功能实施规范风险应对系统架构系统逻辑架构内部接口层(API调用)外系统接口层储蓄会计平台个人信贷应用系统报表数据库执行数据库发布管理数据库WEB数据库调度层执行层发布流程层自动操作层数据库层Web接入层任务2轮询构建任务1巡检作业任务作业构建发布作业节点应用系统构建子系统任务n安全认证任务执行发布应用巡检任务权限维护角色维护应用系统维护日志维护命令解释接受任务通讯协议、报文等加解密、数字签名验签等执行器发布监控应用发布发布配置发布审核发布结果评估发布执行巡检巡检配置巡检报告手工巡检巡检检索用户管理角色用户权限角色管理权限管理子系统管理应用系统应用系统管理节点管理公司信贷系统逻辑架构1.WEB接入层:用户与运维自动化系统交互的门户,展示和操作的统一web入口。包括应用发布和巡检两大部分功能;此外,还包括两大支撑功能模块角色用户权限管理和应用系统管理。(1).应用发布:主要子功能及流程有发布配置、发布审核、发布执行、发布监控和发布结果评估等(2).巡检:主要子功能有巡检检索、巡检配置、手工巡检及巡检报告等(3).角色用户权限管理:主要包括角色管理、用户管理和权限管理等。完成角色、用户和权限的增删改查等操作(4).应用系统管理:主要包括应用系统管理、子系统管理和节点管理等。节点是应用系统管理的最小单元,一般与系统中服务器一一对应系统逻辑架构2.发布流程层:又名调度层,应用发布和巡检流程管控模块,是后台任务的核心,实现流程的配置,信息采集,权限管理维护,协助与步骤建模,环境建模,作业配置及资源管理等(1)任务轮询调度:后台实时不间断轮询自动任务的到来,等任务到来后,自动调度对应的任务执行模块进行处理3.自动操作层:又名执行层,主要完成各种任务执行实施的功能;此外,在任务执行过程中,需要底层通讯和安全两大功能模块的支撑(1).任务执行:包括发布应用、巡检、权限、角色、应用系统等任务的执行(2).安全认证:本系统与应用系统之间的数据的加解密、签验章等(3).通讯协议:平台部署运维自动化操作管理平台系统分两套环境部署,准生产环境和生产环境。上线前,首先在准生产环境进行应用发布及巡检的自动化测试,然后再导入生产环境,大大降低了上线操作的风险性,提高了运行效率。并且,生产环境和准生产环境支持逆向操作。平台准生产环境•开发、测试中心进行自动化发布的测试平台生产环境•运维中心实现对生产的应用系统的自动化发布平台部署DEV/QAPROD自动化平台自动化平台验证环境验证环境imp/exp发布发布124DEV/QAPROD预投产环境预投产环境3生产生产发布目录项目背景系统目标建设原则系统架构实施规范风险应对主要功能功能概要网络设备中间件服务器数据库自动化流程引擎应用巡检自动化应用发布自动化系统巡检自动化操作维护自动化管理门户报表运行监控IT服务管理运维自动化平台OpenView系统运行监控平台Netcool网络运行监控平台RemedyIT服务台平台管理员系统管理员网络管理员安全管理员报表管理员应用管理员IT基础资源IT运维人员信息系统配置管理系统IBMPowerVMVMWareESXHPIVM功能概要功能功能简介应用发布实现应用发布过程的一系列流程。主要包含:发布模板、发布请求、发布过程、发布作业、发布步骤、环境、组件、作业、作业包、脚本、参数化巡检包含:对象化、巡检模板、巡检作业、巡检目标、系统级巡检、应用级巡检、定制巡检用户权限用户权限取决于登录系统的角色,包含:平台管理员、系统管理员、网络管理员、安全管理员、报表管理员、应用管理员等主要功能介绍-自动巡检功能点功能内容巡检对象包含:脚本对象化、命令行对象化、配置文件对象化巡检模板对同类检查规则的统一抽象、实现巡检规则的重用性巡检作业包含:巡检模板、目标服务器、巡检周期及频率巡检报告包含:界面查询方式、结果处理具体巡检内容系统类:CPU、IO、内存、文件系统等数据库类:表空间利用率、日志检查中间件类:tuxedo、weblogic等应用类:应用交易量、应用服