xxxx运维服务工作总结目录1概述2011年对于XXXX来说是具有历史意义的一年,XXXX成功上线到接入第一个业务系统:集团采购门户系统,揭开了XXXXXXXX认证的一个新的篇章,XXXX公司作为XXXX的运维服务方,在历史的一年即将过去,通过对XXXX运维工作进行年度总结,从中发现工作中的不足,在以后的工作中逐渐改善。2运维项目背景3运维目标XXXX公司为XXXX系统提供运行维护服务包括,XXXX软件系统、系统相关的主机设备、操作系统、数据库和存储设备的运行维护服务,保证XXXX系统整体的正常运行,降低整体管理成本,提高XXXX系统的整体服务水平。同时根据日常维护的数据和记录,提供XXXX系统的整体建设规划和建议,更好的为XXXX发展提供有力的支持。同时XXXX公司为XXXX系统提供业务协维服务,包括业务系统接入前期业务支撑、业务系统接入后期业务支撑,为业务系统提供专业的业务指引、开发指引,方便各业务系统快速接入XXXX系统。XXXX系统的组成主要可分为两类:硬件设备和软件系统。硬件设备包括网络设备、安全设备、主机设备、存储设备等;软件设备可分为操作系统软件、典型应用软件(如:数据库软件、中间件软件等)、业务应用软件等。XXXX公司通过运行维护服务的有效管理来提升XXXX系统的服务效率,结合用户现有的环境、组织结构、IT资源和管理流程的特点,从流程、人员和技术三方面来规划用户的网络信息系统的结构。将用户的运行目标、业务需求与IT服务的相协调一致。XXXX公司提供的服务的目标是,对用户现有的XXXX系统基础资源进行监控和管理,及时掌握网络信息系统资源现状和配置信息,反映XXXX系统资源的可用性情况和健康状况,创建一个可知可控的IT环境,从而保证XXXX系统的各类业务应用系统的可靠、高效、持续、安全运行。4运维人员配备XXXX运维人员梯队结构人的因素是决定运维服务好坏的最重要的因素,合理的人力配置能够提高运维的质量和效率,保障运维工作的顺利开展,XXXX公司通过人力资源的整合与配置,形成了驻点工程师、业务协维、二线专家的人员梯队结构,更好地适应XXXX运维工作的开展。驻点工程师担着XXXX运维工作的主动发起者的角色,通过主动对XXXX系统,从硬件、软件各方面进行巡检,保证XXXX正常运行。业务协维工程师站在业务的角度,解决XXXX用户的业务问题,协助XXXX公司运营人员。二线支持为用户提供专业技术更强的技术支持服务,深入研究疑难事件和问题,并在需要提供现场服务的情况下及时到现场为用户排忧解难。通过三方面人员间的明确分工和紧密配合,形成了较为合理的运维人力配置。XXXX公司人员配备如下:工作角色姓名合同要求实际发生情况工作量(人月)服务周期工作量(人月)服务周期XXXX运维团队驻点工程师业务协维工程师二线专家5运维工作总结5.11-8月份1月份到8月份,XXXX处于系统测试与部署阶段,XXXX公司提供的服务为系统进行全面测试、部署、业务协维、协助XXXX机房搬迁等内容,共计提供215人天运维服务工作,其中XXXX上线测试投入4人共56人天;系统部署上线共投入3人共48人天;XXXX机房搬迁投入1人共8人天;二线支撑投入1人共83人天;XXXX系统优化投入1人共20人天。05101520253035401月2月3月4月5月6月7月8月系统测试系统部署机房搬迁优化二线支撑运维工作量按月分布图工作类型1月2月3月4月5月6月7月8月合计所占比例系统测试(人天)0000018231556%系统部署(人天)00000084048%XXXX机房搬迁(人天)000000808%XXXX优化(人天)01500003220%二线支撑(人天)4573101219238321%总计(人天):4207310306180215100%5.1.1XXXX系统测试与部署XXXX按照XXXX基地实际业务需求定制开发,开发项目组内部测试通过后,需提交到运维人员内部及XXXX内部进行测试验证,运维人员内部由XXXX公司的业务协维工程师和驻点工程师3人共同完成,包括XXXX基本的业务功能,如ZS申请、ZS审核、ZS下载、ZS批量申请等,共完成测试用例138起。根据XXXX需求文档及测试用例严格执行,业务功能基本符合要求后,XXXX公司工程师正式部署上线XXXX系统。5.1.2协助XXXX机房搬迁XXXX在7月份进行机房搬迁,XXXX工程师协助XXXX局方完成服务器的搬迁,包括服务器的网络调试、XXXX系统的应用部署等。5.1.3二线专家支撑1-8月份二线支撑服务主要包括以下工作:对XXXX开发人员及测试人员提供专业的知识指导。制定XXXX系统现网作业方案(版本升级方案、新版本的产品说明;patch升级方案,打完patch后的产品说明;系统调整方案;相应的升级回退方案)解答XXXX等局方人员的技术难点。部分工作明细:工作类型工作任务工作描述其他业务OFFLINEXXXX、OCSP数据库连接一段时间后超时分析日志发现oracle连接在建立8小时后会自动断开,故需要使用连接池来避开这个问题。对OFFLINEXXXX、OCSP与数据库的连接方式进行改造,改为连接池方式,解决了问题。远程支持XXXXtomXXXXt启动异常其他业务局方希望XXXX能支持以前采购的BJXXXX的key,相关改造工作的调研沟通得知此批KEY厂商为飞天,与飞天的技术人员沟通,提出改造需求,由他们评估改造可行度,将结果反馈给局方。其他业务XXXX控件对多厂家key的支持与需要支持的厂家技术人员联系,给他们说明需要定制的需求,并跟进进度。5.1.4XXXX系统优化针对XXXX部署上线进行全面测试后出现的BUG进行修复:优化类型内容描述修复BUG对OFFLINEXXXX、OCSP增加数据库连接池,解决这两个模块应用与数据库连接一段时间后超时的问题。修复BUG因为审计页面存在多个元素id为log,导致OCSP审计页面显示异常,修复此问题。修复BUG除RA外,其他分系统的审计功能有问题,点“审计”页面弹出窗口提示“该密钥集未被定义”。因为审计功能记录日志时,指定操作员ZS容器为ipass-key,因为容器不对,初始化时出错。修复此问题。修复BUG数量统计导出excel乱码,因为产生excel文件内容时没有指定字符编码,修复此问题。修复BUGXXXX企业ZS管理查询结果只有一条ZS时,不能做吊销。因为页面JS有错,修复此问题。5.29-12月份9-12月份,XXXX平衡运行的同时,成功接入集团采购门户系统与XXXX基地4A系统,为这两个系统提供最高级别的安全保障。按XXXX公司的要求,XXXX公司配备的4位运维人员,包括两位驻点工程师与两位业务协维工程师,到XXXX基地现场办公,能够及时响应XXXX局方的要求。XXXX公司为XXXX提供全面的运维服务,包括硬件巡检、软件巡检、XXXX系统巡检、业务协维、二线专家支撑等,共计445人天,其中硬件巡检46人天,软件巡检46天,XXXX系统巡检90天,故障处理2天,业务协维174天,二线专家支撑87天,其中10人天为晚上加班。运维工作量按月分布图工作类型9月10月11月12月合计所占比例硬件巡检与监控(人天)111211124610%系统软件巡检与监控(人天)111211124610%XXXX系统巡检与监控(人天)222322239020%XXXX系统故障处理(人天)110020%二线支撑(人天)2220222387%业务协维(人天)4440444617421%总计(人天):111108110116445100%5.2.1系统运维支撑5.2.1.1系统巡检方式5.2.1.1.1远程方式因XXXX系统机房部分办公设备还没准备好,所以只能通过远程连接服务器方式,对各个服务区及服务器进行巡检,巡检内容如下:区域服务器地址5.2.1.1.2现场方式现场巡检方式是驻点工程师通过到达XXXX机房内部,通过观察各服务器硬件指示灯、风扇运行等,检查服务器系统运行状态,巡检的服务器数量如下:设备名字数量(单位:台)Linux服务器8Unix服务器6磁带库服务器1交换机17加密机7防火墙105.2.1.2系统维护巡检内容5.2.1.2.1远程方式巡检内容检查服务器CPU使用情况检查服务器硬盘使用情况(针对home目录)检查服务器内存使用情况检查系统进程运行情况通过查看日志,检查系统运行情况5.2.1.2.2现场方式巡检内容各服务器指示灯各服务器风扇运行状态交换机指示灯状态检查机房实时温度是否达标检查机房设备温度是否过热检查机房卫生是否符合要求有无临时接线搭线未清理5.2.1.3系统运行分析5.2.1.3.1系统CPU分析各服务器CPU运行均都处于正常指标(CPU使用率=85%)范围内,具体如下:5.2.1.3.2系统内存分析各服务内存使用正常,没有发生内存占满或内存溢出等故障,保证了各服务进行的运行:5.2.1.3.3系统硬盘空间分析各服务器空间以小幅度的速率增长,健康状况良好:5.2.1.3.4系统进程运行分析服务器的应用进程处于正常状态,具体如下:区域服务器地址系统名字进程检查情况5.2.1.3.5系统故障分析XXXX系统9-12月出现故障情况如下,在故障发生的第一时间,运维人员收到监控系统的邮件通知,并在收到邮件通知的第一时间进行处理,并把故障原因通报XXXX公司相关负责人,在完成后进行记录、整理,输出相应的故障报告等:故障出现时间故障服务器故障起因故障影响是否修复2011-9-2411:30网络问题因为和服务器做的是负载均衡出现暂时连接不上,不影响业务的正常运行已修复(机器网络不通,重启后恢复正常。2011-10-25数据库服务器硬件问题目前未对外提供服务,本次故障未造成对外服务的影响。已修复5.2.1.4现网作业工作任务简介任务描述执行人备注制作模板生成个人,企业,服务器模板,有效期为3年签发操作员ZS签发LA操作员ZS模板备份系统现有模板进行备份系统升级系统920版本部署上线,并进行功能测试防火墙操作核查防火墙配置系统升级XXXXV001R001B004版本的上线升级核实数据去后台数据库核实数据系统部署安装部署XXXX业务监控系统系统备份去机房配合粟钫对防火墙进行配置、对ocsp数据库进行排错定位、对备份服务器的配置硬件支持现场协助惠普工程师处理数据库服务器问题,最后硬件故障解决,p数据库恢复正常IDS加电检查检查绿盟的IDS入侵检测设备加电情况渗透测试配合华为对XXXX系统进行入侵检测和渗透测试软件验收XXXX软件验收KMC、XXXX部分应急演练配合XXXX局方进行XXXX系统应该演练5.2.2业务协维5.2.2.1系统业务管理创建ZS模板:因项目需求创建项目适用ZS模板,并做好模板备份工作。创建受理点:为项目创建新受理点,配置人员等。创建应用类型:为集团采购部项目创建单独应用类型,便于项目ZS量的统计及数据分析。操作员权限分配:一方面满足项目需求,另一方面根据安全规范分配。系统升级上线业务功能测试,保证系统业务功能的可用性与完整性。XXXX系统内部全面测试:完成内部系统测试,为XXXX系统软件功能验收测试做好充足准备。系统监控系统功能部署前测试及功能演示等工作。参与XXXX系统定制开发需求的评审并提出修改意见,与开发人员配合讨论确认方案,保障开发前需求评审及方案制定工作顺利完成。配合南基4A系统接入的联调测试。5.2.2.2运营支撑内容受理集团的上线。等。平台相关人员对XXXX的问题。5.2.2.3ZS业务客户服务与支持受理集团的ZS业务客服咨询与故障投诉申报;ZS业务流程咨询、ZS使用问题技术支持。1)指引、FAQ等日常文档输出:《XXXX业务系统接入指引》《CMXXXXOpenAPI需求规格说明书》2)系统业务测试:系统920版本部署前测试,及功能演示,上线后功能验证等工作。3)系统业务测试:系统1129版本部署前测试,及功能演示,上线后功能验证等工作。5.2.2.4运营数据分析此图为2011年XXXXZS发放分析指标分析说明:5.2.3专家服务5.