机房运行维护管理一.机房运行维护的概念1.机房环境概念:机房环境包括机房基础设施环境、网络及网络设备、基础服务器系统环境、应用环境等组成2.机房基础环境机房基础环境指为了实现机房内的计算机系统、网络通讯的安全、稳定和可靠运行而构建的基础设施环境。包括建筑装修、供电、照明、空调、电力提供、电子设备、自动监测及控制、环境监测、防雷、UPS、视频安防监控、火灾报警、抗干扰等多项内容。计算机机房基础环境的建设不仅要为机房中的系统设备运营管理和数据信息安全提供保障,还要为工作人员创造健康适宜的工作条件。网络就是用物理链路将各个孤立的工作站或主机相连在一起,组成数据链路,从而达到资源共享和通信的目的。凡将地理位置不同,并具有独立功能的多个算机系统通过通信设备和线路而连接起来,且以功能完善的网络软件(网络协议、信息交换方式及网络操作系统等)实现网络资源共享的系统,可称为计算机网络。3.网络及网络设备网络设备及部件是连接到网络中的物理实体网络设备的种类繁多,且与日俱增。基本的网络设备有:计算机(无论其为个人电脑或服务器)、集线器、交换机、网桥、路由器、网关、网络接口卡(NIC)、无线接入点(WAP)、打印机和调制解调器。4.基础服务器系统环境基础服务器系统环境常指服务器,包括硬件及操作系统、中间件、以及提供应用服务所需的文件服务系统、数据库服务系统、以及各种应用程序服务器所需的基础服务环境。服务器指管理资源并为用户提供服务的计算机系统。服务器通常分为文件服务器、数据库服务器和应用程序服务器。服务器必须具有承担服务并且保障服务的能力。它的高性能主要体现在高速度的运算能力、长时间的可靠运行、强大的外部数据吞吐能力等方面。相对于普通PC机来说,服务器在稳定性、安全性、性能等方面的要求更高,因此CPU、芯片组、内存、磁盘系统、网络等硬件配置和普通PC有所不同。中间件是一种独立的系统软件或服务程序,分布式应用软件借助这种软件在不同的技术之间共享资源。中间件位于客户机/服务器的操作系统之上,管理计算机资源和网络通讯,是连接两个独立应用程序或独立系统的软件。具有不同接口的应用程序或系统借助中间件实现信息的交换。通过中间件,应用程序可以工作于多平台或操作系统环境。存储设备是用于储存信息的设备,通常是将信息数字化后再以利用电、磁或光学等方式的媒体加以保存。常见的存储设备包括:利用电能方式存储信息的设备如:各式存储器,如RAM、ROM等。利用磁能方式存储信息的设备如:硬盘、软盘、磁带、磁芯存储器、磁泡存储器,U盘。利用光学方式存储信息的设备如:CD或DVD。利用磁光方式存储信息的设备如:M0(磁光盘)。利用其他物理介质如纸卡、纸带等存储信息的设备如:打孔卡、打孔带、绳结等。专用存储系统:用于数据备份或容灾的专用信息系统,利用高速网络进行大数据量存储信息的设备。5.应用环境应用环境是指应用服务,应用软件(applicationsoftware)是用户可以使用的各种程序设计语言,以及用各种程序设计语言编制的应用程序的集合。其作用是为了满足用户在不同领域、针对不同问题的应用需求。它可以拓宽计算机系统的应用领域,放大硬件的功能。应用服务是指计算机系统提供各种应用服务,包括以WEB服务为基础的各种应用服务、数据服务、信息服务、存储服务、邮件服务、文件服务等等。WEB应用服务指为机构或企业提供管理或服务的平台,包括公司网站、以B/S架构的业务应用服务、论坛、电子商务、购物平台等等。数据(data)指用于记录信息的、按一定规则排列组合的符号。它可以是数字、文字、图像,也可以是计算机代码。对信息的接收始于对数据的接收,对信息的获取只能通过对数据背景的解读。数据通常是科学实验、检验、统计等所获得的和用于科学研究、技术设计、查证、决策等的数值。数据服务是指对以上介绍的数据进行运行、组织、管理的服务,包括应用业务及各种服务产生的各种数据的存储服务的运行及管理。信息服务是指机构对提供一种公共信息的平台或提供知识信息平台、或电子媒体等,比如政府各种网站、各媒体的电子新闻网站,维基百科、百度文库,在线电影网站等。存储服务指为机构、企业或个人提供数据存储服务的平台,比如各大电子服务商提供的云存储、存储空间、服务器应用服务存储空间等等。邮件服务是提供电子邮件的服务比如Mail.163.com,Mail.qq.com等文件服务是指提供文件管理的服务,包括文件的上传与下载管理等。即平常所谓的FTP服务器。二.机房运行维护的基本策略为保证机房的业务连续性和信息安全性,应制定有效的运行维护策略来保证服务交付的质量,兼顾运行维护过程(及时和规范)和运行维护结果(可用和安全),实现“事前防范,风险前移;事中控制,快速响应;事后改进,持续评估”的持续改进原则。1.及时供方应采取适当的手段确保提供满足SLA时间指标要求的运行维护服务。包括:1.特殊时间段(如法定节假日或重大事件等),应提升响应级别,提供必要的现场支持;周期性更新事件级别定义。2.对事件、问题、变更建立明确的分级策略,并与服务窗口时间、响应时间等指标相匹配;3.建立可确保满足需方要求的沟通联络机制,保持沟通渠道通畅,以实现对服务需求的及时响应;4.建立有效的服务资源调度机制及与服务相关方的协同机制,配置必要的备品备件,以提供及时的服务保障;2.规范供方应建立适当的服务管理流程、服务活动指导文件或实施规则,以保证服务过程的规范运作。包括:建立有效的服务管理流程文件,以保证服务过程实施规范性;建立或遵循需方的机房相关管理制度,如出入场管理制度、安保控制制度等;对于例行操作服务,应制定详细、可操作的技术手册,以降低操作风险;对于非例行操作服务(响应支持、优化改善、调研评估),应在实施前,制定详细的实施方案,并进行风险评估及分析,采取相应的风险规避措施和回退手段;在服务过程中进行的任何活动,应建立服务档案,可形成服务报告,保留完整的服务记录。3.安全服务的供需双方应采取各种安全手段或措施,有效控制机房运行维护服务的各个环节,保护机房运行维护服务中的物理安全、网络安全、系统安全、应用安全和数据安全。包括:建立适当的信息安全管理机制,以规范机房运行维护服务人员的信息安全行为。信息安全管理可参照GB/T22080、GB/T22081等标准的有关规定执行;应对机房运行维护服务人员采取有效的信息安全管理措施,如进行人员背景调查、签订安全保密协议等;应对机房运行维护服务人员进行相关安全管理及安全要求培训,并进行适当的检查,以确保服务人员了解并遵守机房安全、保密相关规定;应充分关注机房业务安全需求,结合信息安全技术与管理标准,进行适当的安全评估,提供相应的安全建议,并对服务对象进行适当的监控和保护,以满足需求,保护信息资产;应对机房安全进行监控、分析,把安全风险控制在可接受范围内,防止安全事件发生;应建立有效的安全通报机制,以及时通报安全事件相关情况和相应防范处理措施等。4.可用供方应采取适当措施,确保按服务协议提供长期、持续的满足需求的优质服务,保持服务对象符合SLA的可用性要求。包括:供方在服务实施时,应建立相关的作业流程和响应机制,必要时按需方要求制定系统冗余和备份规范,以满足需方对可用性的要求;进行合理的人员岗位设置和职责定义,应保证专人专岗并设置人员备份;应配备具有相应能力的人员和必要的工具,并定期进行专业培训,以提高服务可用性。人员能力具体要求见附录A;应选择适用的运行维护技术,以保证服务的可用性;根据运行维护服务级别要求,必要时应建立体系架构的关键健康检查点,并配备相应的运行维护工具,以保证服务水平。运行维护工具等级见附录B;供方应根据服务要求配备足够的资源,避免由于资源的缺失导致对服务的可用性带来影响。三.机房运行维护内容机房运行维护内容包括例行操作、响应支持、优化改善、调研评估等四部分内容机房运行维护涉及的对象包括:机房基础设施环境、网络及网络设备、基础服务器系统环境、应用环境四大类,具体包括机房基础设施、网络及网络设备、服务器、存储、数据库、中间件、数据、应用软件等等具体对象。1.例行操作按照约定条件触发或预先规定的常态服务,分为监控、预防性检查和常规作业。监控是指通过各类技术和工具,对机房服务对象的动态指标、静态指标进行记录、分析和告警,包括对象状态、运行状况和发展趋势等预防性检查是指为保证服务对象的持续正常运行,供方根据服务对象的监控记录、运行条件和运行状况进行检查和趋势分析,发现其脆弱性,以便消除或改进;常规作业是指供方对机房服务对象进行的日常维护,包括定期保养、配置备份、数据备份、恢复、定期重启等活动,以保证服务对象的稳定运行。2.响应支持服务:根据响应的前提不同,分为事件驱动响应、服务请求响应和应急响应;事件驱动响应:由于不可预测原因导致服务对象整体或部分性能下降、功能丧失,触发将服务对象恢复到正常状态的服务活动。事件驱动响应的处理过程首先应争取在最短的时间内恢复服务或启用备份资源,维持服务的持续提供,并应对事件做出分析、明确诱发事件的原因和影响的范围,采取有效的防控措施,减少类似事件的再次发生。事件驱动响应的触发条件包括外部事件、系统事件和安全事件三种;服务请求响应:由于需方提出各类服务请求,引发的需要针对服务对象、服务等级做出调整或修改的响应型服务。服务请求响应需要根据总体服务策略并参考已有的SLA/SOW做出判断,对服务的实施进行影响评估,制定详细的实施方案和回退措施,并在条件允许的情况下执行实施方案和回退方案的测试。变更型响应服务实施完成后,应进行总结,确认已达到预期的目标。此类响应可能涉及服务等级变更、服务范围变更、技术资源变更、服务提供方式变更等;应急响应:指在机房出现跨越预定的应急响应阈值的重大事件、发生重大自然灾害、由于政府部门发出行政指令或需方提出要求时,应当启动应急处理程序。3.优化改善服务:包括适应性改进、增强性改进和预防性改进三种类型;适应性改进:为保持机房服务对象在已变化或正在变化的环境中可持续运行而实施的改造;增强性改进:根据机房的运行需求或由于服务对象的缺陷,采取相应改进措施增强机房的安全性、可用性和可靠性;预防性改进:检测和纠正机房服务对象运行过程中潜在的问题或缺陷,以降低系统风险,满足机房未来可靠运行的需求。4.调研评估服务:根据需方、服务相关方或系统运行的需求,对服务对象的运行状况、运行环境进行现状调研、系统分析和评估并提出相应的处理或改进的建议和方案;四.机房运行维护人员要求机房运行维护人员包括管理人员、技术支持人员、操作岗人员运行维护服务人员针对不同服务对象(数据、软件、服务器及存储、网络及网络设备、机房基础设施)有不同的要求1.管理人员要求对所有服务对象都必须符合以下要求管理人员必须掌握运行维护服务项目管理的知识、具备项目管理的经验,并有IT服务管理相关的培训和认证。2.技术支持人员要求1)应用应用技术支持人员要求熟悉应用流程、处理的关键环节,并了解应用的输入、输出、处理相关的步骤。2)软件软件技术支持人员要求熟练掌握相关软件的安装、调试、配置和维护,拥有相关软件的培训和认证。3)服务器及存储服务器及存储技术支持人员要求熟练掌握相关服务器器、存储的安装、调试、配置和维护,拥有相关设备系统的培训和认证4)网络及网络设备网络及网络设备技术支持人员要求熟练掌握相关网络设备、系统的安装、调试、配置和维护,拥有相关设备系统的培训和认证。5)机房基础设施机房基础设施技术支持人员要求分供配电、空调、消防、安防、弱电智能配备相应的专业技术支持人员。熟练掌握机房基础设施相关设备的安装、调试和维护,拥有相关设备系统的培训和认证。3.操作岗人员1)应用应用操作岗人员要求熟练掌握应用相关操作文档,并经过培训考核。2)软件软件操作岗人员要求熟练掌握软件相关操作文档,并经过培训考核。3)服务器及存储服务器及存储操作岗人员要求熟练掌握服务器及存储相