IDC数据机房运维方案韩东勋目录1IDC数据机房架构图1.1IDC数据机房系统逻辑架构图1.2IDC数据机房网络拓扑图1.3IDC数据机房安全技术架构图2IDC机房运维软件维护软件设备可分为操作系统软件、典型应用软件(如:数据库软件、中间件软件等)、业务应用软件等维护:常用应用软件的安装、调试、管理、更新、升级、故障检测及排除。操作系统的调试、管理、更新,升级,故障检测及排除。建立常用应用软件及驱动程序库。(视客户情况而定)硬件维护硬件设备包括:网络设备、安全设备、主机设备、存储设备等维护:计算机硬件设备的维护、保养、更新、升级、故障检测及排除。对于需要更换的设备,提供设备选型建议及市场参考价格,并可代为购买(设备采购费用另计)。业务层:主机托管、业务备份等资源层:计算、存储、宽带等网络层:路由器、交换机、防火墙等物理层:电力、空调、综合布线等运营管理层网络管理资源管理业务管理运营管理建立电脑硬件配置档案,实行标准化管理。(视客户情况而定)网络交换机维护提供网络交换机的调试、故障诊断、日常维护保养、更换升级建议。对于突发的紧急硬件故障可以提供匹配的设备进行临时替代,保证用户网络的正常运转。路由器维护提供用户端路由器的调试、故障诊断、日常维护保养、更换升级建议。对于突发的紧急硬件故障可以提供匹配的设备进行临时替代,保证用户网络的正常运转安全维护安装、管理、维护客户端计算机的病毒防护系统。培训用户计算机病毒的防护知识以及防病毒软件的使用,建立用户的防病毒意识。升级、更新、优化用户已有的病毒防治系统。定期提供病毒检测、告警及最新预防措施。提供紧急病毒故障处理服务,对突发的新计算机病毒进行及时响应。对用户的网络防病毒系统进行维护,升级版本,更新病毒库从而确保网络、系统及数据资料的安全。物理环境维护综合布线系统维护利用专业测试仪器提供对铜缆、光纤的布线故障检测处理。对现有综合布线系统中存在的缺陷、问题提供合理化改造或升级方案,并可提供专业水平的工程施工(工程费用另计)。主机、存储系统运维服务主机、存储系统的运维服务包括:主机、存储设备的日常监控,设备的运行状态监控,故障处理,操作系统维护,补丁升级等内容。设备的增加内存和硬盘的增加是服务器最常见的,安装的应用软件、资源库越来越多,服务器需要更多的内存和硬盘容量。增加内存前需要认定与服务器原有的内存的兼容性,最好是同一品牌的规格的内存。如果是服务器专用的ECC内存,则必须选用相同的内存,普通的SDRAM内存与ECC内存在同一台服务器上使用很可能会引起系统严重出错。在增加硬盘以前,需要认定服务器是否有空余的硬盘支架、硬盘接口和电源接口,还有主板是否支持这种容量的硬盘。尤其需要注意,防止买来了设备却无法使用。设备的卸载和更换卸载和更换设备时的问题不大,需要注意的是有许多品牌服务器机箱的设计比较特殊,需要特殊的工具或机关才能打开,在卸机箱盖的时候,需要仔细看说明书,不要强行拆卸。另外,必须在完全断电、服务器接地良好的情况下进行,即使是支持热插拔的设备也是如此,以防止静电对设备造成损坏。除尘尘土是服务器最大的杀手,因此需要定期给服务器除尘。尤其是在炎热的夏季,对于服务器来说,灰尘甚至是致命的。除尘方法与普通PC除尘方法相同,尤其要注意的是电源的除尘。其它维护机房环境检查就是对机房的温度、湿度、照明、防鼠、防水、防尘、消防、卫生、门窗的关闭进行检查,主要通过检查以下设备或项目去完成:1.机房空调※检查空调是否正常运行、制冷温度是否在规定范围内※检查空调设备断电后再通电的自动投运状况※检查空调是否有漏水现象※检查空调电源插头是否稳固、是否出现老化现象※检查空调设备卫生情况※填写巡检记录2.照明设备※检查照明设备是否都能正常运行、照明光度是否足够※检查机房事故照明断电后的工作情况※检查照明设备是否出现老化迹象※检查照明设备的控制开关是否能正常使用、灵敏度※填写巡检记录3.消防设备※检查消防设备合格证、是否通过安全定检※消防设备是否配备足够※消防设备是否完好(外观)※检查机房消防系统是否能正常运行※清洁消防设备※填写巡检记录4.抽湿机※检查机房抽湿机是否正常运行※检查机房抽湿机设定的湿度是否在规定范围内※填写巡检记录5.机房防鼠※检查机房所有与外界有联系的孔洞是否已严密封堵※检查机房门窗是否已关闭※检查机房门的防鼠板是否已装上并安装稳密※填写巡检记录6.机房防水、防尘※检查机房空调是否有漏水现象※检查机房墙壁是否有渗水现象※检查机房门窗是否已关闭※填写巡检记录7.机房卫生※检查机房是否有垃圾、杂物※清洁门窗、地柜;整洁办公用品,清洁地面※负责施工后机房地面清洁工作※填写巡检记录8.电池※检查蓄电池外观完好性※检查蓄电池是否有变型、渗液等状况※清洁蓄电池※填写巡检记录9.防雷设备※检查防雷设备运行是否正常,能否实现防雷功能※检查、测试设备运行的相关参数是否正常并记录※检查设备的外观完好性※检查设备是否出现老化迹象※检查防雷设备接线是否牢固,线缆是否出现老化迹象※清洁防雷设备※填写巡检记录UPS系统UPS主机一般是智能型的,它对环境温度要求不高,但要求室内清洁卫生否则灰尘遇潮湿会引起主机工作紊乱;主机中的参数在使用中不能随意改变;在断电时,应避免带负载启动UPS电源,应先关掉负载,等UPS启动后再开启负载,否则会有多负载的冲击电流和供电电流造成UPS电源瞬间过载,严重时会损坏变换器;不能让UPS电源经常处于满载或过载。1.蓄电池的维护及注意事项尽管使用的是免维护蓄电池,但从广义来说一定的维护还是必要的。首先它对环境温度要求较高,工作环境一般要求在20℃—25℃之间,低于15℃时,其放电容量下降,温度每降低1℃,其容量下降1%,而温度过高(大于30%℃)其寿命就会缩短;其次,要防止电池短路或深度放电,深度放电会造成电池内阻增大或充电电压过低从而导致降低甚至失去充电能力,放电程度越深,循环寿命越短;第三,要避免大电流充放电,否则会造成电池极板膨胀变形,使得极板活性物质脱落,内阻增大,容量下降,寿命缩短;第四,由于组合电池电压很高,存在电击危险,因此装卸导电联接条、输出线时应有安全保障;第五,对于不经常停电的地区,建议用户每隔一个月对UPS进行一次人为的断电,让UPS电源在逆变状态下工作一段时间,防止电解液沉淀,以便让蓄电池维持良好的充放电特性,延长使用寿命;第六,搬运电池时不要触动极柱和安全排气阀;第七,不能用二氧化碳灭火器,一旦发生火灾,可用四氧化碳之类的灭火器;第八,不能把不同容量、不同厂家、不同性能的电池联在一起,否则会影响整组蓄电池的性能。同时,要定期对电池进行检查、测量,并做好记录。检查项目包括:整组电池的浮充电压,单体电池浮充电压,测单体电池电压时,应在电池放电状态下进行,否则测得的结果会是假电压,经验作法是在测量时,万用表两端并联一个1—3欧母的电阻丝;检查电池是否损坏,壳、盖间有无泄漏,表面是否有灰尘等杂物,电池架、连接线、端子是否有松动或锈蚀等。雾溢出主要是排气阀附近。3IDC机房智能化管理远程智能控制管理软件可实现对IDC数据机房的实时监控、故障检测、批量备份、一键开关机重启、一键安装应用软件、远程分配资源、机房空调控制等。机房、机柜内每台设备都会在远程只能控制管理软件上面一对一映射,可进行全方位远程监测和控制管理,远程智能控制软件最大限度地诠释绿色机房和高效便捷管理的新概念。随着现在机房的不断发展,人为机房管理模式将被淘汰,远程智能控制软件为绿色机房提供了更加安全、可靠、智能的末端电脑管理理念。在新一代数据机房中,远程控制软件,结合现代机房数字化IT平台,随时随地远程监控、远程控制异地PC的模式,能及时发现机房设备异常,预防故障发生,并能迅速排除故障,降低人力成本,最终实现无人值守的机房或基站。可需要通过登录管理软件即可实现对远程电脑的开关机和重启操作。这样的话,即使数据机房设备繁多,分布无序,通过使用远程智能控制软件,也可以更加合理、高效地分配机房资源。远程智能控制软件,可依托P2P连接方式,可以在远程迅速提取到机房末端设备的运行情况,为数据机房管理员提供精准的机房设备相关数据。帮助管理员了解整体机房的运行情况,从而使管理员能对数据机房的进行全面监测和管理,更加合理地分配人力物力资源。4IDC机房信息资产统计IDC数据机房资产统计应包含在日常运行维护中,帮助我们对用户现有的信息资产情况进行了解,更好的提供系统的运行维护服务。统计内容包括:硬件设备型号、数量、版本等信息统计记录;软件产品型号、版本和补丁等信息统计记录;网络结构、网络路由、网络IP地址统计记录;综合布线系统结构图的绘制;其它附属设备的统计记录;5IDC机房值班方案(1)用户现场技术人员值守IDC数据机房现场应安排技术人员值守,保证网络的实时连通和可用,保障接入交换机、汇聚交换机和核心交换机的正常运转。现场值守的技术人员每天记录网络交换机的端口是否可以正常使用,网络的转发和路由是否正常进行,交换机的性能检测,进行整体网络性能评估,针对网络的利用率进行优化并提出网络扩容和优化的建议。现场值守人员还进行安全设备的日常运行状态的监控,对各种安全设备的日志检查,对重点事件进行记录,对安全事件的产生原因进行判断和解决,及时发现问题,防患于未然。同时能够对设备的运行数据进行记录,形成报表进行统计分析,便于进行网络系统的分析和故障的提前预知。具体记录的数据包括:配置数据性能数据故障数据(2)现场日常巡检现场日常巡检需要对设备及网络进行全面检查的服务项目,通过该巡检,可最大可能地发现存在的隐患,保障设备稳定运行。同时,将有针对性地提出预警及解决建议,使客户能够提早预防,最大限度降低运营风险。巡检包括的内容如下:编号巡检内容1硬件运行状态检查项目单板状态检查电源模块状态检查风扇状态检查整机指示灯状态检查机框防尘网检查机房温度、湿度检查设备地线检查2软件运行情况检查项目设备运行情况检查网络报文分析设备对接运行状况检查路由运行情况检查3网络整体运行情况调查网络运行问题调查网络变更情况调查网络历史故障调查服务器系统巡检项目模板巡检人员设备名:设备型号设备序列号管理IP:检查内容参考标准检查结果状态是否正常巡检方法描述巡检周期硬件运行状态电源指示灯□正常□异常面板指示灯□正常□异常内置磁带机□正常□异常CPU状态□正常□异常内存状态□正常□异常磁盘状态□正常□异常网卡状态□正常□异常HBA卡运行状态□正常□异常系统检查系统日志□正常□异常Mail□正常□异常文件系统,包括磁盘卷剩余空间□正常□异常硬件检测□正常□异常交换分区□正常□异常固件版本□正常□异常补丁包版本□正常□异常系统镜像□正常□异常存储磁盘□正常□异常存储驱动□正常□异常进程状态□正常□异常系统性能检查CPU利用率□正常□异常内存利用率□正常□异常磁盘I/O性能□正常□异常数据库运行状态数据库安装目录□正常□异常数据库进程状态□正常□异常集群检查集群进程状态□正常□异常集群日志□正常□异常存储检查存储设备故障灯状态□正常□异常SAN交换机端口状态□正常□异常存储交换机环境状态□正常□异常系统故障报告□正常□异常6IDC机房应急预案突发事件应急策略系统运维应急方案是对中断或严重影响业务的故障,如宕机、数据丢失、业务中断等,进行快速响应和处理,在最短时间内恢复业务系统,将损失降到最低。在系统维护过程中,突发事件的出现将是很难完全避免的,针对这种情况,公司应设计完善的突发事件应急策略。系统巡检人员要定期规范检查各硬件设备的运转情况和应用软件运行情况,同时做好日常的数据增量备份和定期全备份。对发现的问题在报各级负责人的同时,要协调相关资源分析问题根源,确定解决方案和临时解决措施,避免造成更大的影响。问题得到稳定或彻底解决后,要形成问题汇报,避免以后类似重大紧急情况的发生。对发现的问题在报负责人的同时,要协调相关资源分析问题根源,确定解决方案和临时解决措施,避免造成更大的影响。问题得到稳定或彻底解决后,要形成问题汇报,避免以后类似重大紧急情况的发生。技术支持工程