机房的管理与维护一、机房概述机房又称为网络数据中心、数据处理中心和数据交换中心。在IT业,机房普遍指网络运营商、政府或者企业等,存放服务器,核心网络设备,为企业、用户以及员工提供信息服务的地方,机房里面通常放置各种服务器和小型机,例如IBM小型机,HP小型机,SUN小型机,等等,机房的温度和湿度以及防静电措施都有严格的要求,非专业项目人员一般不能进入,机房里的服务器运行着很多核心业务,例如企业的ERP,OA支持系统、通话业务等。由此可见机房对企业信息化建设的重要性。二、计算机机房对企业的重要性计算机机房是企业信息数据汇集、转发的重要场所。企业的协同办公系统、财务系统、营销系统、等重要系统的服务器都集中在机房,所以企业对计算机机房的稳定性、可靠性、安全性要求较高。一但电力系统、网络系统、服务器等出了故障,造成业务终端,造成的经济损失是不可估计的,三、维护目的保障机房设备正常运行,对机房环境支撑系统、电力系统、监控设备、计算机主机设备定期检测、维护和保养,保障机房设备运行稳定,降低故障率。确保机房在突发事故导致硬件设备故障,影响机房正常运作情况下,可及时得到设备供应商或机房服务维护人员的产品维修和技术支持,并快速解决故障。四、维护内容1、机房主机设备维护管理:计算机服务器(包括PC服务器及存储服务器);网络设备(交换路由设备等)。2、机房监控设备维护管理:供配电监测系统、温度环境检测系统、门禁设备系统、保安监控设备。3、机房空调与配电设备维护管理:空调设备、新风设备、UPS电池、主配电箱。4、机房消防设备维护管理:烟感热感探测器、手动报警按钮和报警控制器、灭火器的控制装置。5、机房供水水路、电路及照明维护管理:水电路管线及接口的检查维护。6、机房基础维护管理:机柜线路的整理、标签检查更换、机房除尘清洁、防火地板、墙面、吊顶、门窗及相关配套的维护管理。三、具体维护方案1、机房主要设备维护及安全:服务器维护及安全:①关闭无用的端口:网络连接都是通过开放的应用端口来实现的。尽可能少地开放端口,就会大大减少了攻击者成功的机会。关闭掉不会用到的服务。telnet使用更为安全的ssh来代替。下载端口扫描程序扫描系统,如果发现有未知的开放端口,马上找到正使用它的进程,从而判断是否关闭。Windows主机可采用定义安全策略的方法关闭隐患端口;也可采用筛选tcp端口添加允许的端口,其余端口就被自动排除。Linux主机可检查inetd.conf文件。在该文件中注释掉那些永不会用到的服务(如:echo、gopher、rsh、rlogin、rexec、ntalk、finger等)。②删除不用的软件包将不需要的服务一律去掉,如果服务器运行了很多的服务。但有许多服务是不需要的,很容易引起安全风险;同时可以腾出空间运行必要的服务,既节省资源又能保证服务器安全。③不设置缺省路由在服务器中,应该严格禁止设置缺省路由,建议为每一个子网或网段设置一个路由,否则其它机器就可能通过一定方式访问该服务器而造成安全隐患。④口令管理服务器登陆口令的长度一般不少于8个字符,口令的组成应以无规则的大小写字母、数字和符号相结合,严格避免用英语单词或词组等设置口令,定期更换。Windows主机可以通过组策略中的密码策略强制使用强密码并要求定期修改,还需要为administrator账号改名。Linux主机口令的保护涉及到对/etc/passwd和/etc/shadow文件的保护,必须做到只有系统管理员才有权限访问这2个文件。安装口令过滤工具加npasswd,可检查系统口令是否可经受攻击。⑤分区管理潜在的攻击首先就会尝试缓冲区溢出。以缓冲区溢出为类型的安全漏洞是最为常见的一种形式。更为严重的是,缓冲区溢出漏洞占了远程网络攻击的绝大多数,这种攻击可以轻易使得一个匿名的Internet用户有机会获得一台主机的部分或全部的控制权。Windows主机分区格式采用ntfs文件格式,对不同的文件夹设置不同的权限。为防止缓冲区溢出类型的网络攻击,安装相应的溢出漏洞补丁;日志文件放在非系统分区上。Linux主机可为/var开辟单独的分区,用来存放日志和邮件,以避免root分区被溢出。为特殊的应用程序单独开一个分区,特别是可以产生大量日志的程序,为/home单独分一个区,这样可防止/home目录文件填满根分区,从而就避免了部分针对Linux分区溢出的恶意攻击。⑥防范网络嗅探:嗅探器能够造成很大的安全危害,主要是因为它们不容易被发现。可使用安全的拓扑结构、会话加密、使用静态的ARP地址来防范。⑦完整的日志管理日志文件记录着系统运行情况,攻击者往往在攻击时修改日志文件,来隐藏踪迹;因此需要对日志文件及目录设置严格的访问权限,禁止其他用户的读取和写入权限。Windows主机开启审核策略,对账户管理、登录事件、对象访问、策略更改、特权使用、系统事件、目录服务访问、账户登录事件的成功失败进行审核,产生日志文件,同时只有系统管理员对日志文件有访问权限。Linux主机要限制对/var/log文件的访问,禁止一般权限的用户去查看日志文件;另外,还可以安装icmp/tcp日志管理程序,如iplogger,来观察那些可疑的多次的连接尝试。⑧使用安全工具软件:Windows主机可部署防病毒软件,安装微软基线安全分析器MBSA扫描服务器操作系统漏洞,及时下载serverpack和漏洞补丁。部署主机IDS(入侵检测系统);如免费的轻量级网络入侵检测系统snort,Linux主机也有一些工具可以保障服务器的安全。如bastillelinux,它是一套相当方便的软件,bastillelinux目的是希望在已经存在的linux系统上,建构出一个安全性的环境。网络设备安全①交换机的安全启用VLAN技术:在交换机的端口上定义VLAN,所有连接到这个特定端口的终端都是虚拟网络的一部分,并且整个网络可以支持多个VLAN。VLAN通过建立网络防火墙使不必要的数据流量减至最少,隔离各个VLAN间的传输和可能出现的问题,使网络吞吐量大大增加,减少了网络延迟。在虚拟网络环境中,可以通过划分不同的虚拟网络来控制处于同一物理网段中的用户之间的通信。这样一来有效的实现了数据的保密工作,而且配置起来并不麻烦,管理员可以逻辑上重新配置网络,迅速、简单、有效地平衡负载流量,增加、删除和修改用户,而不必从物理上调整网络配置。②路由器的安全:a堵住安全漏洞限制系统物理访问是确保路由器安全的最有效方法,将控制台和终端会话配置成在较短闲置时间后自动退出系统。避免将调制解调器连接至路由器的辅助端口也很重要。一旦限制了路由器的物理访问,则一定要确保路由器的安全补丁是最新的。b避免身份危机入侵者常常利用弱口令或默认口令进行攻击。加长口令、选用30到60天的口令有效期等措施有助于防止这类漏洞。另外,一旦重要的IT员工辞职,用户应该立即更换口令。用户应该启用路由器上的口令加密功能。2、机房除尘及环境要求:定期对设备进行除尘处理,清理,调整安保摄像头清晰度,防止由于机器运转、静电等因素将尘土吸入监控设备内部。同时检查机房通风、散热、净尘、供电等设施。机房室内温度应控制在+5℃~+35℃,相对湿度应控制在10%~80%。3、机房空调及新风维护:检查空调运行是否正常,换风设备运转是否正常。从视镜观察制冷剂液面,看是否缺少制冷剂。检查空调压缩机高、低压保护开关、干燥过滤器及其他附件。4、UPS及电池维护:根据实际情况进行电池核对性容量测试;进行电池组充放电维护及调整充电电流,确保电池组正常工作;检查记录输出波形、谐波含量、零地电压;查清各参数是否配置正确;定期进行UPS功能测试,如UPS同市电的切换试验。5、消防设备维护:检查火警探测器、手动报警按钮、火灾警报装置外观及试验报警功能;检查火灾警报控制器的自检、消音、复位功能及主备用电源切换功能。6、电路及照明电路维护:镇流器、灯管及时更换,开关更换;线头氧化处理,标签巡查更换;供电线路绝缘检查,防止意外短路。7、机房基础维护:静电地板清洗清洁,地面除尘;缝隙调整,损坏更换;接地电阻测试;主接地点除锈、街头紧固;防雷器检查;接地线触点防氧化加固。8、机房运维管理体系:完善机房运维规范,优化机房运维管理体系。维护人员24小时及时响应。机房维护计划1.周维护主要内容:清洁机架内外、设备面板和监视器、显示器屏幕;检查个切换开关功能键、监测报警系统的功能及各设备指示状态;检查机房供配电系统;检查机房空调和照明设备。2.月维护主要内容:周维护所有内容;整理各机架设备连接线;检查服务器配置情况;检查交换机各个端口工作状态;检查服务器运行状态并记录;检查各光发射、接收设备的工作状态。3.季维护主要内容:周、月维护所有内容;清洁机房空调的过滤网,检查空调运行情况,必要时补充制冷剂;按操作规程对蓄电池进行完全的充放电维护;对接收天线进行全面性能检查和维护。4.年维护主要内容:周、月、季维护所有内容;清洁各设备的电路板和接插件;清洁各监视器和计算机内部;检查调整信号源和设备测试口的电平及性能指标;检查调整各监测、报警系统的门限阀值。做好计算机机房的日常管理与维护机房管理与维护是一项系统工程,其涉及面广、事务杂、工作量大,主要包括机房环境维护、机房安全管理、机房设备管理等工作。(一)明确分工,建立责任追究机制。中心机房是一个复杂的系统集成环境,主要由配电系统、精密空调系统、消防系统、防雷系统、门禁系统、监控与报警系统及大量的服务器、网络设备等组成。中心机房的专业性、复杂性决定了信息中心必须明确分工,保证每一个子系统都由专人管理,这样才能有效避免管理过程中出现互相扯皮、职责不清的现象。同时,在职责明确的前提下,要建立科学合理的责任追究机制,防止出现由于工作态度、工作作风等各种人为因素导致的机房故障。(二)自主创新,完善自动报警体系。一般情况下,中心机房都配有可靠的机房环境监控与预警系统,以确保设备的安全运行。但该系统监控范围有限,只能实现对配电系统、空调系统、机房温湿度等外部环境的监控。因此,信息中心应坚持自主创新,完善自动报警体系,扩大监控范围,实现全天候监控。(三)搞好机房环境管理。机房的环境管理主要包括温湿度控制、防尘、通风等方面。要调节好温湿度。交换机、服务器等设备对机房的温度有着较高的要求。温度偏高易使机器散热不畅,导致晶体管的工作参数出现误差,影响电路的稳定性和可靠性,严重时还会造成元器件的损坏。湿度对设备的影响也很大。空气潮湿,易引起设备的金属部件生锈,导致电路板、插接件和布线的绝缘性能降低,严重时还可造成电路短路;空气太干燥又容易产生静电,威胁设备的安全。为了使机房的温度和湿度符合标准,有条件的单位可以安装计算机机房精密空调,机房管理员应根据季节变化来调节室内温度与湿度。要做好防尘和通风工作。对于任何搬入机房的设备,尤其是使用过的旧设备,必须进行除尘处理。平时工作人员进入机房时应自觉清除身上的灰尘,并更换机房专用工作服、工作鞋。工作服、工作鞋需定期清洗,以保持机房卫生。为确保机房的通风和防尘,应安装带过滤器的风机,经常查看过滤网吸尘情况,并定期做好清洁和更换工作。(四)加强机房安全管理。要做好用电安全。目前,机房一般采用双路供电方式来保证用电。为了保障机房用电安全,其他与机房无关的设备应禁止接入机房内电源。同时,定期对机房电源进行安全检查,以防隐患。保障设备安全。机房要做好出入登记、施工管理、参观管理等工作。非工作人员未经审批严禁进入机房,维护单位人员由于工作需要进入机房的,要经信息中心批准,并在机房出入登记簿上填写进入机房时间、进入事由,更换专用工作鞋后才能进入。要做好24小时的机房值班工作,任何人不得携带易燃、易爆、腐蚀性、强电磁、辐射性等对设备正常运行构成威胁的物品进入机房。为避免自然灾害对机房设备的损坏,机房内的重要设备应安装防雷装置,以防在夏季雷雨季节被雷电击中损坏。此外,机房消防设施应配有自动预警、报警装置。保障系统与数据的安全。系统和数据安全主要包括系统安全、病毒防范、数据保密三