服务器存储事业部服务器常见问题分析和解决服务器存储事业部故障分类引言•通用分析和流程•服务器硬件问题•软件问题•兼容性问题服务器存储事业部通用分析和流程•总体计划•预备信息•通用现象流程服务器存储事业部总体计划u记录问题:具体现象,日志,代码,提示,声音等。(记住收集信息这一点非常重要,一定要全面的记录)u什么事件造成这个问题,或者进行过什么操作之后出现问题u在问题发生前有无添减硬件或者软件u问题发生是否具有周期性,还是偶尔发生,并且记录发生周期。u问题和什么相关,是硬件故障引起还是软硬件共同引起u进行问题的详细分析(按类别)u如果单纯的依靠分析不能得到结论则需要进行故障复现来定位故障u依然不能解决问题的话需要相后一级的技术支持提出支持申请,并提交相关细节材料。服务器存储事业部通用信息•我们所遇到的问题:l纯硬件的问题l纯软件问题(包括OS以及Application)l硬件软件都相关的问题l什么事件造成这个问题,或者进行过什么操作之后出现问题l在问题发生前有无添减硬件或者软件l问题发生是否具有周期性,还是偶尔发生,并且记录发生周期。l其他服务器存储事业部总体计划服务器加电问题POST(硬件检测)NOS安装和引导基于NOS的各种硬件配置NOS运行中出现的问题NOS上运行的软件的问题硬件连接和配置硬件添加和配置服务器存储事业部基本解决方法•服务器不像一般的家用电脑,他存储的数据或者正在运行的应用往往是客户的命脉,要做好服务器的售后,就要时时刻刻关心操作的安全性•提醒客户需要制作OS的紧急修复盘,记录用户的原始环境信息•实时备份相关的硬件配置信息(特别是RAID卡的)•进行相关对OS或者数据有危险的操作之前,一定要要求客户尽量把相关的数据通过磁带等方法进行最新的备份。强调操作的安全性服务器存储事业部基本解决方法•1.硬件配置:去除第三方厂商备件和非标配备件;•2.资源配置:清除CMOS,恢复资源初始配置;•3.BIOS,F/W,驱动程序:升级较新的BIOS,F/W和相关驱动程序;恢复最简,恢复缺省仔细观察法•1.机器运行的外围环境;•2.硬件环境:包括电源的接插头、座和槽等•3.软件环境(了解详细的操作系统和运行程序环境,以便分析)•4.用户操作的习惯、过程服务器存储事业部基本解决方法•1.系统上从个体到网络:首先将存在故障的服务器独立运行,待测试正常后再接入网络运行,观察故障现象变化并处理。•2.硬件上从最小系统到现实系统:指从可以运行的硬件开始逐步到现实系统为止。•3.软件上从基本系统到现实系统:指从基本操作系统开始逐步到现实系统为止。•4.安装最简单的操作系统,解决复杂系统无法安装的问题所在。从基本到复杂服务器存储事业部基本解决方法•1.在最大可能相同的条件下,交换操作简单效果明显的部件;•2.交换NOS载体,既交换软件环境;•3.交换硬件,既交换硬件环境;•4.交换整机,既交换整体环境,排除外围环境因素交换对比服务器存储事业部基本解决方法••1.不要放过每一个细小部件(数据线,电源线,电源开关,接口的针)•2.详细记录每一项信息,便于分析和查询•3.不要忽略每一个细节(用户进行过那些操作,我们维修时做过那些工作,循序渐进)谨小慎微服务器存储事业部硬件组成•CPU相关•各种总线•各种存储•电源•BIOSFRU/SDRBMC•其他服务器存储事业部硬件排错•处理器:SMP系统:1.处理器的主频cache等参数需要一致2.服务器突然断电或者其他情况时:CPU在开机自检时不能完全检测到,需要reset(inbios)3.FRB(FaultResilientBooting)服务器存储事业部网卡驱动及补丁问题--linux下,Unixware网卡的容错和绑定网卡的特性-各芯片的作用网卡的指示灯提示服务器存储事业部RAID优点用户对磁盘系统的四大要求–增加磁盘I/O存取速度–数据安全性要求,及容错(Faulttolerance)的能力–有效的利用磁盘空间–分担主机CPU的I/O事务–降低内存及磁盘的性能差异–提高计算机的整体工作性能服务器存储事业部RAID疑难问题•带RAID卡的系统安装问题•RAID卡硬件连接•RAID阵列的配置•RAID技术之故障解决服务器存储事业部RAID技术•DiskSPANNING•DiskMirroring•DiskStriping•HotSwap(spare)•Parity(XOR)•RAIDLevel0,1,5,10,01,50….其他厂家服务器存储事业部RAID将若干硬盘做成一个或几个阵列盘,提高了系统中磁盘I/O的性能,并且是磁盘系统具有容错的安全保护功能通过磁盘Cache的运用,提高系统的存取速度结合SAF-TE(SCSIAccessFaultTolerantEnclosure)对磁盘阵列中的磁盘进行监控管理,管理的人机接口有:–RAID卡本身的指示报警–具有SAF-TE功能的热插拔背板–操作系统上安装的监控软件服务器存储事业部RAID•关键点:COD•分类:–SCSIRAID卡adaptec,mylex,AMI(LSI),Intel…–IDERAID卡Promise,adaptec,LSI,Highpoint,–ZEROChannelRAID卡服务器存储事业部SCSISCSI:SmallComputerSystemInterface,即小型计算机系统接口.SCSIController:总线上的主设备–在SCSI总线上SCSI控制器是作为主设备,而其他SCSI硬盘是作为从设备。对硬盘的读写操作是在主从设备之间进行的构建SCSI指令–将HOST的指令进行处理,转化为SCSI总线的操作时序处理从设备请求–对于SCSI设备所提出的请求进行响应,包括通过仲裁允许该SCSI设备占用SCSI总线服务器存储事业部SCSIMaxClockRateMaxBusLengthNumberofDevicesSCSI-15MHz6M8SCSI-2FastNarrow10MHz3M8SCSI-2FastWide10MHz3M16SCSI-3UltraNarrow20MHz1.5M8SCSI-3UltraWide20MHz1.5M16SCSI-3Ultra240MHz12.5M16SCSI-3Ultra16040MHz12.5M16SCSI-3Ultra32080MHz12.5M16SCSI-3Ultra640160MHz12.5M16服务器存储事业部SCSI常见问题•ID问题有些UNIX操作系统要求引导硬盘的ID为0,SCSI光驱ID号为5,SCSI磁带机ID号为2。•SCSI信号终结问题•非热插拔硬盘和其他SCSI设备•热插拔硬盘ID分配以及终结问题一般不用考虑服务器存储事业部硬盘(Harddisk)•OS下的硬盘的添加•硬盘的firmware问题•硬盘与RAID卡的兼容性•硬盘数量问题服务器存储事业部慧眼慧眼的刷新慧眼的种类慧眼软件的安装和SNMP配置慧眼卡的硬件安装远程密码的修改服务器存储事业部内存通道和interleave问题4G内存问题Windows系统对于内存的支持问题4G8G64G服务器存储事业部电源电网污染污染原因对服务器会造成的危害电压浪涌(surge)重型设备关机损坏驱动器,存储器,电电压尖峰(spike)闪电,开关操作,静电放电路以及可产生不可预料的过压(overvoltage)接线错误,电厂误调整软件故障。欠压(undervoltage)因过负荷造成的电网供电降低电压瞬变(transient)闪电,开关操作,静电放电损坏逻辑电路和文件数据线路电噪声(noise)微波辐射,电机控制设备电压跌落(sagorbrowout)重型设备启动,大型电机起动硬件提前老化,文件受损电源中断(blackout)供电开关误动作,发电厂故障硬件损坏,数据丢失服务器存储事业部磁带机磁带机的添加ID号:通常情况下,HP磁带机的ID号默认为3,SEGATE磁带机默认为2。这样,如果有SCSI硬盘的ID号与其相同时,会产生冲突,可能导致硬盘在检测时无法识别。针对这样的情况,应该调整磁带机的ID号,将其改为空闲的ID磁带机的单键恢复磁带机的数据备份服务器存储事业部BIOSAwardBIOS每种BIOS都有自己POST的报警code,根据不同的声音及错误代码可以判断系统故障AMIBIOSPhoenixBIOS服务器存储事业部软件问题•标配OS安装,特殊配置OS安装•服务器兼容--OS,software,DB•HA安装配置•Hardware添加和配置服务器存储事业部兼容性问题机型的培训--研发测试遇到问题标配OS和非标配OS服务器兼容列表-定期更新售后库服务器存储事业部谢谢大家!