第1页/共53页HDS存储VSP用户维护手册(2013年5月)第2页/共53页目录一、设备维护............................................31.1VSP配置信息..................................................31.2VSP系统架构..................................................31.3维护常用命令..................................................61.4VSP应急方案-上下电操作......................................291.5设备巡检.....................................................31二、微码升级...........................................352.1微码升级的意义...............................................352.2微码升级的策略...............................................362.3微码升级的步骤...............................................36三、故障处理...........................................403.1故障处理预案.................................................41四、案例...............................................424.1硬盘更换步骤.................................................424.2CHA更换步骤.................................................454.3DKA更换步骤.................................................504.4CM更换步骤..................................................53第3页/共53页一、设备维护1.1VSP配置信息用户SiteID序列号存储配置信息IP地址HDS服务热线设备安装地址磁盘:块GB,10krpmSAS磁盘(包含块热备份磁盘);CacheMemory:384GB;前端板:3对8口8Gbps主机接口板;后端板:2对DKA后端板公共私网400-678-67831.2VSP系统架构1.2.1VSP系统架构图其系统架构采用了交换式架构,如下所示。第4页/共53页图2-1:VSP硬件技术架构1.2.2VSP主要部件图2-2VSP硬件主要部件图VSP的主要部件包括:前端卡(CHA):负责连接外部主机或存储交换设备,如小型机;后端卡(DKA):负责连接内部磁盘存储设备,如硬盘;数据缓存卡(CPC):CHA访问后端磁盘时的数据缓存区域;第5页/共53页内存条(CM):CM的内存条;PCI-Express交换卡(ESW):DKC数据交换控制卡;处理器板卡(MPB):负责前端及后端数据的处理;磁盘(HDD):存储设备的磁盘;备份盘(SpareDisk):用作备份盘的磁盘;电池(Battery):系统掉电时保存数据的电池;电源(PS):系统供电及交换用的电源;风扇(FAN):系统冷却用的风扇;控制台(SVP):系统配置和管理监控的控制台(一台笔记本电脑);线缆(Cable):连接存储内部和外部各部件间的电缆;光纤接头(SFP):光纤转换接头;1.2.3VSP存储的磁盘分布图VSP的磁盘分布按照如下进行标识:HDDxyz_dd其中:xy=Cabinet(盘柜);z=HDUnumber(磁盘笼编号)dd=HDDnumber(磁盘编号)第6页/共53页图2-3:VSP磁盘位置图1.3维护常用命令当盘机出现故障,如磁盘、控制卡、电源、内存、电池到出现异常时,会产生SIM信息,同时盘机会根据故障的严重程度,将Message或Alarm灯亮起。Message灯亮时不影响系统使用,但应及时处理;Alarm灯亮时将影响系统使用,应尽快处理。第7页/共53页1.3.1SVP登录现场维护人员可以通过远程桌面登录VSP的存储控制台SVP进行日常维护工作:VSP:依次点击“History”和“Register”按钮,进入SVP。第8页/共53页1.3.2SVP登陆后界面以下为维护工程师登录SVP后看到的界面;1.3.3SIM信息检查如果存储设备有故障,会在控制台上显示SIMMessage:PendingSIMexists。同时在存储设备的前面板左上角的SIM黄色报警灯会点亮。点击Information按钮可以查看SIM日志:第9页/共53页点击Log…ListSIM:第10页/共53页Status列为“Initial”:有新的SIM信息,需要关注。Stauts列为“Completed”:已经手动(或自动)被结束的SIM信息,一般是工程师对存储维护结束,确认系统恢复正常后进行的Complete操作。选择某一行SIM,点击“Content”可以查看详细信息:第11页/共53页如可能最好通过屏幕拷贝的方式,保存显示的内容,将该内容email给HDS工程师1.3.4存储部件状态检查SVP界面上除了查看SIM,还可以进入Maintenance菜单查看当前存储运行状态:如果有硬件或其它故障,相对应的部件位置会闪烁报警。第12页/共53页第13页/共53页第14页/共53页1.3.5清除SIM中的信息先从ViewMode进入Modifymode,点击“ViewMode”:SVP变为“ModifyMode”:第15页/共53页依次进入:Information-Log…-ListSIM,选定需要Complete的SIM信息,点击Complete:确认即可。第16页/共53页退出SVP前,应将ModifyMode改为ViewMode!1.3.6收集DUMP信息选择AutoDump按钮:第17页/共53页在如下界面选择dump类型以及传输方式,大多数时候Type选择Normal即可,当需要进行有关性能方面的分析的话则选Detail.Media一般选择HDD(SVP本地磁盘)。其他选项不需要更改。选择OK后会显示dump收集进度:Dump数据收集完成后会开始压缩:第18页/共53页压缩完成后会提示收集完成:收集完成后将c:\dkc200\tmp\hdcp.tgz文件拷出并上传到TUF即可。1.3.7使用SVP划分LUNmodify模式,进入lunconfiguration界面第19页/共53页1、根据需要设置CHIP类型2、设置端口参数、设置主机模式打开端口安全模式:第20页/共53页选择打开点击OK后,出现两个系统安全提示,选择“Yes”第21页/共53页选择正确的连接方式:出现系统安全提示,选择“Yes”后完成。第22页/共53页主机组的创建、绑定主机WWN、MappingLdev:点击右键选择“New”。填写主机组名称,并选择WWNList.第23页/共53页选择对应端口上正确的HBA卡片WWN号点OK。完成后点Next.第24页/共53页选择主机组要在哪个端口上创建后点击“Next”。选择操作系统平台类型及附属选项,如果是AIX主机有HA环境请选择HACMP。出现提示说这个主机端口会有I/O中断,是否需要继续这个操作,这时点击“Yes”继续下一步(因为I/O为瞬间中断,不会对主机生产造成影响,如果业务非常繁忙时做这个操作才可能对主机生产造成影响)。第25页/共53页下图为主机组中绑定主机HBA卡WWN完成示意图。在Display选项中选择LUN,开始映射主机磁盘。第26页/共53页选择Add后出现磁盘选择窗口,选择对应数量的LUN数量,对应数量的LDEV数量后点击“Set”后点击OK,完成添加磁盘:出现提示说这个主机端口会有I/O中断,是否需要继续这个操作,这时点击“Yes”继续下一步(因为I/O为瞬间中断,不会对主机生产造成影响,如果业务非常繁忙时做这个操作才可能对主机生产造成影响)。第27页/共53页下图为主机组中磁盘添加完成后示意图:注意下图与上图的差别,在Ldev后多了一个“+”号,当出现“+”时意思是指这块磁盘已经被Mapping过两次。第28页/共53页添加新主机并创建新的主机组,做WWN绑定,做磁盘映射结束后主机将可以认盘,操作方式完全一样;需要注意的是在磁盘选择窗口中新映射或添加磁盘时,一定要选择没有“+”号的磁盘,没有“+”号的磁盘为未用的磁盘。完成操作后退出并保存新配置文件。第29页/共53页全部结束后请退到“ViewMode”,以免有误操作发生。关闭远程桌面连接,选择“确定”。1.4VSP应急方案-上下电操作注意:开关机对主机I/O会有影响请注意!开机步骤第30页/共53页a.开启位于控制柜和磁盘柜后方两侧的四个PDU电源模块上的主电路开关,确认机柜前面主面板(DKCPANEL)上的BASEON黄色指示灯亮起,同时位于控制柜前下部的系统控制电脑(SVP)开始启动。b.将“PSON/PSOFF”开关推至“ON”的位置,同时将“PSSWENABLE”开关推至ENABLE的位置。c.确认控制器面板上的绿色PS-ON指示灯亮起,同时可听到机器内部风扇转动时的声音。d.系统启动完成可能需要15~25分钟,根据配置不同,开机时间会有变化。在启动完成后,控制器面板上的绿色READY指示灯将会亮起。如READY指示灯在很长时间后仍未亮起,即刻联系HDS技术支持人员。关机步骤a.确认与存储连接的主机没有访问I/O。b.将“PSON/PSOFF”开关推至“OFF”的位置,同时将“PSSWENABLE”开关推至ENABLE的位置。第31页/共53页c.系统正常关机可能需要15~20分钟,根据配置不同,关机时间会有变化。d.确认在系统关机完成后,控制器面板上除黄色BASEON指示灯仍然点亮外,其余指示灯都会熄灭,同时机器内部风扇停止转动。如有任何不正常状态,即刻联系HDS技术支持人员。e.关闭位于控制柜和磁盘柜后方两侧的四个PDU电源模块上的主电路开关,确认机柜前面主面板上的BASEON黄色指示灯熄灭。f.如果需要长时间关机,超过24小时时,请将“Battery电缆”拔出,如果需要请联系HDS工程师。1.5设备巡检1.5.1健康巡检内容HDS存储系统的健康检查主要包括如下五方面:设备场地及环境检查定义:检查设备运行的外部环境状态及数值情况是否正常?是否有异常或故障第32页/共53页发现?范围:包括:防静电地板及承装情况、温度计/湿度计的数值、设备通风情况、电源供电情况等具体信息或数值;设备硬件检查定义:检查设备硬件状态及信息是否正常?是否有异常或故障发现范围:电源、电池、连接的光纤、主要板卡DKA/CHA/Cache/Memory/FSW状态、以及HDU中的硬盘状态等,以及通过SVP控制台收集并监控到的系统各部分状态信息设备软件检查定义:检查设备中运行的主要软件状态及信息,检查系统日志和宕机文件是否正常?是否有异常或故障发现?范围:包括:HDLM多路径软件、ShadowImage镜像软件、TC/UR同步/异步数据复制软件等配置信息及状态;系统性能检查定义:检查系统性能参数是否正常?是否需要采取某些措施?范围:包括:Cache写等待、通道板利用率、通道效率等;设备安全性检查定义:检查系统信息或日志等是否有报警或错误信息?是否需要采取其他措施?范围:包括:SIM信息、SSB日志、DUMP信息、Microcode版本、备份盘、冗余链路灯检查;光纤交换机检查定义:检查存储