©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.OceanStor18000系列存储系统日志分析Copyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page2目标学完本课程后,您将能够:掌握如何收集日志及了解日志结构掌握如何使用工具(OceanStorToolKit)进行日志分析掌握如何对常见问题进行人工日志分析及处理方法Copyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page3目录•日志收集方法•日志结构介绍•日志分析工具介绍•常见问题手工日志分析方法Copyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page4存储设备运行出现故障,需要进行故障排查和定位时需要收集日志信息。日志收集方法分为两类:当存储设备工作正常时,可以通过DeviceManager/CLI或者OceanStorToolKit进行常规日志收集当存储设备开工失败,无法登录系统时,需要通过其他方式进行日志收集(后面详述)日志收集概述Copyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page5使用DeviceManager收集日志V100R001–使用ISM登录存储系统–选择“设置”-“导出数据”-“系统日志”使用CLI收集日志常规日志收集1.使用SSH登录存储阵列CLI界面2.执行命令“exporteventevent_type=log…”,等待2-5分钟。命令收集完成,界面显示文件存放位置。Copyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page6使用OceanStorToolkit收集日志关于OceanStorToolkit工具的介绍请参见“OceanStorToolkit存储配套管理工具介绍”课程。收集方法常规日志收集12Copyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page7使用OceanStorToolkit收集日志常规日志收集345信息收集过程显示界面6Copyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page8如果存储设备开工失败,请使用以下方法收集日志:方法通过sftp工具,使用管理网口IP登录控制器(用户名/密码与正常登录时一样),进入“/OSM/log/cur_debug”,下载该目录下的所有文件。然后再登录到另外一个控制器,下载同样目录下的所有文件。开工失败日志收集(夏士鑫更新)Copyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page9目录•日志收集方法•日志结构介绍•日志分析工具介绍•常见问题手工日志分析方法Copyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page10日志包格式为*.tar(压缩包)日志包包含格式为*.tar.bz2的两个控制器的日志压缩包控制器的日志压缩包命名规则:控制器IP地址及是否主控标识(主控文件名含“MAIN”字样)控制器日志文件结构日志包结构介绍【Config】其中包含一个config.txt文件含阵列中当前的软、硬件配置及各运行参数【Event】其中包含一个event.txt文件含阵列中当前的告警、事件记录【Messages】主要包含系统日志,小系统日志等【other】主要是各个软件模块的一些调试级别信息(及操作系统的少量信息)注意:原始压缩包中Messages、other两个目录被压缩在“msg_other.zip”文件中。主控制器日志包Copyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page11目录•日志收集方法•日志结构介绍•日志分析工具介绍•常见问题手工日志分析方法Copyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page12原理介绍日志分析工具通过定制规则库中的关键字或者关键ID,在日志包中进行搜索,满足定制的条件,分析出问题并给出解决方案。定制规则库介绍定制规则库是根据现网出现的常见问题和版本存在的问题,提取定位问题所需的关键字或者关键ID并满足某种关系,编写成规则库。可分析日志包类型DeviceManager收集的日志包OceanStorToolkit收集的日志包开工失败收集的日志包可分析的问题(仅列举部分,预期可分析规则为200个)内存不一致问题导致控制器无法正常启动直流环境BYD生产的BBU电压采样算法有误硬盘出现硬件错误硬盘慢盘日志分析工具介绍Copyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page13功能介绍日志分析工具介绍日志分析工具包下载后,解压可直接运行start.exe程序进行使用。日志分析工具界面包括三部分:日志分析工具操作指导区,分析出的问题显示区域和分析过程记录区域。日志分析工具在V100R001C03SPC600及以上版本支持。运营商软件下载企业网软件下载***请定时关注网站更新Copyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page14操作指导日志分析工具介绍Copyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page15操作指导日志分析工具介绍Copyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page16操作指导日志分析工具介绍Copyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page17目录•日志收集方法•日志结构介绍•日志分析工具介绍•常见问题手工日志分析方法Copyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page18以下介绍4类常见问题开工失败硬盘故障硬盘隔离主机业务表现出性能慢人工处理常见问题的日志分析及处理方法Copyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page19现象DeviceManager上报“开工失败”或“开工保险箱盘失败”错误可能原因1.保险箱盘未插好2.保险箱记录的控制框MAC地址和实际不一致3.控制框与硬盘框线缆级联错误4.控制框温度过高处理方法首先排查1和3号原因(也可通过查看日志进行确认),再进行日志分析。日志分析方法:通过前面所述的“开工失败日志收集”方法收集日志。先分析主控制器日志包中的“/OSM/log/cur_debug/messages”文件,搜索关键字“SYS_TRACE”,找到报上电失败的日志。如果日志中提示是slave上电失败,则再分析备控制器的上述文件。在提示上电失败日志附近(如前后100行),查找具体的失败原因。下面对各种常见的原因进行逐一说明。开工失败Copyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page20保险箱盘未插好日志表现在上电失败日志内容部分,有类似提示“SYS_VAULT:CheckCofferdiskfailed”。表明保险箱盘未正常接入系统,或者保险箱槽位未插硬盘。解决方法重新排查连接和硬盘一般可以解决。注意事项OceanStor18000系列存储系统会认为接到引擎0和1的0号槽位的接口卡0号端口的第一个框为保险箱盘所在的框,该框前四块盘为保险箱盘。所以如果没有框接入到该位置,或A、B控制器该位置的框不是同一个框,则设备必然上电失败。开工失败Copyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page21保险箱记录的控制框MAC地址和实际不一致日志表现在日志中搜索“DEVfirstfailingreasonisthatctrlmacindbdifffrombaseboardonphase(waitreaddb).”。表明保险箱记录的控制框MAC地址和实际不一致。解决方法清除保险箱DB(仅针对局点首次开工时)。执行命令cleardb,该命令的具体用法请参见对应产品型号的《受限命令参考》。《受限命令参考》手册受限发布,如需使用需要向研发接口人申请。开工失败Copyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page22控制框与硬盘框线缆级联错误日志表现“framemacinvalid(newframenotwritemac,orframewasnotfastplugged)”。该错误主要原因是保险箱盘所在的框位置错误,主要场景是设备之前成功上过电,然后下电拆下重新连接,而框的连接顺序与之前不同引起。解决方法一般修正连接顺序后即可解决。----------------------------------------------------------------------------------------------------控制框温度过高日志表现“Ctrlboardisfaulty(theentrancetemperatureistoohigh,orsomethingelseiswrong)”。该问题出现在上电时,由于环境温度异常导致控制框温度过高,导致开工失败。解决方法排除环境温度过高后重新上电可解决。开工失败Copyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page23可能原因一般硬盘故障可能是介质错误,硬件错误等日志表现在日志中搜索关键字“Setdisktobad”,在其前面可以看到具体错误原因,如有坏道记录,或者SCSI打印出的具体原因。解决方法申请备件,更换对应硬盘。硬盘故障Copyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page24可能原因误码反复拔插硬盘硬盘电源接触出现问题处理方法以下根据分类,分别给出两种硬盘被隔离后的日志分析和解决方法。硬盘隔离Copyright©2010HuaweiTechnologiesCo.,Ltd.Allrightsreserved.Page25日志表现查看SAS后端硬盘误码情况,在SES日志中搜索关键字errinc和disablediskphy日志中的phy:9phymon***disablediskphy表示Phy9被隔离,即9号槽位硬盘被隔离(phy0~phy23对应硬盘0~23)。解决方法1.拔插故障硬盘前,请收集硬盘的S.M.A.R.T信息并返回研发进行分析2.在允许的条件下,将隔离硬盘插入到其他槽位,判断隔离现象是跟着硬盘走还是跟着槽位走。假如跟着硬盘走,申请硬盘备件进行更换。若跟着槽位走,观察槽位内是否有异物。硬盘隔离(SAS硬盘)Copyright©2010HuaweiTechnologiesCo.,Ltd.Allright