Sqlserver2008“3+1”数据库群集故障处理报告

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1/4Sqlserver2008“3+1”数据库群集故障处理报告故障发生时间:2016年5月25日00:10:00故障解决时间:2016年5月28日16:00:00故障发生的地点:中学集团外国语学校四楼教育数据中心故障处理相关人员:高工、王工、周工故障发生的现象:2016年5月25日凌晨数据库群集依赖的EMC存储的二块电池模组中的一块发生故障,随之群集节点2(DATABASE2)脱机不可用数据库实例2(SQLSERVER2)向群集节点4(DATABASE4)进行迁移。2016年5月25日王工重启服务器节点2、2016年5月26日高工重启服务器节点3(当时是可用状态,重启的过程中数据库实例3(SQLSERVER03)服务转移到节点4),之后在群集管理器当中节点2、3都是脱机不可用状态、同时也无法联机。故障处理步骤:1、2016年5月25日王工重启服务器节点2,节点2脱机不可用,数据库实例2(SQLSERVER2)转移到节点4(DATABASE4)上提供服务2、2016年5月26日高工到达现场,首先检查当前可用的三个节点(DATABASE1\DATABASE3\DATABASE4),以及三个实例(SQLSERVER01\SQLSERVER2\SQLSERVER03),再次手工对所有数据库进行备份操作3、重点对节点2(DATABASE2)进行操作1)备份节点所有关键配置(系统、服务、网络、MPIO等)2)偿试在群集服务上加载节点2,并进行群集节点配置验证(主要是在存储和网络二项上通不过,验证加载不了磁盘)3)根据经验调整节点2心跳、管理和数据三块网卡的NETBIOS设定,主要是除数据卡上启用NETBIOS功能外、其他都禁用,同时使用PING–S172.30.100.50172.30.100.21(x)等来测试网络可用性2/44)使用nettime检测四个节点与域控之间的时间同步,节点1的时间同步有问题(暂未处理)5)从群集服务中退出节点2,在节点2上执行DOS命令clusternode/forcecleanup,以及在PowerShell中执行clear-clusternode命令,再添加到群集服务验证时报磁盘空间不足的错误6)偿试将节点为2上的群集功能删除,同时对照节点1上的功能来添加系统功能,再添加群集服务验证时还是报磁盘空间不足的错误7)请求公司同事周工的帮助,检查发现应该是iSCIS服务有问题,节点2上有二个DGCRaid5的磁盘,一个已添加一个未添加,后删除已添加的将未添加的加入,这时在节点为的磁盘功能上出现问题,本应群集服务同一时间只在一个节点上可用的磁盘在节点2和节点4上都可用8)此时怀疑EMC磁阵电池组故障导致群集服务有问题,所以在群集服务中对四个点的存储服务进行验证,此时报大量的节点加载磁盘有问题9)为了验证是否是磁阵的问题手工对实例3(SQLSERVER03)进行迁移,将实例3从节点3迁移到节点4上,检查确认无误10)重启节点311)重启后的节点3与之前的节点2问题一致,此时十分肯定是由于磁阵的问题引起群集服务故障,猜测可能当前可用的节点1和节点4都有同样的问题,所以接下来的在问题解决好之前节点1和节点4不能做任何操作12)在肖老师的协助下协调了EMC的工程师上门检查,由于时间很晚,无法获得备用电池组进行更换13)EMC工程师检查认为不可能是电池的问题引起群集故障,建议我们重装EMC存储多路径管理工具POWERPATH14)EMC工程师协助安装POWERPATH时出现乱码的错误,经过多次的偿试后建议我们还是重装节点2的操作系统4、时间到了2016年6月27日1)首先对节点2和节点3进行备份,做好重装的准备2)EMC的工程师上师更换电池模组3)偿试再次安装POWERPATH时没有任何问题,能够正常安装3/44)由于不想完全重新安装配置节点2和节点3,主要是担心重装后还是挂不上节点,所以请求公司的同事周晓帮忙一起处理5)高工和周工同时一人处理一个节点,偿试各种办法和查找各种可能,节点2和3基本上就剩下操作系统没有重装6)在此情况下向用户方请求再重启一个节点(节点1DATABASE1)来验证更换电池后是否是问题都解决了,还是所有节点重启后都无法挂载到群集服务上。如果是都无法挂载到群集服务上也就意味着当前的群集服务已经损坏,一切都需要从头再来。7)用户方同意晚上7点过后重启节点1(DATABASE1)来进行验证8)重启节点1后发现一切正常,实例可以在节点1和节点4之间进行迁移,同时重启后对节点1进行群集验证不再报任何的错误,说明更换电池模组后问题都解决了9)此时为了更保险,节点4还是坚持没有重启10)在节点1上再增加一个实例2(SQLSERVER2)的转移节点,将实例2单独转移至节点1上运行,实例1和实例3转移至节点4上运行11)此时节点2、3还是无法通过群集验证加载到群集上,时间已经很晚了,计划明天彻底的将节点2、3重做【此计划获取用户方的同意】5、时间到了2016年6月28日1)首先检查节点1和4运行三个实例的情况,并对三个实例进行备份操作2)再次确认节点2和3的相关信息,并进行备份,准备重装3)最后一次偿试挂载节点2到群集服务上,此时显示正常挂载4)偿试挂载节点3到群集服务上,正常5)验证节点3上的数据库服务是否正常,是否可以进行迁移,一切正常6)验证节点2上的数据库服务是否正常,是否可以进行迁移,由于节点进行的多次的偿试和试验,数据库服务已经出现问题,重新进行部署和安装7)为了保证以后数据库服务更好的可用性,对于数据库实例迁移路径做了一些调整,具体如下:a)实例1(SQLSERVER01)迁移路径节点1(DATABASE1)节点44/4(DATABASE4)节点3(DATABASE3)b)实例2(SQLSERVER2)迁移路径节点2(DATABASE2)节点4(DATABASE4)节点1(DATABASE1)c)实际3(SQLSERVER03)迁移路径节点3(DATABASE3)节点4(DATABASE4)节点1(DATABASE1)8)升级所有sqlserver数据库节点服务到sp4故障处理总结:1、本次故障处理过程中安全意识做的比较好,优先考虑数据安全和服务可用性2、本次故障采取逐步测试和验证的方法非常适合这种多节点的群集服务故障处理过程,不足之处就是处理周期比较长3、有些遗憾的是此次故障虽然解决,但是到最后都无法准确判断故障的原因和分析如何避免此类故障的再次发生4、经验总结:下次如果再遇到类似的问题,在确定群集节点和磁盘阵列部件是同一时刻发生故障的情况下一定要先等磁盘阵列解决好问题后再对群集进行操作

1 / 4
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功