关键词

  • vmware、esxi5.5
  • raid、热插拔、紫屏
  • 华为 CH121V3刀片、SSD硬盘

     There are many things that can not be broken!

     如果觉得本文对你有帮助,欢迎点赞、收藏、评论!

一、问题现象

现网vmware云平台一台华为E9000刀箱CH121V3刀片服务器, 480G SSD, slot0正常,slot1黄灯告警,刀片健康指示灯告警。

热插拔更换ESXI宿主机系统硬盘导致紫屏故障案例一则-LMLPHP

根据设备告警情况,以及查看系统配置情况,刀片安装esxi5.5,raid卡型号为LSI SAS3008,配置为Raid1,判断slot1硬盘故障,申请备件1+1到场进行更换。

结果更换时,悲剧发生,喜获紫屏一枚,真是天有不测风云啊

热插拔更换ESXI宿主机系统硬盘导致紫屏故障案例一则-LMLPHP

二、问题分析

RAID1冗余阵列的硬盘,支持热插拔更换这个肯定没问题,在其他vmware宿主机上也更换过多次,只是华为刀片+SSD配置的实属第一次更换;出现此类情况猜测有可能是新旧磁盘本身盘体的不同导致,或者磁盘与esxi的不兼容导致等等情况。为了定位具体原因,做了下相关测试,验证这种情况的复现。测试如下:

1、在系统关机的状态下,新旧磁盘可以正常同步,且同步完raid状态正常,这说明raid冗余机制本身没啥异常。

2、使用不同批次的硬盘测试系统在线的情况下,进行磁盘热插拔更换,均出现相同磁盘现象。说明跟不同磁盘之间的盘体不同关系不大。

3、同型号CH121V3刀片设备,同型号LSI 3008 raid卡,创建两块SAS盘的raid1,安装esxi5.5系统,在线进行SAS硬盘更换测试;更换正常,未出现紫屏情况。

4、同型号CH121V3刀片设备,同型号LSI 3008 raid卡,创建两块同型号SSD盘的raid1,安装Linux系统,在线进行SSD硬盘更换测试;更换正常,未出现紫屏情况。

5、同型号CH121V3刀片设备,同型号LSI 3008 raid卡,创建两块同型号SSD盘的raid1,安装esxi6.0系统,在线进行SSD硬盘更换测试;更换正常,未出现紫屏情况。

三、结论总结

通过以上一顿测试分析,真相慢慢浮出水面,无法在线更换ssd硬盘问题,导致系统紫屏的故障,指向esxi5.5内核驱动无法兼容此类硬件设备及ssd硬盘导致。

解决措施:esxi5.5也属于比较老的版本,现网云业务逐渐也在迁移过程中,暂不考虑对esxi版本的升级,故只能后续再有硬盘故障时,事先在线迁移完虚拟机后,关机进行更换磁盘。

03-06 12:52