1、错误日志:
Apr 14 06:09:02 gwggwz smartd[1099]: Device: /dev/bus/0 [megaraid_disk_16], SMART Failure: HARDWARE IMPENDING FAILURE DATA ERROR RATE TOO HIGH
Apr 14 06:39:02 gwggwz smartd[1099]: Device: /dev/bus/0 [megaraid_disk_16], SMART Failure: HARDWARE IMPENDING FAILURE DATA ERROR RATE TOO HIGH
Apr 14 07:09:02 gwggwz smartd[1099]: Device: /dev/bus/0 [megaraid_disk_16], SMART Failure: HARDWARE IMPENDING FAILURE DATA ERROR RATE TOO HIGH
Apr 14 07:39:02 gwggwz smartd[1099]: Device: /dev/bus/0 [megaraid_disk_16], SMART Failure: HARDWARE IMPENDING FAILURE DATA ERROR RATE TOO HIGH
Apr 14 08:09:02 gwggwz smartd[1099]: Device: /dev/bus/0 [megaraid_disk_16], SMART Failure: HARDWARE IMPENDING FAILURE DATA ERROR RATE TOO HIGH
Apr 14 08:39:02 gwggwz smartd[1099]: Device: /dev/bus/0 [megaraid_disk_16], SMART Failure: HARDWARE IMPENDING FAILURE DATA ERROR RATE TOO HIGH
Apr 14 09:09:02 gwggwz smartd[1099]: Device: /dev/bus/0 [megaraid_disk_16], SMART Failure: HARDWARE IMPENDING FAILURE DATA ERROR RATE TOO HIGH
Apr 14 09:39:02 gwggwz smartd[1099]: Device: /dev/bus/0 [megaraid_disk_16], SMART Failure: HARDWARE IMPENDING FAILURE DATA ERROR RATE TOO HIGH
Apr 14 10:09:02 gwggwz smartd[1099]: Device: /dev/bus/0 [megaraid_disk_16], SMART Failure: HARDWARE IMPENDING FAILURE DATA ERROR RATE TOO HIGH
Apr 14 10:39:03 gwggwz smartd[1099]: Device: /dev/bus/0 [megaraid_disk_16], SMART Failure: HARDWARE IMPENDING FAILURE DATA ERROR RATE TOO HIGH
Apr 14 11:09:02 gwggwz smartd[1099]: Device: /dev/bus/0 [megaraid_disk_16], SMART Failure: HARDWARE IMPENDING FAILURE DATA ERROR RATE TOO HIGH
Apr 14 11:39:02 gwggwz smartd[1099]: Device: /dev/bus/0 [megaraid_disk_16], SMART Failure: HARDWARE IMPENDING FAILURE DATA ERROR RATE TOO HIGH
Apr 14 12:09:02 gwggwz smartd[1099]: Device: /dev/bus/0 [megaraid_disk_16], SMART Failure: HARDWARE IMPENDING FAILURE DATA ERROR RATE TOO HIGH2、检查
收到这条错误日志,说明磁盘16的SMART已经报警,硬件失效风险很高,需要尽快处理。
RAID 5阵列中的 megaraid_disk_16 是阵列卡为你故障盘分配的设备ID(Device ID,简称DID),不是它在服务器上的物理插槽位置。你需要在系统中找到这个设备ID(DID)与物理槽位(Slot)的对应关系,再点亮硬盘指示灯,就能准确定位了。
这里提供两种方式,推荐你用更简单的storcli命令。
### 方案一:使用 storcli 命令 (推荐)
storcli 是目前管理MegaRAID的主流工具,命令更清晰。如果你的系统里没有,可能需要先安装。
找到磁盘的物理位置和序列号,运行以下命令。
/c0是你的第一块RAID卡,/eall和/sall代表所有的背板(enclosure)和插槽(slot)。storcli /c0 /eall /sall show all在输出中找到关键信息。你需要找到
DID = 16(即你的故障盘)的硬盘,重点关注它的EID:Slt和SN字段。输出的信息大致是这样的结构:EID:Slt DID State SN 0:2 16 Onln ABC123456
- **`EID:Slt`** 的值,比如 `0:2`,`0` 是背板ID,**`2` 就是故障盘所在的物理槽位号**。
- **`SN`** 是硬盘的序列号,可以用来在机箱上二次确认。
- 点亮硬盘指示灯 (定位)
确定了物理槽位号 2 后,用下面的命令让这块硬盘的指示灯闪烁,你就能在服务器面板上看到它了/s2,/e0 是背板编号也就是EID。
# 点亮硬盘指示灯
storcli /c0 /e0 /s2 start locate
# 定位完成后,关闭指示灯
storcli /c0 /e0 /s2 stop locate> 请将命令中的 `/e0 /s2` 替换成你上一步查到的实际背板ID和槽位号。
### 方案二:使用 MegaCli 命令 (备用)
如果你的系统比较旧,可能还在用 MegaCli。
查看物理磁盘列表,这个命令会列出所有物理硬盘的详细信息。
MegaCli64 -PDList -aALL在输出中查找
Device Id: 16的区域,你同样需要关注Slot Number和Inquiry Data字段。- `Slot Number`:就是硬盘的物理槽位号。 - `Inquiry Data`:里面包含了硬盘的型号和序列号。使用MegaCli点亮指示灯(如果有此功能),部分版本支持以下命令,但通用性不如storcli。
MegaCli64 -PdLocate -start -physdrv[E0:S2] -a0
> 这里的 `E0:S2` 同样需要替换为你实际的背板ID和槽位号。
### 应急措施与后续步骤
- 立即备份重要数据:RAID 5在降级状态下虽然仍能工作,但已失去冗余保护,任何其他磁盘出现问题都会导致整个阵列崩溃。
- 准备替换新盘:新盘的容量至少要与故障盘相同。
- 了解替换后的自动重建:对于大多数现代RAID卡,在热插拔替换故障盘后,它会自动开始重建RAID 5阵列。你可以通过
storcli /c0 /vall show或cat /proc/mdstat来监控重建进度。