1、错误日志:

Apr 14 06:09:02 gwggwz smartd[1099]: Device: /dev/bus/0 [megaraid_disk_16], SMART Failure: HARDWARE IMPENDING FAILURE DATA ERROR RATE TOO HIGH
Apr 14 06:39:02 gwggwz smartd[1099]: Device: /dev/bus/0 [megaraid_disk_16], SMART Failure: HARDWARE IMPENDING FAILURE DATA ERROR RATE TOO HIGH
Apr 14 07:09:02 gwggwz smartd[1099]: Device: /dev/bus/0 [megaraid_disk_16], SMART Failure: HARDWARE IMPENDING FAILURE DATA ERROR RATE TOO HIGH
Apr 14 07:39:02 gwggwz smartd[1099]: Device: /dev/bus/0 [megaraid_disk_16], SMART Failure: HARDWARE IMPENDING FAILURE DATA ERROR RATE TOO HIGH
Apr 14 08:09:02 gwggwz smartd[1099]: Device: /dev/bus/0 [megaraid_disk_16], SMART Failure: HARDWARE IMPENDING FAILURE DATA ERROR RATE TOO HIGH
Apr 14 08:39:02 gwggwz smartd[1099]: Device: /dev/bus/0 [megaraid_disk_16], SMART Failure: HARDWARE IMPENDING FAILURE DATA ERROR RATE TOO HIGH
Apr 14 09:09:02 gwggwz smartd[1099]: Device: /dev/bus/0 [megaraid_disk_16], SMART Failure: HARDWARE IMPENDING FAILURE DATA ERROR RATE TOO HIGH
Apr 14 09:39:02 gwggwz smartd[1099]: Device: /dev/bus/0 [megaraid_disk_16], SMART Failure: HARDWARE IMPENDING FAILURE DATA ERROR RATE TOO HIGH
Apr 14 10:09:02 gwggwz smartd[1099]: Device: /dev/bus/0 [megaraid_disk_16], SMART Failure: HARDWARE IMPENDING FAILURE DATA ERROR RATE TOO HIGH
Apr 14 10:39:03 gwggwz smartd[1099]: Device: /dev/bus/0 [megaraid_disk_16], SMART Failure: HARDWARE IMPENDING FAILURE DATA ERROR RATE TOO HIGH
Apr 14 11:09:02 gwggwz smartd[1099]: Device: /dev/bus/0 [megaraid_disk_16], SMART Failure: HARDWARE IMPENDING FAILURE DATA ERROR RATE TOO HIGH
Apr 14 11:39:02 gwggwz smartd[1099]: Device: /dev/bus/0 [megaraid_disk_16], SMART Failure: HARDWARE IMPENDING FAILURE DATA ERROR RATE TOO HIGH
Apr 14 12:09:02 gwggwz smartd[1099]: Device: /dev/bus/0 [megaraid_disk_16], SMART Failure: HARDWARE IMPENDING FAILURE DATA ERROR RATE TOO HIGH

2、检查

收到这条错误日志,说明磁盘16的SMART已经报警,硬件失效风险很高,需要尽快处理。

RAID 5阵列中的 megaraid_disk_16 是阵列卡为你故障盘分配的设备ID(Device ID,简称DID),不是它在服务器上的物理插槽位置。你需要在系统中找到这个设备ID(DID)与物理槽位(Slot)的对应关系,再点亮硬盘指示灯,就能准确定位了。

这里提供两种方式,推荐你用更简单的storcli命令。

### 方案一:使用 storcli 命令 (推荐)

storcli 是目前管理MegaRAID的主流工具,命令更清晰。如果你的系统里没有,可能需要先安装。

  1. 找到磁盘的物理位置和序列号,运行以下命令。/c0 是你的第一块RAID卡,/eall/sall 代表所有的背板(enclosure)和插槽(slot)。

    storcli /c0 /eall /sall show all
  2. 在输出中找到关键信息。你需要找到 DID = 16(即你的故障盘)的硬盘,重点关注它的 EID:SltSN 字段。输出的信息大致是这样的结构:

    EID:Slt   DID   State   SN
    0:2       16    Onln    ABC123456
- **`EID:Slt`** 的值,比如 `0:2`,`0` 是背板ID,**`2` 就是故障盘所在的物理槽位号**。

- **`SN`** 是硬盘的序列号,可以用来在机箱上二次确认。
  1. 点亮硬盘指示灯 (定位)

确定了物理槽位号 2 后,用下面的命令让这块硬盘的指示灯闪烁,你就能在服务器面板上看到它了/s2,/e0 是背板编号也就是EID。

# 点亮硬盘指示灯
storcli /c0 /e0 /s2 start locate

# 定位完成后,关闭指示灯
storcli /c0 /e0 /s2 stop locate
> 请将命令中的 `/e0 /s2` 替换成你上一步查到的实际背板ID和槽位号。

### 方案二:使用 MegaCli 命令 (备用)

如果你的系统比较旧,可能还在用 MegaCli

  1. 查看物理磁盘列表,这个命令会列出所有物理硬盘的详细信息。

    MegaCli64 -PDList -aALL
  2. 在输出中查找 Device Id: 16 的区域,你同样需要关注 Slot NumberInquiry Data 字段。

    - `Slot Number`:就是硬盘的物理槽位号。
    
    - `Inquiry Data`:里面包含了硬盘的型号和序列号。
    
  3. 使用MegaCli点亮指示灯(如果有此功能),部分版本支持以下命令,但通用性不如storcli。

    MegaCli64 -PdLocate -start -physdrv[E0:S2] -a0
> 这里的 `E0:S2` 同样需要替换为你实际的背板ID和槽位号。

### 应急措施与后续步骤

  • 立即备份重要数据:RAID 5在降级状态下虽然仍能工作,但已失去冗余保护,任何其他磁盘出现问题都会导致整个阵列崩溃。
  • 准备替换新盘:新盘的容量至少要与故障盘相同。
  • 了解替换后的自动重建:对于大多数现代RAID卡,在热插拔替换故障盘后,它会自动开始重建RAID 5阵列。你可以通过 storcli /c0 /vall showcat /proc/mdstat 来监控重建进度。
最后修改:2026 年 04 月 14 日
如果觉得我的文章对你有用,请随意赞赏