本文将引导你如何在界面上操作更换故障硬盘。

OSD 换盘操作权威指南

本文将为你提供一套标准化、高可靠性的故障硬盘更换流程,通过精细的步骤管控与风险隔离,确保在换盘过程中集群存储服务稳定无中断,数据安全性与高可用性得到全方位保障。

第一步 全局操作隔离(设置标签)

在左侧导航栏精准定位 集群管理 -> 磁盘 模块,进入磁盘全局管控页面。点击集群磁盘控制按钮,启用以下核心

  • 防护策略:
    • 禁止擦除:阻断集群定期的数据完整性校验擦除操作,避免换盘期间的性能波动。
    • 禁止深度擦除:暂停资源密集型的深度数据校验,为换盘操作预留充足系统资源。
    • 禁止覆盖:当集群中磁盘离线或数据缺失时,自动放弃数据恢复流程,防止换盘过程中出现意外数据写入。
    • 暂停放置组回填:停止 PG(放置组)数据的自动回填机制,避免数据迁移对换盘操作的干扰。
    • 不进行重新平衡:冻结集群数据分布的自动平衡逻辑,确保换盘前后数据布局的一致性。
  • 这套策略构建了换盘操作的 “安全隔离带”,从根本上规避了集群自动操作对换盘流程的冲击。

第二步 精准定位目标(确认盘符)

在 集群管理 -> 磁盘 页面,点击目标 OSD 盘的名称,进入元数据详情界面。

  • 通过节点标识与设备盘符的双重校验,实现故障盘的精准定位:
    • 所在节点:通过hostname关键字锁定 OSD 所属的物理 / 虚拟节点,确保操作对象无偏差。
    • 设备名称:借助devices关键字明确磁盘在系统中的设备路径(如/dev/sdb),为后续操作提供精准依据。
  • 此步骤是换盘操作 “精准打击” 的关键,避免因定位错误引发的连锁故障。

第三步 有序下架故障盘

  • 返回 集群管理 -> 磁盘 主界面,针对目标 OSD 盘执行分级下架操作:
  • 标出:将 OSD 标记为待维护状态,集群自动规避该盘的读写操作。
  • 标下架:正式将 OSD 从集群服务中隔离,确保数据不再流向该盘。
  • 删除:从集群配置中移除该 OSD 的记录,完成逻辑层面的下架。
  • 执行删除后,需耐心等待界面刷新,确认故障盘已从列表中消失,标志着逻辑下架流程圆满完成。

第四步 彻底清理磁盘残留

彻底清理磁盘残留

登录故障盘所属节点的服务器,执行底层磁盘清理操作,为新盘接入做好准备:

  • 执行lsblk命令,全景式查看磁盘映射关系,明确待清理的目标。
  • 利用dmsetup remove [映射名称]命令,彻底删除磁盘的逻辑映射,解除系统对该盘的关联。
  • 执行wipefs -af /dev/[盘符](如wipefs -af /dev/vdc),强力擦除磁盘上的所有分区表与文件系统残留,确保新盘接入时无历史数据干扰。
  • 这一步是物理换盘前的 “最后一公里”,保障新盘以 “纯净态” 接入集群。

第五步 物理换盘(机房操作)

在服务器机房执行硬件级换盘操作:小心拔出故障硬盘,插入全新硬盘,确保硬盘与服务器接口连接稳固。此操作需严格遵循服务器硬件操作规范,避免因物理操作不当引发的硬件损坏。

第六步 自动纳管新盘

自动纳管新盘

新硬盘接入后,Ceph 集群将自动识别并完成新 OSD 的创建流程。可在 集群管理 -> 磁盘 页面实时监控新 OSD 的状态,当新 OSD 显示为 “in up” 时,标志着新盘已成功纳入集群存储体系,数据服务能力自动恢复。

第七步 解除操作隔离(取消设置标签)

步骤如下:

  • 回到 集群管理 -> 磁盘 页面,点击集群磁盘控制按钮。
  • 关闭 “禁止擦除”“禁止深度擦除”“禁止覆盖”“暂停放置组回填”“不进行重新平衡” 开关。
  • 此时集群将恢复所有自动数据管理与平衡功能,存储服务回归全功能运行状态,换盘操作圆满收官。
作者:束鹏  创建时间:2025-10-27 14:38
最后编辑:吴升斌  更新时间:2026-01-30 09:42