一、目的
本文为规范 MStore 存储集群的运维管理与使用流程,明确存储网络配置、架构部署、容量管控及健康维护的核心要求,防范因配置不当、容量超限、集群异常等问题引发的平台可用性风险,确保云平台资源合理利用,特制定本规范。
二、核心原则
- 稳定性优先:所有操作以保障集群持续运行、数据一致性为首要前提,严禁执行可能引发集群震荡的非合规操作。
- 预防为主:强化事前部署规范、事中实时监控、事后复盘优化的全流程管控,降低故障发生概率。
- 合规操作:所有配置修改、运维操作需履行审批流程并留存日志。
- 数据安全:依托集群副本机制与备份策略,确保数据在故障场景下可快速恢复,杜绝数据丢失风险。
三、 存储架构设计规范
3.1 测试 / 临时展示架构限制
- MStore all-in-one 一体化架构,仅允许用于临时功能演示、单机测试场景,禁止部署任何生产级业务。该架构因单节点部署无容灾能力,易因硬件故障、系统崩溃导致业务完全中断。
3.2 生产环境架构要求
- 硬件物理隔离:所有服务器禁止集中部署在同一机柜、接入同一电源回路,需跨机柜、跨配电单元部署,规避机柜故障、区域性断电导致集群瘫痪。
- 节点数量:生产环境MStore集群节点总数不得少于 3 个。
- cpu和内存预留:一个1T的osd,按照1G内存/1core CPU预留,不足1T的按1T算
- MStore 组件部署:核心组件需基于 MStore 的高可用部署规范,配置多实例负载均衡,避免单点故障。
- public 和cluster 网络:尽量用不同的vlan隔离开来,并且是物理隔离,避免客户端流量与集群内部复制、心跳、恢复等流量竞争带宽,提升数据复制效率,降低恢复时间;卡尽量做bond4(交换机需要配置LACP)
- 副本模式:强制启用三副本存储模式,禁止将副本数修改为2或1;同时设置
min_size 2,确保单副本故障时仍可提供读写服务,保障业务连续性。 - 故障域:分布式存储故障域是host,在存储服务器数量大于15台,架构师需要参与设计,决定是否更改故障阈
四、存储使用规范
4.1 容量阈值管控
当 MStore存储集群 整体容量使用率达到 70% 时,运维人员必须立即启动扩容流程,可选择新增 OSD 存储节点或替换更大容量硬盘;若短期内无法扩容,需清理无效镜像、过期快照、闲置卷等数据,将容量使用率降至 70% 以下,避免触发MStore 的容量告警阈值(85%)导致数据写入失败。
4.2 存储健康维护
定期检查 MStore 集群状态,确保集群状态为HEALTH_OK;若出现 PG(放置组)不均衡、OSD 宕机等异常,需在业务低谷期操作,避免影响业务的存储读写。
五、售后变更流程规范
为了消除或减少由于不规范变更而引起的潜在事故隐患,特做此变更规范说明:
- 变更管理是对环境、变更步骤、操作方法等永久性或暂时性的变化进行有计划的控制和管理。以避免由于不规范变更造成的对安全生产的影响。
- 实施变更前,变更申请人应写出变更申请单,明确说明变更的内容、方法和范围。
- 对变更内容必须进行必要的风险分析(评估),确定变更产生的风险,制定出行之有效的回退方案。
六、应急处置规范
6.1 应急处置原则
遵循“先止血、后排查、再恢复、终复盘”的原则,优先保障业务连续性与数据安全;紧急故障(如集群宕机、数据写入失败)需立即通知业务部门,确认影响范围后在授权范围内操作,全程记录操作日志与故障现象。
6.2 常见故障处置流程
6.2.1 集群状态非HEALTH_OK告警
- PG不均衡/卡住:执行
ceph pg stat、ceph pg map {pg-id}定位异常PG,临时卡顿等待集群自动均衡(1-2小时);超过2小时未恢复,执行ceph pg reweight-by-utilization手动触发均衡,监控均衡进度至完成。 - OSD节点宕机:确认节点宕机原因(硬件故障、网络中断),若为网络中断,恢复网络后等待节点自动重新加入集群;若为硬件故障,标记故障OSD为out(
ceph osd out {osd-id}),替换硬件后重启节点,将OSD重新加入集群(ceph osd in {osd-id}),监控数据副本同步。 - Monitor节点异常:单个Monitor节点故障,无需手动干预,集群自动切换至其他健康节点;多个Monitor节点故障,需优先恢复核心Monitor节点,确保集群元数据服务正常。
6.2.2 网络故障导致集群通信异常
快速排查故障链路(public/cluster网络),通过ping、traceroute命令定位故障点(交换机、网卡、链路);若为链路故障,切换备用链路;若为配置异常,恢复网络配置至最近可用版本,重启网络服务;cluster网络恢复后,重点监控数据副本同步状态,确保集群心跳与数据一致性。
作者:束鹏 创建时间:2026-01-27 14:16
最后编辑:束鹏 更新时间:2026-01-30 09:42
最后编辑:束鹏 更新时间:2026-01-30 09:42