一、目的

本文作为平台安全使用规范,聚焦架构设计、平台使用、售后支持全流程,用以保障云平台资源的高效合理使用,以及平台的长期稳定运行。

二、架构部署安全规范

本规范基于 MStack v1.1 分布式云平台架构制定,核心目标为保障生产环境架构高可用、高可靠。

2.1 测试 / 临时展示架构限制

  • MStack v1.1云平台 all-in-one 一体化架构,仅允许用于临时功能演示、单机测试场景,禁止部署任何生产级业务。该架构因单节点部署无容灾能力,易因硬件故障、系统崩溃导致业务完全中断。

2.2 生产环境架构要求

  • 节点数量:生产环境 MStack v1.1集群控制节点、计算节点总数不得少于 3 个,且需满足控制节点奇数部署。
  • 硬件物理隔离:所有服务器禁止集中部署在同一机柜、接入同一电源回路,需跨机柜、跨配电单元部署,规避机柜故障、区域性断电导致集群瘫痪。
  • MStack 组件部署:核心组件(Nova、Neutron、Cinder、Glance)需基于 MStack v1.1 的高可用部署规范,配置多实例负载均衡,避免单点故障。

三、资源分配安全规则

为保障云平台集群资源调度稳定性,避免资源超分导致业务卡顿、集群宕机,资源分配需遵循以下规则:

3.1 预留资源基准

  • 集群需预先保留单台计算节点的完整 CPU、内存资源作为应急冗余。例如集群包含 10 台 128 核计算节点,需整体预留 128 核 CPU 资源;若单节点内存为 512GB,则需预留 512GB 内存资源,预留资源禁止分配给任何业务。

3.2 资源分配上限

  • CPU、内存资源的可分配总量为 “集群总可用资源 - 预留资源”,单个业务租户的资源分配不得超过可分配总量的 1/3,避免单一租户占用过多资源引发集群资源饥饿。
  • 基于 MStack v1.1 的资源调度策略,为业务虚拟机配置资源时,同时禁止设置超过物理节点规格的超分比例(CPU 超分比≤4:1,内存禁止超分)。
  • 若总体资源使用率触及 70% 警戒线,应立即统筹推进现有资源的优化调配、闲置 “僵尸资源” 的清理释放,同步研判扩容需求。

四、集群开关机维护规范

为避免因开关机操作不当导致 MStack集群数据损坏、服务异常,具体步骤参考《云平台停机维护步骤》和《断电恢复流程》。

步骤总结如下:

  • 关机步骤:

    • 检查所有虚拟机状态为关闭状态
    • 停机维护前检查,调整masakari服务中计算节点状态为维护中:在该节点恢复正常后维护模式改为true(如有masakari)
    • 云平台停机维护步骤:依次关闭计算、控制、网络和控制节点,控制节点最后关闭vip所在节点
  • 开机步骤(与停机步骤相反)

    • 依次开启控制、网络、存储、计算节点,控制节点最先开启vip节点,等启动完毕后再启动下一台
    • 调整masakari服务中计算节点状态为维护中:在该节点恢复正常后维护模式改为false(如有masakari)
    • 检查prometheus,无告警,有则修复
    • 创建测试虚拟机,测试云平台虚拟机功能是否正常
    • 开启之前关闭的虚拟机

五、售后变更流程规范

为了消除或减少由于不规范变更而引起的潜在事故隐患,特做此变更规范说明:

  • 变更管理是对环境、变更步骤、操作方法等永久性或暂时性的变化进行有计划的控制和管理。以避免由于不规范变更造成的对安全生产的影响。
  • 实施变更前,变更申请人应写出变更申请单,明确说明变更的内容、方法和范围。
  • 对变更内容必须进行必要的风险分析(评估),确定变更产生的风险,制定出行之有效的回退方案。
  • 变更操作步骤,尽量通过以下步骤来进行:
    • 对涉及修改的配置文件进行备份
    • 对涉及修改的配置文件,尽量不直接修改服务对应的配置文件,而是修改/etc/kolla/config/对应项来进行,这样可以避免后续升级或其他步骤导致的覆盖掉此次变更内容。
作者:束鹏  创建时间:2026-01-27 09:49
最后编辑:束鹏  更新时间:2026-01-30 09:36