一、目的
本文作为平台安全使用规范,聚焦架构设计、平台使用、售后支持全流程,用以保障云平台资源的高效合理使用,以及平台的长期稳定运行。
二、架构部署安全规范
本规范基于 MStack v1.1 分布式云平台架构制定,核心目标为保障生产环境架构高可用、高可靠。
2.1 测试 / 临时展示架构限制
- MStack v1.1云平台 all-in-one 一体化架构,仅允许用于临时功能演示、单机测试场景,禁止部署任何生产级业务。该架构因单节点部署无容灾能力,易因硬件故障、系统崩溃导致业务完全中断。
2.2 生产环境架构要求
- 节点数量:生产环境 MStack v1.1集群控制节点、计算节点总数不得少于 3 个,且需满足控制节点奇数部署。
- 硬件物理隔离:所有服务器禁止集中部署在同一机柜、接入同一电源回路,需跨机柜、跨配电单元部署,规避机柜故障、区域性断电导致集群瘫痪。
- MStack 组件部署:核心组件(Nova、Neutron、Cinder、Glance)需基于 MStack v1.1 的高可用部署规范,配置多实例负载均衡,避免单点故障。
三、资源分配安全规则
为保障云平台集群资源调度稳定性,避免资源超分导致业务卡顿、集群宕机,资源分配需遵循以下规则:
3.1 预留资源基准
- 集群需预先保留单台计算节点的完整 CPU、内存资源作为应急冗余。例如集群包含 10 台 128 核计算节点,需整体预留 128 核 CPU 资源;若单节点内存为 512GB,则需预留 512GB 内存资源,预留资源禁止分配给任何业务。
3.2 资源分配上限
- CPU、内存资源的可分配总量为 “集群总可用资源 - 预留资源”,单个业务租户的资源分配不得超过可分配总量的 1/3,避免单一租户占用过多资源引发集群资源饥饿。
- 基于 MStack v1.1 的资源调度策略,为业务虚拟机配置资源时,同时禁止设置超过物理节点规格的超分比例(CPU 超分比≤4:1,内存禁止超分)。
- 若总体资源使用率触及 70% 警戒线,应立即统筹推进现有资源的优化调配、闲置 “僵尸资源” 的清理释放,同步研判扩容需求。
四、集群开关机维护规范
为避免因开关机操作不当导致 MStack集群数据损坏、服务异常,具体步骤参考《云平台停机维护步骤》和《断电恢复流程》。
步骤总结如下:
关机步骤:
- 检查所有虚拟机状态为关闭状态
- 停机维护前检查,调整masakari服务中计算节点状态为维护中:在该节点恢复正常后维护模式改为true(如有masakari)
- 云平台停机维护步骤:依次关闭计算、控制、网络和控制节点,控制节点最后关闭vip所在节点
开机步骤(与停机步骤相反)
- 依次开启控制、网络、存储、计算节点,控制节点最先开启vip节点,等启动完毕后再启动下一台
- 调整masakari服务中计算节点状态为维护中:在该节点恢复正常后维护模式改为false(如有masakari)
- 检查prometheus,无告警,有则修复
- 创建测试虚拟机,测试云平台虚拟机功能是否正常
- 开启之前关闭的虚拟机
五、售后变更流程规范
为了消除或减少由于不规范变更而引起的潜在事故隐患,特做此变更规范说明:
- 变更管理是对环境、变更步骤、操作方法等永久性或暂时性的变化进行有计划的控制和管理。以避免由于不规范变更造成的对安全生产的影响。
- 实施变更前,变更申请人应写出变更申请单,明确说明变更的内容、方法和范围。
- 对变更内容必须进行必要的风险分析(评估),确定变更产生的风险,制定出行之有效的回退方案。
- 变更操作步骤,尽量通过以下步骤来进行:
- 对涉及修改的配置文件进行备份
- 对涉及修改的配置文件,尽量不直接修改服务对应的配置文件,而是修改/etc/kolla/config/对应项来进行,这样可以避免后续升级或其他步骤导致的覆盖掉此次变更内容。
作者:束鹏 创建时间:2026-01-27 09:49
最后编辑:束鹏 更新时间:2026-01-30 09:36
最后编辑:束鹏 更新时间:2026-01-30 09:36