常见告警列表
告警名称 | 说明 |
---|---|
KubeContainerOOMKilled | 容器因内存耗尽(Out Of Memory)被系统强制终止。 |
KubeContainerRestart | 容器因异常退出后被自动重启。 |
KubeContainerWaiting | 容器处于 Waiting 状态且持续时间过长,可能无法正常启动。 |
KubePodCrashLooping | Pod 中的容器反复崩溃并重启,进入 CrashLoopBackOff 状态。 |
KubePodNotReady | Pod 未达到就绪状态,无法接收流量。 |
KubeContainerOOMKilled
说明
容器因内存耗尽(Out Of Memory)被系统强制终止。
触发目标
容器
触发条件
5分钟内,容器被系统强制终止。
常见原因
- 容器的内存资源限制(limits.memory)设置过低,无法满足应用需求。
- 应用存在内存泄漏,导致内存使用量持续增长。
- 节点资源不足,触发系统级 OOM Killer 终止容器。
KubeContainerRestart
说明
容器因异常退出后被自动重启。
触发条件
容器在 5分钟 内重启次数超过 0次。
常见原因
- 容器进程崩溃或异常退出(如代码错误、未捕获异常);
- 存活探针(Liveness Probe)配置不合理,导致容器被误杀。
- 资源不足(CPU/内存)导致容器反复崩溃。
- 容器启动命令或参数错误(如配置文件缺失)。
KubeContainerWaiting
说明
容器处于 Waiting 状态且持续时间过长,可能无法正常启动。
触发条件
容器 处于 等待 状态超过1小时
常见原因
- ImagePullBackOff:镜像拉取失败(如镜像不存在、权限不足、网络问题)。
- CrashLoopBackOff:容器启动后立即崩溃(参考 KubePodCrashLooping 告警)。
- CreateContainerError:容器创建失败(如存储卷挂载错误、安全策略限制)。
- 节点资源不足(如 CPU、内存、磁盘空间)。
KubePodCrashLooping
说明
Pod 中的容器反复崩溃并重启,进入 CrashLoopBackOff 状态。
触发条件
容器启动后立即崩溃 (CrashLoopBackOff) 状态,持续超过15分钟
常见原因
- 应用启动时发生致命错误(如配置错误、依赖服务不可用)。
- 资源配额不足(如内存不足触发 OOMKilled)。
- 存活探针(Liveness Probe)过于敏感,导致容器被频繁重启。
- 外部依赖异常:如数据库、API 服务无法连接。
KubePodNotReady
说明
Pod 未达到就绪状态,无法接收流量。
触发条件
Pod 的 Ready 状态持续为 false 超过 15分钟。
常见原因
- 容器未就绪:容器仍在启动或就绪探针(readinessProbe)失败。
- 资源问题:节点资源不足(CPU/内存/存储)或调度失败(如未满足节点选择器)。
- 网络问题:网络插件异常、端口冲突或 CNI 配置错误。
- 依赖异常:依赖的存储卷(PV/PVC)未挂载或配置错误。
- 节点故障:节点宕机或处于维护状态(如 NotReady 节点)。
作者:叶奕珺 创建时间:2025-04-07 15:01
最后编辑:叶奕珺 更新时间:2025-04-07 16:06
最后编辑:叶奕珺 更新时间:2025-04-07 16:06