常见告警列表

告警名称 说明
KubeContainerOOMKilled 容器因内存耗尽(Out Of Memory)被系统强制终止。
KubeContainerRestart 容器因异常退出后被自动重启。
KubeContainerWaiting 容器处于 Waiting 状态且持续时间过长,可能无法正常启动。
KubePodCrashLooping Pod 中的容器反复崩溃并重启,进入 CrashLoopBackOff 状态。
KubePodNotReady Pod 未达到就绪状态,无法接收流量。

KubeContainerOOMKilled

说明

容器因内存耗尽(Out Of Memory)被系统强制终止。

触发目标

容器

触发条件

5分钟内,容器被系统强制终止。

常见原因

  1. 容器的内存资源限制(limits.memory)设置过低,无法满足应用需求。
  2. 应用存在内存泄漏,导致内存使用量持续增长。
  3. 节点资源不足,触发系统级 OOM Killer 终止容器。

KubeContainerRestart

说明

容器因异常退出后被自动重启。

触发条件

容器在 5分钟 内重启次数超过 0次。

常见原因

  1. 容器进程崩溃或异常退出(如代码错误、未捕获异常);
  2. 存活探针(Liveness Probe)配置不合理,导致容器被误杀。
  3. 资源不足(CPU/内存)导致容器反复崩溃。
  4. 容器启动命令或参数错误(如配置文件缺失)。

KubeContainerWaiting

说明

容器处于 Waiting 状态且持续时间过长,可能无法正常启动。

触发条件

容器 处于 等待 状态超过1小时

常见原因

  1. ImagePullBackOff:镜像拉取失败(如镜像不存在、权限不足、网络问题)。
  2. CrashLoopBackOff:容器启动后立即崩溃(参考 KubePodCrashLooping 告警)。
  3. CreateContainerError:容器创建失败(如存储卷挂载错误、安全策略限制)。
  4. 节点资源不足(如 CPU、内存、磁盘空间)。

KubePodCrashLooping

说明

Pod 中的容器反复崩溃并重启,进入 CrashLoopBackOff 状态。

触发条件

容器启动后立即崩溃 (CrashLoopBackOff) 状态,持续超过15分钟

常见原因

  1. 应用启动时发生致命错误(如配置错误、依赖服务不可用)。
  2. 资源配额不足(如内存不足触发 OOMKilled)。
  3. 存活探针(Liveness Probe)过于敏感,导致容器被频繁重启。
  4. 外部依赖异常:如数据库、API 服务无法连接。

KubePodNotReady

说明

Pod 未达到就绪状态,无法接收流量。

触发条件

Pod 的 Ready 状态持续为 false 超过 15分钟。

常见原因

  1. 容器未就绪:容器仍在启动或就绪探针(readinessProbe)失败。
  2. 资源问题:节点资源不足(CPU/内存/存储)或调度失败(如未满足节点选择器)。
  3. 网络问题:网络插件异常、端口冲突或 CNI 配置错误。
  4. 依赖异常:依赖的存储卷(PV/PVC)未挂载或配置错误。
  5. 节点故障:节点宕机或处于维护状态(如 NotReady 节点)。
作者:叶奕珺  创建时间:2025-04-07 15:01
最后编辑:叶奕珺  更新时间:2025-04-07 16:06