Files
grafana-terraform/environments/dev/adibrov/alerts/containers/container_oom.yaml

20 lines
694 B
YAML
Raw Normal View History

name: "DEV ADIBROV - Container OOM Killed"
expression: |
increase(container_oom_events_total{job="cadvisor", name!=""}[5m])
threshold: 0
for: "1m"
condition_type: "gt"
need_reduce: true
reducer_type: "sum"
no_data_state: "OK"
exec_err_state: "Error"
labels:
service: "containers"
severity: "critical"
team: "infra"
summary: |
Контейнер {{ $labels.name }} убит OOM killer на {{ $labels.instance }}
description: |
Контейнер {{ $labels.name }} на {{ $labels.instance }} был убит ядром из-за нехватки памяти.
Нужно проверить лимиты памяти контейнера и текущее потребление.