Add dashboard UID auto-generation and Gitea CI workflow
This commit is contained in:
@ -0,0 +1,20 @@
|
||||
name: "Vmagent Persistent Queue Is Dropping Data"
|
||||
expression: |
|
||||
sum(increase(vm_persistentqueue_bytes_dropped_total{job=~".*agent.*"}[5m])) without (path) > 0
|
||||
threshold: 0
|
||||
for: "10m"
|
||||
condition_type: "gt"
|
||||
need_reduce: true
|
||||
reducer_type: "sum"
|
||||
no_data_state: "OK"
|
||||
exec_err_state: "KeepLast"
|
||||
labels:
|
||||
service: "vmagent"
|
||||
severity: "critical"
|
||||
status: "test"
|
||||
summary: |
|
||||
Инстанс {{ $labels.instance }} сбрасывает данные из переполненного буфера.
|
||||
description: |
|
||||
VMAgent-у на инстансе {{ $labels.instance }} пришлось сбросить данные из дискового буфера.
|
||||
|
||||
**Влияние: ПРОИСХОДИТ АКТИВНАЯ ПОТЕРЯ МЕТРИК!** Дисковый буфер переполнен, и vmagent удаляет старые данные, чтобы освободить место для новых.
|
||||
@ -0,0 +1,20 @@
|
||||
name: "VictoriaMetrics components down"
|
||||
expression: |
|
||||
up{job=~".*(agent|vminsert|vmselect|vmstorage|vmauth).*"} == 0
|
||||
threshold: 0
|
||||
for: "3m"
|
||||
condition_type: "eq"
|
||||
need_reduce: true
|
||||
reducer_type: "last"
|
||||
no_data_state: "OK"
|
||||
exec_err_state: "Error"
|
||||
labels:
|
||||
service: "vmcomponents"
|
||||
severity: "critical"
|
||||
status: "test"
|
||||
summary: |
|
||||
VictoriaMetrics компонент '{{ $labels.job }}' на инстансе {{ $labels.instance }} не отвечает.
|
||||
description: |
|
||||
Компонент VictoriaMetrics '{{ $labels.job }}' на инстансе {{ $labels.instance }} перестал отвечать на запросы.
|
||||
|
||||
**Влияние**: Это критический компонент инфраструктуры мониторинга. Его отказ может привести к потере метрик, неработающим дашбордам или остановке системы алертинга.
|
||||
@ -0,0 +1,20 @@
|
||||
name: "VictoriaMetrics Too Many Warning or Error Logs"
|
||||
expression: |
|
||||
sum(increase(vm_log_messages_total{level!="info", job=~".*(agent|vminsert|vmselect|vmstorage|vmauth).*"}[5m])) without (app_version, location, is_printed) > 35
|
||||
threshold: 40
|
||||
condition_type: "gt"
|
||||
for: "15m"
|
||||
need_reduce: true
|
||||
reducer_type: "last"
|
||||
no_data_state: "OK"
|
||||
exec_err_state: "Error"
|
||||
labels:
|
||||
service: "vmcomponents"
|
||||
severity: "warning"
|
||||
status: "test"
|
||||
summary: |
|
||||
Слишком много сообщений типа "error"/"warning" по {{ $labels.job }} от инстанса {{ $labels.instance }}.
|
||||
description: |
|
||||
Компонент '{{ $labels.job }}' (инстанс {{ $labels.instance }}) генерирует слишком много логов уровня 'warning' или 'error'.
|
||||
|
||||
**Влияние:** Это указывает на наличие скрытых проблем, которые могут привести к деградации производительности или будущим сбоям.
|
||||
Reference in New Issue
Block a user