Add dashboard UID auto-generation and Gitea CI workflow
This commit is contained in:
@ -0,0 +1,31 @@
|
||||
name: "DEV ADIBROV - Low Disk Space (10%) - VCMT Nodes TEST ALLERT DEV"
|
||||
expression: |
|
||||
100 - (
|
||||
node_filesystem_avail_bytes{
|
||||
instance=~"ydx-.*:9100",
|
||||
mountpoint!~"^(/sys.*|/proc.*|/dev.*|/run.*|/boot.*)$",
|
||||
fstype=~"(zfs|xfs|ext.)"
|
||||
}
|
||||
* 100
|
||||
/
|
||||
node_filesystem_size_bytes{
|
||||
instance=~"ydx-.*:9100",
|
||||
mountpoint!~"^(/sys.*|/proc.*|/dev.*|/run.*|/boot.*)$",
|
||||
fstype=~"(zfs|xfs|ext.)"
|
||||
}
|
||||
)
|
||||
threshold: 90
|
||||
for: "1m"
|
||||
condition_type: "gt"
|
||||
need_reduce: true
|
||||
reducer_type: "min"
|
||||
no_data_state: "NoData"
|
||||
exec_err_state: "Error"
|
||||
labels:
|
||||
service: "system"
|
||||
severity: "critical"
|
||||
status: "test"
|
||||
summary: |
|
||||
{{ printf "%.0f" $values.B.Value }}% Usage on {{ $labels.mountpoint }} ({{ $labels.instance }})
|
||||
description: |
|
||||
ТЕСТОВЫЙ АЛЛЕРТ В ДЕВ КОНТУРЕ!!!! НЕ РЕАГИРОВАТЬ!!!!
|
||||
@ -0,0 +1,20 @@
|
||||
name: "DEV ADIBROV - Vmagent Persistent Queue Is Dropping DataTEST ALLERT DEV"
|
||||
expression: |
|
||||
sum(increase(vm_persistentqueue_bytes_dropped_total{job=~".*agent.*"}[5m])) without (path) > 0
|
||||
threshold: 0
|
||||
for: "10m"
|
||||
condition_type: "gt"
|
||||
need_reduce: true
|
||||
reducer_type: "sum"
|
||||
no_data_state: "OK"
|
||||
exec_err_state: "KeepLast"
|
||||
labels:
|
||||
service: "vmagent"
|
||||
severity: "critical"
|
||||
status: "test"
|
||||
summary: |
|
||||
Инстанс {{ $labels.instance }} сбрасывает данные из переполненного буфера.
|
||||
description: |
|
||||
VMAgent-у на инстансе {{ $labels.instance }} пришлось сбросить данные из дискового буфера.
|
||||
|
||||
**Влияние: ПРОИСХОДИТ АКТИВНАЯ ПОТЕРЯ МЕТРИК!** Дисковый буфер переполнен, и vmagent удаляет старые данные, чтобы освободить место для новых.
|
||||
@ -0,0 +1,20 @@
|
||||
name: "DEV ADIBROV - Vmagent Too Many Scrape ErrorsTEST ALLERT DEV"
|
||||
expression: |
|
||||
increase(vm_promscrape_scrapes_failed_total{job=~".*agent.*"}[5m]) > 35
|
||||
threshold: 40 # временный порог
|
||||
for: "15m"
|
||||
condition_type: "gt"
|
||||
need_reduce: false
|
||||
no_data_state: "OK"
|
||||
exec_err_state: "KeepLast"
|
||||
labels:
|
||||
service: "vmagent"
|
||||
severity: "warning"
|
||||
status: "test"
|
||||
summary: |
|
||||
Vmagent не может собрать один или несколько target'ов на инстансе {{ $labels.instance }}.
|
||||
description: |
|
||||
Job "{{ $labels.job }}" на инстансе {{ $labels.instance }} не может успешно скрапить target'ы в течение последних 15 минут.
|
||||
|
||||
**Влияние:** ПРОИСХОДИТ ПРЯМАЯ ПОТЕРЯ МЕТРИК ОТ ЦЕЛЕВОГО СЕРВИСА!
|
||||
Вы не получаете данные от одного или нескольких наблюдаемых сервисов. Дашборды и алерты, связанные с этими target'ами, будут показывать неполную или устаревшую информацию в мониторинге.
|
||||
@ -0,0 +1,29 @@
|
||||
name: "DEV ADIBROV - Критически мало места на диске (свободно 10%)TEST ALLERT DEV"
|
||||
expression: |
|
||||
(
|
||||
100
|
||||
- (
|
||||
node_filesystem_avail_bytes{job="self-monitoring", mountpoint!~"^(/sys|/proc|/dev|/run|/boot).*", fstype=~"(zfs|xfs|ext.)"}
|
||||
* 100
|
||||
/ node_filesystem_size_bytes{job="self-monitoring", mountpoint!~"^(/sys|/proc|/dev|/run|/boot).*", fstype=~"(zfs|xfs|ext.)"}
|
||||
)
|
||||
)
|
||||
threshold: 90
|
||||
for: "5m"
|
||||
condition_type: "gt"
|
||||
need_reduce: true
|
||||
reducer_type: "max"
|
||||
no_data_state: "OK"
|
||||
exec_err_state: "Error"
|
||||
labels:
|
||||
service: "system"
|
||||
severity: "critical"
|
||||
status: "test"
|
||||
summary: |
|
||||
Disk usage {{ printf "%.0f" $values.B.Value }}% on {{ $labels.mountpoint }} ({{ $labels.instance }})
|
||||
description: |
|
||||
На {{ $labels.mountpoint }} у {{ $labels.instance }} осталось менее 10% свободного места.
|
||||
Это сигнализирует о критически высоком риске остановки записи, сбоев сервисов и ошибок приложений.
|
||||
|
||||
Что проверить:
|
||||
1ТЕСТОВЫЙ АЛЛЕРТ В ДЕВ КОНТУРЕ!!!! НЕ РЕАГИРОВАТЬ!!!!
|
||||
@ -0,0 +1,29 @@
|
||||
name: "DEV ADIBROV - Мало места на диске (свободно 20%)TEST ALLERT DEV"
|
||||
expression: |
|
||||
(
|
||||
100
|
||||
- (
|
||||
node_filesystem_avail_bytes{job="self-monitoring", mountpoint!~"^(/sys|/proc|/dev|/run|/boot).*", fstype=~"(zfs|xfs|ext.)"}
|
||||
* 100
|
||||
/ node_filesystem_size_bytes{job="self-monitoring", mountpoint!~"^(/sys|/proc|/dev|/run|/boot).*", fstype=~"(zfs|xfs|ext.)"}
|
||||
)
|
||||
)
|
||||
threshold: 80
|
||||
for: "5m"
|
||||
condition_type: "gt"
|
||||
need_reduce: true
|
||||
reducer_type: "max"
|
||||
no_data_state: "OK"
|
||||
exec_err_state: "Error"
|
||||
labels:
|
||||
service: "system"
|
||||
severity: "warning"
|
||||
status: "test"
|
||||
summary: |
|
||||
Disk usage {{ printf "%.0f" $values.B.Value }}% on {{ $labels.mountpoint }} ({{ $labels.instance }})
|
||||
description: |
|
||||
На {{ $labels.mountpoint }} у {{ $labels.instance }} осталось менее 20% свободного места.
|
||||
Это сигнализирует о быстром приближении к исчерпанию места и риске деградации записи.
|
||||
|
||||
Что проверить:
|
||||
ТЕСТОВЫЙ АЛЛЕРТ В ДЕВ КОНТУРЕ!!!! НЕ РЕАГИРОВАТЬ!!!!
|
||||
@ -0,0 +1,29 @@
|
||||
name: "DEV ADIBROV - Мало места на диске (свободно 30%)TEST ALLERT DEV"
|
||||
expression: |
|
||||
(
|
||||
100
|
||||
- (
|
||||
node_filesystem_avail_bytes{job="self-monitoring", mountpoint!~"^(/sys|/proc|/dev|/run|/boot).*", fstype=~"(zfs|xfs|ext.)"}
|
||||
* 100
|
||||
/ node_filesystem_size_bytes{job="self-monitoring", mountpoint!~"^(/sys|/proc|/dev|/run|/boot).*", fstype=~"(zfs|xfs|ext.)"}
|
||||
)
|
||||
)
|
||||
threshold: 70
|
||||
for: "5m"
|
||||
condition_type: "gt"
|
||||
need_reduce: true
|
||||
reducer_type: "max"
|
||||
no_data_state: "OK"
|
||||
exec_err_state: "Error"
|
||||
labels:
|
||||
service: "system"
|
||||
severity: "warning"
|
||||
status: "test"
|
||||
summary: |
|
||||
Disk usage {{ printf "%.0f" $values.B.Value }}% on {{ $labels.mountpoint }} ({{ $labels.instance }})
|
||||
description: |
|
||||
На {{ $labels.mountpoint }} у {{ $labels.instance }} осталось менее 30% свободного места.
|
||||
Это сигнализирует о раннем риске заполнения диска и необходимости плановой очистки.
|
||||
|
||||
Что проверить:
|
||||
ТЕСТОВЫЙ АЛЛЕРТ В ДЕВ КОНТУРЕ!!!! НЕ РЕАГИРОВАТЬ!!!!
|
||||
Reference in New Issue
Block a user