-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathprod-gcp-alerts.yml
49 lines (49 loc) · 2.43 KB
/
prod-gcp-alerts.yml
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
apiVersion: monitoring.coreos.com/v1
kind: PrometheusRule
metadata:
name: digisos-alerts
namespace: teamdigisos
labels:
team: teamdigisos
spec:
groups:
- name: digisos-dev-gcp-alerts
rules:
- alert: digisos-app-nede
expr: kube_deployment_status_replicas_available{app=~"sosialhjelp-avtaler-api|sosialhjelp-avtaler|sosialhjelp-soknad-api|sosialhjelp-innsyn|sosialhjelp-innsyn-api"} == 0
for: 2m
annotations:
consequence: Applikasjon er utilgjengelig
action: "Se `kubectl describe pod {{ $labels.pod }}` for events, og `kubectl logs {{ $labels.pod }}` for logger"
summary: "{{ $labels.deployment }} er nede i prod-gcp"
labels:
namespace: teamdigisos
severity: danger
- alert: digisos-app-kontinuerlig-restart
expr: sum(increase(kube_pod_container_status_restarts_total{container=~"sosialhjelp-avtaler-api|sosialhjelp-avtaler|sosialhjelp-soknad-api|sosialhjelp-innsyn|sosialhjelp-innsyn-api"}[30m])) by (container) > 2
for: 5m
annotations:
consequence: Applikasjon kan være ustabil
action: "Se `kubectl describe pod {{ $labels.container }}` for events, og `kubectl logs {{ $labels.container }}` for logger"
summary: "{{ $labels.container }} har restartet flere ganger siste halvtimen!"
labels:
namespace: teamdigisos
severity: danger
- alert: høy feilrate i logger
expr: (600 * sum by (app, namespace) (rate(log_messages_errors{app=~"sosialhjelp-avtaler-api|sosialhjelp-avtaler|sosialhjelp-soknad|sosialhjelp-soknad-api|sosialhjelp-innsyn|sosialhjelp-innsyn-api",level="Error"}[10m]))) > 10
for: 3m
annotations:
consequence: Applikasjon kan være ustabil
action: "Sjekk loggene til app {{ $labels.app }} for å se hvorfor det er så mye feil"
summary: "Høy feilrate i {{ $labels.app }}"
labels:
namespace: teamdigisos
- alert: feil i selftest
expr: selftests_aggregate_result_status{namespace="teamdigisos"} == 1
for: 1m
annotations:
consequence: Applikasjon kan være ustabil
action: "Sjekk {{ $labels.app }} i prod-gcp sin selftest for å se hva som er galt"
description: "Feil i selftest - {{ $labels.app }} i prod-gcp"
labels:
namespace: teamdigisos