Stack monitoring
Observabilité + alerting. Fichier : compose/monitoring/docker-compose.yml.
Vue transverse (qui alerte quoi, canaux) : Monitoring & alerting.
Métriques & logs
| Service |
IP |
Port |
Rôle |
| grafana |
.9 |
3000 |
dashboards (Prometheus, Loki, InfluxDB) → grafana.tichnou.fr ; user jonathan |
| prometheus |
.10 |
9090 |
métriques, rétention 10 ans ; basic-auth web.yml |
| cadvisor |
.11 |
8081 |
métriques par conteneur (privileged) |
| nodeexporter |
.20 |
9100 |
métriques hôte (/proc, /sys, /) |
| intel-gpu-exporter |
.28 |
9125 |
métriques iGPU (build/, /dev/dri, SYS_ADMIN) |
| loki |
.26 |
3100 |
agrégation de logs |
| promtail |
.27 |
— |
expédie les logs Docker → Loki |
Alerting & auto-réparation
| Service |
IP |
Rôle |
| gatus |
.50 |
sondes up/down (HA, MQTT, bases, Grafana, mailu…) → email via mailu ; UI :8084 |
| health-alerter |
.14 |
écoute les events Docker unhealthy → webhook HA |
| autoheal |
host net |
redémarre les conteneurs unhealthy (ceux qui ont un healthcheck) |
| raid-monitor |
.8 |
surveille md0 → webhook HA (OK/DEGRADED/MISSING/MISMATCH) |
| healthchecks-ping |
— |
dead-man's switch externe (Healthchecks.io) : NUC (inconditionnel), HA & Z2M (si répondent) |
- Secrets via
.env : PASSWORD, SMTP_PASSWORD (Gatus→mailu), HC_*_URL (Healthchecks).
influxdb est commenté (orphelin, .8 réattribué à raid-monitor — cf. plan d'adressage).