Aller au contenu

Stack monitoring

Observabilité + alerting. Fichier : compose/monitoring/docker-compose.yml. Vue transverse (qui alerte quoi, canaux) : Monitoring & alerting.

Métriques & logs

Service IP Port Rôle
grafana .9 3000 dashboards (Prometheus, Loki, InfluxDB) → grafana.tichnou.fr ; user jonathan
prometheus .10 9090 métriques, rétention 10 ans ; basic-auth web.yml
cadvisor .11 8081 métriques par conteneur (privileged)
nodeexporter .20 9100 métriques hôte (/proc, /sys, /)
intel-gpu-exporter .28 9125 métriques iGPU (build/, /dev/dri, SYS_ADMIN)
loki .26 3100 agrégation de logs
promtail .27 expédie les logs Docker → Loki

Alerting & auto-réparation

Service IP Rôle
gatus .50 sondes up/down (HA, MQTT, bases, Grafana, mailu…) → email via mailu ; UI :8084
health-alerter .14 écoute les events Docker unhealthywebhook HA
autoheal host net redémarre les conteneurs unhealthy (ceux qui ont un healthcheck)
raid-monitor .8 surveille md0webhook HA (OK/DEGRADED/MISSING/MISMATCH)
healthchecks-ping dead-man's switch externe (Healthchecks.io) : NUC (inconditionnel), HA & Z2M (si répondent)
  • Secrets via .env : PASSWORD, SMTP_PASSWORD (Gatus→mailu), HC_*_URL (Healthchecks).
  • influxdb est commenté (orphelin, .8 réattribué à raid-monitor — cf. plan d'adressage).