Stack `monitoring`¶

Observabilité + alerting. Fichier : compose/monitoring/docker-compose.yml. Vue transverse (qui alerte quoi, canaux) : Monitoring & alerting.

Métriques & logs¶

Service	IP	Port	Rôle
grafana	`.9`	3000	dashboards (Prometheus, Loki, InfluxDB) → `grafana.tichnou.fr` ; user `jonathan`
prometheus	`.10`	9090	métriques, rétention 10 ans ; basic-auth `web.yml`
cadvisor	`.11`	8081	métriques par conteneur (`privileged`)
nodeexporter	`.20`	9100	métriques hôte (`/proc`, `/sys`, `/`)
intel-gpu-exporter	`.28`	9125	métriques iGPU (`build/`, `/dev/dri`, `SYS_ADMIN`)
loki	`.26`	3100	agrégation de logs
promtail	`.27`	—	expédie les logs Docker → Loki

Service	IP	Rôle
gatus	`.50`	sondes up/down (HA, MQTT, bases, Grafana, mailu…) → email via mailu ; UI `:8084`
health-alerter	`.14`	écoute les events Docker `unhealthy` → webhook HA
autoheal	host net	redémarre les conteneurs `unhealthy` (ceux qui ont un healthcheck)
raid-monitor	`.8`	surveille `md0` → webhook HA (OK/DEGRADED/MISSING/MISMATCH)
healthchecks-ping	—	dead-man's switch externe (Healthchecks.io) : NUC (inconditionnel), HA & Z2M (si répondent)

Secrets via .env : PASSWORD, SMTP_PASSWORD (Gatus→mailu), HC_*_URL (Healthchecks).
influxdb est commenté (orphelin, .8 réattribué à raid-monitor — cf. plan d'adressage).