Für den stabilen Betrieb der Server ist Monitoring (CPU, Diskspace, …) essentiell. Welche Tools eignen sich dafür?
Background
Ich verwalte je einen Mastodon und einen PeerTube Server. Persönlich bin ich mit Nagios groß – äh alt geworden. Für diese beiden relativ neuen Server setze ich erstmals Grafana ein.
Fragen
Überwacht ihr eure Server automatisiert?
Welche Produkte/Software/Framework setzt ihr dafür ein?
Habt ihr Alarme konfiguriert? (z.B. E-Mail Notification wenn die Platte mehr als 80% voll ist.)
Ich nutze sowohl Grafana als auch uptime-kuma, wobei letztes eher für die User ist, mich aber auch bei Ausfällen der Erreichbarkeit benachrichtigt.
Grafana nutze ich hauptsächlich für die Übersicht, dies benachrichtigt mich wenn der Speicherplatz knapp wird. CPU und RAM etc überwache ich nicht aktiv.
Hab gestern erst geschafft Mastodon in Grafana einzupflegen und weiß noch nicht ob es etwas gibt, dass ich überwachen müsste.
Spannend! uptime-kuma würde ich wegen des Zertifikats-Ablaufs interessant finden. Es soll ja schon vorgekommen sein, dass die Erneuerung via cron nicht funktioniert hat. Wobei sich das ja wohl auch über Grafana lösen lassen müsste. Wie du schreibst, wegen des Plattenplatzes ist eine eigene Überwachung unumgänglich. Kannst du etwas genauer beschreiben, wie du die Alarme konfiguriert hast? Telegraf und influxdb fand ich nicht so schwierig – bei den Alarmen scheitere ich auch nach dem 3. Anlauf.
Was dann aber passiert ist, dass ich Alarmnachrichten bekomme, aus denen nicht hervorgeht, bei welchem der überwachten Hosts die Platte über 80% voll ist. Meinem Verständnis nach, gelten diese Alerts ja für alle Hosts, welche die abgefragten Felder anliefern …
Was ich machen könnte, ist beim SELECT einen bestimmten Host angeben. Dann könnte ich diesen Namen in die Alertrule schreiben. Aber das kann es ja wohl nicht sein – ich hab jetzt schon 4 Server zu überwachen was macht jemand mit 40 oder 400?
Ich monitore alle meine Server/Services mit Xymon und liebe es. Ich kann checks dafür selbst schreiben und die vorhandenen benutzen, was eigentlich eh fast alles abdeckt (CPU, packages, disk, load, processes, ports, und vieles mehr). Ich bekomme damit alles mit, was am Server nicht rund läuft, wenn ein Prozess nicht aktiv ist, der es aber sein sollte, die Zertifikate ablaufen (die sind eh auf auto-renew, aber trotzdem), ports down sind, die up sein sollten uws.
Xymon mag ich, weil es alles einfach scripts sind, das Ganze dadurch leicht zu warten und zu erweitern. Das Interface ist ein bisschen altbacken, aber das ist mir egal.
Benachrichtigungen lasse ich mir per e-mails schicken, sollte mein monitoring ausfallen, habe ich den Mastodon-Server auch im Smokeping überwacht (auf einer anderen Maschine natürlich) und bekäme da auch mit, wenn da Probleme mit der Konnektivität wären.