Servermonitoring für Mastodon, PeerTube & Co

ilanti · 12. Februar 2023 um 14:57

Für den stabilen Betrieb der Server ist Monitoring (CPU, Diskspace, …) essentiell. Welche Tools eignen sich dafür?

Background

Ich verwalte je einen Mastodon und einen PeerTube Server. Persönlich bin ich mit Nagios groß – äh alt geworden. Für diese beiden relativ neuen Server setze ich erstmals Grafana ein.

Fragen

Überwacht ihr eure Server automatisiert?
Welche Produkte/Software/Framework setzt ihr dafür ein?
Habt ihr Alarme konfiguriert? (z.B. E-Mail Notification wenn die Platte mehr als 80% voll ist.)

Tealk · 13. Februar 2023 um 12:02

Ich nutze sowohl Grafana als auch uptime-kuma, wobei letztes eher für die User ist, mich aber auch bei Ausfällen der Erreichbarkeit benachrichtigt.

Grafana nutze ich hauptsächlich für die Übersicht, dies benachrichtigt mich wenn der Speicherplatz knapp wird. CPU und RAM etc überwache ich nicht aktiv.
Hab gestern erst geschafft Mastodon in Grafana einzupflegen und weiß noch nicht ob es etwas gibt, dass ich überwachen müsste.

ilanti · 13. Februar 2023 um 13:14

Spannend! uptime-kuma würde ich wegen des Zertifikats-Ablaufs interessant finden. Es soll ja schon vorgekommen sein, dass die Erneuerung via cron nicht funktioniert hat. Wobei sich das ja wohl auch über Grafana lösen lassen müsste. Wie du schreibst, wegen des Plattenplatzes ist eine eigene Überwachung unumgänglich. Kannst du etwas genauer beschreiben, wie du die Alarme konfiguriert hast? Telegraf und influxdb fand ich nicht so schwierig – bei den Alarmen scheitere ich auch nach dem 3. Anlauf.

Tealk · 13. Februar 2023 um 13:30

Also ich hab das aktuell sogar doppelt, einmal per script welches noch läuft und aktuell auch über Grafana:

Freier Speicher_Series

node_filesystem_free_bytes{mountpoint!="/run", mountpoint!="/run/lock", mountpoint!="/run/user/0"} / 1024 / 1024 / 1024

Zugewiesener Speicher_Series

node_filesystem_size_bytes{mountpoint!="/run", mountpoint!="/run/lock", mountpoint!="/run/user/0"} / 1024 / 1024 / 1024

Füllstand_Series

(1 - (node_filesystem_free_bytes{mountpoint!="/run", mountpoint!="/run/lock", mountpoint!="/run/user/0"} / node_filesystem_size_bytes{mountpoint!="/run", mountpoint!="/run/lock", mountpoint!="/run/user/0"})) * 100

Und so sieht der Auslöser aus

Nutze für alles prometheus

ilanti · 13. Februar 2023 um 17:37

hmh, ja das schaut bei mir etwas anders aus:

Was dann aber passiert ist, dass ich Alarmnachrichten bekomme, aus denen nicht hervorgeht, bei welchem der überwachten Hosts die Platte über 80% voll ist. Meinem Verständnis nach, gelten diese Alerts ja für alle Hosts, welche die abgefragten Felder anliefern …

Was ich machen könnte, ist beim SELECT einen bestimmten Host angeben. Dann könnte ich diesen Namen in die Alertrule schreiben. Aber das kann es ja wohl nicht sein – ich hab jetzt schon 4 Server zu überwachen was macht jemand mit 40 oder 400?

Tealk · 13. Februar 2023 um 18:48

Ich habe jedem vServer einen Tag zugewiesen in Prometheus und der wird mir bei der Meldung mit übergeben.
Weiß nicht, wie das bei InfluxDB läuft.

Tealk · 22. Februar 2023 um 17:44

Also bei mir zeigt er jedenfalls an um welchen Server es sich handelt:

Wurzelmann · 19. April 2023 um 09:38

Hallo!

Ich monitore alle meine Server/Services mit Xymon und liebe es. Ich kann checks dafür selbst schreiben und die vorhandenen benutzen, was eigentlich eh fast alles abdeckt (CPU, packages, disk, load, processes, ports, und vieles mehr). Ich bekomme damit alles mit, was am Server nicht rund läuft, wenn ein Prozess nicht aktiv ist, der es aber sein sollte, die Zertifikate ablaufen (die sind eh auf auto-renew, aber trotzdem), ports down sind, die up sein sollten uws.

Xymon mag ich, weil es alles einfach scripts sind, das Ganze dadurch leicht zu warten und zu erweitern. Das Interface ist ein bisschen altbacken, aber das ist mir egal.

Benachrichtigungen lasse ich mir per e-mails schicken, sollte mein monitoring ausfallen, habe ich den Mastodon-Server auch im Smokeping überwacht (auf einer anderen Maschine natürlich) und bekäme da auch mit, wenn da Probleme mit der Konnektivität wären.