Traue Nagios nicht!

Closed Circuit CamErstes Gebot: Ueberwache Deine Server mit einem Ueberwachungstool.

Zweites Gebot: Ueberwache Dein Ueberwachungstool (am besten mit einem Ueberwachungstool).

Dies mussten Stefan und ich dieses Wochenende lernen. Es war eine schmerzhafte Lehre.

Das ging so:

4. November. Ich war mit der GL in der Bergen an einem Strategie-Weekend. Endlich mal weg vom stressigen Tagesgeschäft. Der Geist frei für die Langfristplanung. Alles ruhig. Sehr ruhig. Gespenstisch ruhig. Keine SMS von Nagios. All green in der Statusanzeige. Gut.

Verzweiflung im Team.

Dann, erste Anrufe: “Ich habe meine Fotos hochgeladen, doch ich sehe sie nicht auf der Seite”. “Silvan, ich habe gerade einen neuen Event eingetragen, doch er ist nicht sichtbar”. All green in der Statusanzeige. All green? Komisch.

Weitere SMS. E-Mails. Verzweifelte Mitarbeiter. “Ok, dem muss ich nachgehen”. Sagt uns Nagios nichts? "MySQL on fiona OK, last check 3.11.2006 17:35:00". Moment. 3. November? Das ist Freitag. Jetzt sind wir der 4. November. Tatsächlich. Die Statusanzeige ist hängen geblieben. Wie eine Armbanduhr, welche nicht aufgezogen wurde. Angezeigt wird der Status vom Vortag. Allfällige, in diesem Moment bestehende Fehler werden nicht angezeigt. Die Statusanzeige wertlos.

Der Nebel lichtet sich.

Gut. Mit zittrigen Fingern starte ich den Nagios-Damon neu: /etc/init.d/nagios restart. Was wird zum Vorschein kommen? Ich warte. 565 Checks pending432 Check pendings, 2 Problems… Langsam lüftet sich der Nebel…

Nach 15 Minuten sind alle Checks durch. Die Sache ist klar: Ein Master-Datenbank-Server hat wegen einer korrupten Tabelle die Replikation gestoppt. Die Aenderungen der Seite wurden nicht unter den zwei Rechnerzentren propagiert. Aenderungen am Datenbestand waren nicht sichtbar.

Endlich wussten wir, wo anpacken. Das Problem war dann schnell gelöst.

Wenn wir den Fehler sofort entdeckt hätten, wären uns mehrere Stunden Ratlosigkeit erspart geblieben. Und Besucher wie Mitarbeiter hätten sich nicht durch ein falsches Verhalten der Website verwirren lassen müssen.

Nagios werden wir nun redundant auslegen. Damit wir dem Ueberwachungstool wieder trauen können.

This entry was posted in IT Infrastructure. Bookmark the permalink.

4 Responses to Traue Nagios nicht!

  1. Freddy says:

    Bei sowas hilft u.u. Munin (http://munin.projects.linpro.no/). Ist zwar eigentlich nicht zur Ausfallüberwachung gedacht, aber kann dabei dennoch sehr hilfreich sein.

  2. Danke. Wir haben Ganglia (http://ganglia.sourceforge.net/) als Ergänzung zu Nagios. Das Munin sieht aber auch ganz nett aus. Scheint etwas breiter als das Ganglia zu sein. Werde mir das sicher in meine del.icio.us-bookmarks reintun.

  3. Harry Fuecks says:

    Interesting – so does nagios run only has a single process? Would have thought it makes more sense to have a parent that forks a child to actually run the checks, so that if it crashes, the parent can alert someone.

  4. Actually, it did not even crash. It run normally. But it just did not perfom the checks anymore. However I did not look closer at the problem.

    Yes, it runs as single process. This never caused a problem. It’s a very stable piece of software.