Nagios & OMD

Nagios & OMD

Nagios ist der Industriestandard der Open Source Monitoring-Systeme; es erlaubt Ihnen Ihre gesamte IT-Infrastruktur zu überwachen um sicherzustellen, dass Systeme, Anwendungen, Dienste und Geschäftsprozesse richtig funktionieren. Im Falle einer Störung kann der technische Mitarbeiter über das Problem alarmiert werden, so dass es gelöst werden kann, bevor Ausfälle die Geschäftsprozesse, Endnutzer oder Kunden beeinflussen.

Die Open Monitoring Distribution (OMD) ist eine angepasste und erweiterte Nagios-Variante. Es ist ein komplett neues Konzept, um ein Monitoring System auf Basis von Nagios zu installieren, zu warten und upzudaten. OMD bündelt Nagios zusammen mit den Monitoring Plugins bzw. Nagios-Plugins, sowie allen wichtigen Addons wie PNP4Nagios und RRDTool für die Erfassung von Performance Daten; Thruk als universales und globales Webfrontend; DokuWiki zur integrierten Dokumentation. Es stehen fertige Pakete für die Enterprise Linux Distributionen RHEL/SLES und anderen, wie Debian und Ubuntu, zur Verfügung. OMD ist speziell auf die Bedürfnisse von Neueinsteigern und fortgeschrittenen Nutzern zugeschnitten, da hier die wichtigsten und neuesten Addons mit einer einfachen Installation kombiniert werden.

Produktfeatures

  • Funktionsprüfung & Alarmierung
    • Funktion: Alle unternehmenskritischen Infrastruktur-Komponenten werden zyklisch auf ihren Zustand geprüft und bei Fehlern eine Alarmierung ausgelöst.
    • Einsatzszenario: Die zuständigen Administratoren werden über die Probleme auf diverse Wege, wie E-Mail,  SMS oder Instant Messanger benachrichtigt. Über eine Eskalation können zusätzliche Abteilungsleiter bei nicht erfolgter Reaktion mit alarmiert werden.
    • Nutzen: Probleme können schnellst möglich erkannt und durch die frühzeitige Alarmierung behoben werden, bevor Ausfälle die gesamten Geschäftsprozesse beeinflussen.

  • Event-Handler

    • Funktion: Gescheiterte Anwendungen, Dienste, Server und Geräte lassen sich automatisch neu starten, wenn Probleme erkannt werden.
    • Einsatzszenario: Probleme, welche durch den Neustart eines Dienstes, z.B. überlaufende Sessions des Webservers behoben.
    • Nutzen: Bekannte Probleme können über diese Methode automatische im Sinne von Selbstheilung behoben werden und fallen aus der Alarmierungskette.

  • Zentrale Übersicht
    • Funktion: Der gesamten IT-Betrieb, Netzwerk und Geschäftsprozesse können über eine zentrale Stelle eingesehen und verwaltet werden.
    • Einsatzszenario: Unterschiedliche OMD Sites aus diversen Zone, z.B. DMZ und Intranet werden auf simplen Wegen und unter Nutzung einer TCP-Verbindung zusammengeführt.
    • Nutzen: Das gesamte verteilte und skalierte Monitoring-Setup wird über eine Zentrale Stelle eingesehen und verwaltet.

  • SLA Reporting & Performancedaten
    • Funktion: Sämtliche Ausfälle, Benachrichtigungen und Alarmreaktionen werden protokolliert und in SLA Reports inkl. Grafischer Darstellung verwendend.
    • Einsatzszenario: Die Reports können zur Analyse und dem Nachweis zur Abdeckung der üblichen 99.9% Verfügbarkeit generiert und dem Abteilungsleiter oder Chef vorgelegt werden.
    • Nutzen: Eine zeitliche Verfügbarkeitsübersicht ergibt auch die Möglichkeit Wachstumsraten einzusehen und frühzeitig in die Ressourcen Planung mit einfließen zu lassen.

  • Parallele Versionen
    • Funktion: Es können unterschiedliche OMD Versionen parallel installiert und genutzt werden.
    • Einsatzszenario: Ihre Produktion läuft mit der letzten stabilen Version und die aktuellsten Version in der Test- oder Entwicklungsumgebung.
    • Nutzen: Durch unterschiedlichen Sites und Versionen könne die Bereiche Produktion, Test- und Entwicklungsumgebung sauber getrennt verwaltet, aber auch durch einen Staging-Prozess genutzt werden.
  • Geschwindigkeitsoptimierung
    • Funktion: Verwendung von Mod-Gearman zur Lastverteilung, RRDCache zum beschleunigen des RRDTools und TMPFS für die Minimierung der I/O.
    • Einsatzszenario: Die Ausführung der Überprüfung wird auf die Worker-Prozesse des Gearman ausgelagert/balanciert, oder auch im Cache oder TMPFS gehalten. 
    • Nutzen: Die Hardware wird optimal ausgenutzt und die Verschwendung von Ressourcen wird gering gehalten. Machen aber auch im selben Zuge das Monitoring-Setup skalierbar.

Wie machen wir die Lösung rund?

Neben den eigentlichen Features bieten wir Wissen und einige Erweiterungen an, die das Monitoring-System komplettieren und zu einem gesamten Mehrwert zusammenführen.

Durch die jahrelange Erfahrung liefern wir eine skalierbare und wartbare Strukturierung der Monitoring Konfiguration. Seien es die Schwellwerte, Verknüpfung von Hosts und Diensten, deren Abhängigkeiten, aber auch komplexe Monitoring Konzepte ob in einem oder über mehre Standorte hinweg.

Um die Benutzerverwaltung so einfach wie möglich zu halten, kann das Monitoring-System zur Authentifizierung der Benutzer auf Basis von Gruppen ihre Active Directory, aber auch OpenLDAP nutzen.

Alle konfigurierten Systeme und deren Dienste werden über das im OMD mitgelieferten DokuWiki automatisch dokumentiert. Sie lassen sich so direkt aus dem Frontend heraus aufrufen und stellen schnell die nötigen Information für z.B. den NOC-Mitarbeiter zur Verfügung.

Alle Überprüfungen werden durch Plugins gelöst, hier liefern wir neben den eigentlich Nagios- oder Monitoring-Plugins eine eigene Sammlung, welche die nötigen Checks von z.B. vSphere, NetApp oder Juniper abdeckt.

Unser Tipp

Einige unserer Plugins, die wir unter GPL Lizenz veröffentlichen, finden Sie auf unserer GitHub Seite: github.com/teamix/monitoring-plugins