Wie jeden Tag aus 13‘800‘240 Messwerten 30 Alarme werden

Aspectra erhebt jeden Tag fast 14 Millionen Messwerte. Daraus resultieren im Schnitt 30 Alarme pro Tag. Wie geht das?
13‘800‘240 Messwerte
Aspectra betreibt zur Zeit in zwei Rechenzentren 1‘200 Systeme. Für einen SLA-konformen Betrieb müssen die Systems Engineers zu jedem Zeitpunkt den Zustand dieser Systeme kennen. Zu diesem Zweck wird eine grosse Zahl von Messwerten erhoben, im Schnitt 13‘800‘240 pro Tag. Diese können in Standardwerte und spezifische Werte unterteilt werden.
- Standardwerte: Server, Betriebssysteme und Netzwerke liefern standardmässig über SNMP diverse Werte. Dazu gehören unter anderem die aktuelle CPU-Last, der freie Disk Space, der Zustand von Hardware Bauteilen oder die Anzahl Pakete, die in einer bestimmten Periode übermittelt wurden.
- Spezifische Werte: Aspectra entwickelt fortlaufend Scripts, mit denen zusätzlich spezifische Werte erhoben und via SNMP ans Überwachungssystem geliefert werden. Dazu gehören zum Beispiel der Zustand einer Applikation, URL-Scans, End-to-End Messungen und relevante Werte aus Logfiles.
30 Alarme
Die Systems Engineers können unmöglich täglich 14 Millionen Messwerte sichten. Trotzdem müssen sie den Zustand Ihrer Systeme kennen und bei einem Incident eingreifen. Dafür hat Aspectra ein Triageverfahren mit zwei Stufen entwickelt.
- Erste Triage: Hier werden beim Erfassen der Systeme die Werte aussortiert, die nicht relevant sind. Dazu gehören z.B. Messwerte inaktiver Netzwerk-Komponenten oder Werte die zur Berechnung abgeleiteter Messwerte verwendet werden. Übrig bleiben die Werte, die ein Systems Engineer benötigt, um über sämtliche betriebsrelevanten Parameter seiner Systeme im Bilde zu sein.
- Zweite Triage: In dieser Stufe werden jene Werte ausgefiltert, die sich in der zuvor definierten Bandbreite des „Normalen“ bewegen. Nur was diese Bandbreite verlässt, wird weitergemeldet. Ausserdem wird definiert, ob eine solche Meldung nur eine Warnung ist, oder ein Alarm und wer die Meldung wann auf welchem Weg erhält.