Problem-Management – ein wichtiger Baustein zur Steigerung der Effizienz
Peter Sommer arbeitet als Berater und Projektleiter für GFT. Seit mehr als zehn Jahren betreut er Projekte in der Bankenbranche oder dem Logistikumfeld. Seine Tätigkeitsfelder sind: Problem-Management, Application Management, CMMI und ITIL. In diesem Beitrag erklärte er uns, wie das Thema Problem-Management in der Praxis aussieht.
Bei großen Banken laufen im Kundenservice viele IT-Prozesse im Hintergrund ab. Sind die Prozesse störungsfrei, dann sind sie für den Kunden unsichtbar. Treten jedoch Fehler auf, kann es sich negativ auf erlebte Servicequalität und Kundenzufriedenheit auswirken. GFT unterstützt eine große deutsche Bank im Rahmen des Problem-Managements. Das heißt, wenn Störungen auftreten, übernimmt GFT die Wartung und Weiterentwicklung der Anwendersoftware (Application Management) innerhalb der Bankfilialen.
Über das Problem-Management werden unbekannte Ursachen für tatsächliche und potentielle Störungen (Incidents) innerhalb der IT-Services untersucht und die Behebung gesteuert. Anders als das Incident Management arbeitet das Problem-Management sowohl reaktiv als auch proaktiv. Ein wesentliches Ziel ist hierbei die ‘dauerhafte Problemlösung’.
Und was heißt das jetzt?
In jeder IT-Umgebung treten regelmäßig Störungen – in der Fachsprache als Incidents bezeichnet – der unterschiedlichsten Art auf. Bei einem großen Unternehmen sind schnell 10.000 und mehr Anwender betroffen. Bei einer Störungsdauer von „nur“ einer Minute und 10.000 Anwendern kommt man schnell auf eine Gesamtstörungsdauer von mehr als 160 Stunden. Also ein Äquivalent zum Ausfall eines Mitarbeiters für vier Wochen. Im Fall von Internetauftritten (Online Banking, Webshop) oder Selbstbedienungsterminals (Bankautomat, Packstation) ist der Kunde sogar direkt betroffen. Das kann zu Imageverlust und Umsatzeinbußen führen. Daher sind Störungen möglichst schnell zu beheben, um die Produktivität bzw. Verfügbarkeit wieder herzustellen.
Das ist die Aufgabe eines Help- oder Service-Desk (Incident Management). Hier liegt das Augenmerk wirklich auf der schnellen Problemlösung, das „wie“ ist erst einmal sekundär. Oft wird für eine umgehende Behebung ein Workaround eingesetzt. Das bedeutet, die Störung wird nicht direkt vollständig behoben, sondern schnellstmöglich umgangen, bis eine dauerhafte Lösung zur Verfügung steht.
Beispiel: Nach einem Softwareupdate funktioniert die Druckfunktion für gesetzlich vorgeschriebene Ausdrucke nicht mehr. Hier kann es möglicherweise ausreichen einen Screenshot der Softwaremasken zu erstellen und auszudrucken. Ob der Workaround praktikabel bzw. rechtlich ausreichend ist, müssen Businessvertreter im Einzelfall bestimmen.
Und wenn das nicht reicht?
In manchen Fällen, z.B. wenn es sich um eine gravierende Störung handelt oder sich einige kleinere, und weniger kritische Störung häufen, ist das nicht mehr ausreichend. Aus dem Incident wird dann ein Problem und es wandert damit in den Aufgabenbereich des Problem-Managements. Jetzt kommt es nicht mehr auf eine schnelle Beseitigung, sondern auf eine gründliche Untersuchung und nachhaltige Behebung an. Wichtigster Bestandteil ist die Root Cause Analyse, also die Suche nach der tatsächlichen Ursache der Störung.
Hier können zum Beispiel Methoden nach Kepler Tregoe zur Problemanalyse eingesetzt werden. Ist diese gefunden, lassen sich Maßnahmen zur Behebung einleiten. Gängige Probleme sind Software-Bug, Konfigurationsfehler, Leitungsschaden, Hardwaredefekt und Anwenderfehler. Je nach Art der Ursache kann die Lösung ganz unterschiedlich ausfallen (Bugfix Release/Hotfixes, Konfigurationsänderung, Behebung des Schadens, Hardwarereparatur/-tausch, Schulung der Anwender). Ziel ist natürlich, das Übel an der Wurzel zu packen und Wiederholungen zu vermeiden. Das führt letztendlich zu einer Verbesserung der Effizienz.
Die Problemanalyse nach Kepler Tregoe gilt heute als „Best Practice“ im Umfeld von Operational und Service Excellence. Sie ermöglicht die Identifikation von unbekannten Ursachen, um diese anschließend zu eliminieren. U.a. wird die Problemanalyse von Kepner-Tregoe zur Anwendung im Problemmanagement von ITIL empfohlen.
Ein anderes Beispiel: Die Funktion „Dispokreditrahmen ändern“ lässt sich nach dem Einspielen eines Softwareupdates nicht mehr aufrufen. In der Testumgebung wurde die Funktion erfolgreich getestet. Die Analyse zeigt, dass es sich nicht um einen Softwarebug handelt, sondern dass die Installationsreihenfolge für den Produktionseinsatz gegenüber der Testumgebung geändert wurde. Weitere Analysen ergeben eine Lücke im Paketierungsprozess. Nach dessen Korrektur, sollte dieser Fehler nicht mehr auftreten.
Martin Andenmatten beschreibt den Nutzen von Problem-Management in seinem Blogbeitrag Was ist das Problem mit dem Problem-Management ganz gut:
Professionelles Service Management sorgt für Stabilität und bewirkt, dass weniger Störungen auftreten und die eh schon knappen Ressourcen planmäßiger eingesetzt werden können. Letztlich sind die Support-Mitarbeiter auch lieber an proaktiven, planbaren Aktivitäten beschäftigt, als andauernd irgendwelche Fehler lokalisieren zu müssen.“