Erwin Selg (CTIO GFT Group): „Die meisten Unternehmen, die sich mit Big Data befasst haben, sind nicht über den experimentellen Status hinaus gekommen.“


Big Data ist nicht umsonst ein Trend, der viele Unternehmen stark beschäftigt. Tagtäglich produzieren wir Unmengen an Daten. Laut einer Studie von IBM, sind es täglich 2,5 Quintillionen Bytes neuer Daten, die durch Nachrichten, Online-Transaktionen oder Aktivitäten in den sozialen Netzwerken produziert werden. Wie kann die Informationsflut analytisch beherrschbar gemacht werden? Was genau versteckt sich hinter dem Megatrend? Wir haben mit Erwin Selg, CTIO bei GFT, gesprochen und nach seiner Expertenmeinung gefragt.

Erwin Selg - CTIO GFT Group
Erwin Selg – CTIO GFT Group

Janina Benz: Hallo Erwin. Big Data ist omnipräsent momentan. Es geht um Daten, doch was unterscheidet die ursprüngliche Datenverarbeitung und -analyse vom Megatrend Big Data?

Erwin Selg: Insbesondere durch die zunehmend maschinelle Erzeugung von Daten entstehen riesige Datenvolumina, die sich alle 2 Jahre verdoppeln. Herkömmliche Datenbanken oder Visualisierungstechnologien können diese Datenmengen schlichtweg nicht verarbeiten. Es braucht hier neue Ansätze, die die Erfassung, Speicherung, Verteilung, Suche, Analyse und Visualisierung von solch großen Datenmengen mit akzeptablen Laufzeiten bewältigen können. Ein Teil dieser Daten liegt zudem häufig in unstrukturierter Form vor. Eine weitere Herausforderung liegt also darin, Erkenntnisse aus einem Mix aus strukturierten und unstrukturierten Informationen, wie etwa Millionen von Webseiten, zu ziehen.

JB: Immer häufiger fällt der Begriff Fast Big Data. Riesige Datenmengen zu analysieren scheint, nicht das Problem, sondern die Verfügbarkeit in Echtzeit. Lösungen wie SAP HANA und Apache Hadoop werden im Zuge dessen häufig genannt. Welche technologischen Ansätze gibt es momentan bzw. werden sich durchsetzen?

ES: Man muss hier sicherlich unterscheiden. Für eine geologische Langzeitanalyse braucht man nicht unbedingt einen Real-Time-Ansatz. Wenn man aber – wie etwa eine bekannte amerikanische Einzelhandelskette – jeden Abend das komplette Kaufverhalten seiner Kunden analysieren will, um für den nächsten Tag die Preisgestaltung anzupassen, hat man hierfür nur wenig Zeit. Im genannten Beispiel wurde die erforderliche Analysezeit von mehreren Tagen auf inzwischen 20 Minuten reduziert. Möglich wurde dies durch den Einsatz von In-Memory Technologien. Diese Technologien werden mit zunehmender Reife der Plattformen, bei gleichzeitig sinkenden Speicherpreisen, zum Standard werden.

Für Echtzeitanalysen im Unternehmensbereich sind insbesondere Ansätze interessant, die ein zeitraubendes Bewegen der Daten aus den transaktionalen Datenbanksystemen in die Analysesysteme entweder gänzlich vermeiden oder zumindest hochgradig optimieren. SAP HANA verfolgt hier z.B. einen sehr interessanten Ansatz. Sicherlich wird es auch zu cloud-basierten Diensten kommen, bei denen riesige In-Memory-Plattformen zur Verfügung gestellt werden – Realtime Analysis für jedermann. Das kleine medizinische Labor, die R&D-Abteilung eines Mittelständlers oder die Kernforschung könnten dann solche Grids gleichermaßen sehr einfach on-demand nutzen.

JB: Wie sieht es in der Praxis aus. Wie viele Unternehmen haben schon entsprechende Lösungen eingeführt? Häufig sind auch interne Prozesse betroffen. Wie lange dauert es, bis ein solches Projekt erfolgreich abgeschlossen und implementiert ist?

ES: Die Entwicklung steht noch am Anfang. Die meisten Unternehmen, die sich mit Big Data befasst haben, sind nicht über den experimentellen Status hinaus gekommen. Nur wenige Unternehmen, die trotz der bisher recht hohen Einstiegskosten für sich einen klaren Business Case rechnen konnten, haben eine produktiv genutzte Plattform eingeführt. Durch die sinkenden Infrastrukturkosten und die zunehmende Technologiereife wird sich dieses Bild in den nächsten Jahren deutlich verändern. Unternehmen, die auf diesen Wissenskanal verzichten, werden zudem in Gefahr laufen gegenüber dem Wettbewerb allmählich ins Hintertreffen zu geraten. Gartner geht etwa davon aus, dass bereits in 2015 35% der großen und mittelgroßen Unternehmen eine In-Memory-Lösung produktiv einsetzen werden.

istockphoto_14501941-3d-computer-screen-tablet-pc_Bigdata

JB: Die rasant wachsenden Datenmengen müssen irgendwo gespeichert werden. Stichwort Cloud. Wie gehen Unternehmen vor, damit die Daten sicher sind?

ES: In der Tat, trotz fallender Speicherpreise werden die meisten Unternehmen in absehbarer Zeit nicht mehr in der Lage sein, alle anfallenden Daten selbst zu speichern. Die Auslagerung von Daten ist eine Option. Man muss aber sicherlich darüber hinaus denken. Viele Daten bedeuten nicht unbedingt gute Daten, Quantität bedeutet nicht automatisch Qualität. Ein weiterer unverzichtbarer Ansatz besteht daher in der Segmentierung der Daten – auch in Verbindung mit einer Datenvermeidungsstrategie. Welche Daten nützen mir wirklich? Welche Daten sind nur für die Echtzeitanalyse interessant, danach aber nicht mehr von Bedeutung? Auch für die Frage der Auslagerung von Daten ist die Segmentierung eine wichtige Voraussetzung. So können evtl. Daten mit geringem Sicherheitslevel auch heute schon auf eine (vorzugsweise nationale) Cloud gelegt werden. Andere sensible oder geschäftskritische Daten dagegen wird man auf absehbare Zeit vielleicht lieber noch on-premise (vor Ort) halten. Last but not least muss man auch an die Fortschritte im Umfeld der Komprimierungstechnologien denken.

JB: Welche Optionen bietet Big Data in Bezug auf Business Intelligence?

ES: Die bisherige Business Intelligence (BI) in Unternehmen leidet häufig darunter, dass zur Zeit der Analyse die Daten bereits schon wieder veraltet sind. Die Analysen dauern zu lange und können somit in Entscheidungen nicht mehr einfließen. Im Cocktail der Big-Data-Disziplinen sind es daher sicherlich die Echtzeit-Technologien, die den direktesten Beitrag zur Verbesserung der Corporate BI leisten können. Ein weiterer wichtiger Nachteil der aktuellen BI in Unternehmen ist die Tatsache, dass nahezu ausschließlich auf strukturierte Daten Bezug genommen wird. Durch die Einbeziehung der unstrukturierten Informationen mittels Big-Data-Technologien kann mehr Kontext einfließen, und die Analyseergebnisse erfassen einen größeren Teil der Realität. Auch die Erkennung von Mustern und Korrelationen wird besser. Durch Big-Data-Technologien werden Unternehmen zudem in die Lage versetzt, die Erkenntnisse der meist auf internen Daten basierenden Business Intelligence um „die Welt da draußen“ zu erweitern, etwa durch systematisches Corporate Intelligence und Social Intelligence.