Unternehmen haben erkannt, dass die Fähigkeit zur bestmöglichen Nutzung aller Unternehmensdaten zu einem zentralen Faktor für die Wettbewerbsfähigkeit einer Organisation geworden ist. Für die Speicherung dieser Daten sowie ihrer Verarbeitung setzen sie häufig auf ein Data Warehouse (DWH) oder ein Data Lake (DL).
Allerdings übersteigt die Komplexität der Unternehmensdaten, insbesondere durch den Anstieg an unstrukturierten oder semi-strukturierten Daten, immer mehr die Möglichkeiten dieser Architekturen, den gewünschten Business Value zu generieren. Um diese Herausforderung zu lösen, bietet es sich für Unternehmen an, mittels Datenvirtualisierung ihre DWH- und DL-Systeme in einer einheitlichen Plattform (Unified DWH/DL) miteinander zu verbinden.
Data Warehouse und Data Lake als Grundlage
Data Warehouses haben ihren Ursprung in Business Intelligence (BI): Es sind Datenbanken, die für Analysezwecke optimiert sind und dafür Daten aus bestimmten Quellen strukturieren, bereinigen und kuratieren.
Data Lakes dienen dagegen in erster Linie dazu, Daten aus unterschiedlichen Quellen in ihrem ursprünglichen, rohen Format zentral in einem Repository zusammenzuführen und sie für Advanced Analytics oder Machine Learning (ML) bereitzustellen.
Je nach ihren konkreten Bedürfnissen können Unternehmen ein DWH, ein DL oder beides On-Premises oder in der Cloud betreiben.
So zeigt der aktuelle TDWI-Report Building the Unified Data Warehouse and Data Lake, dass mehr als die Hälfte der befragten Unternehmen (53 Prozent) auf ein On-Premises Data Warehouse setzen. Mehr als ein Drittel (36 Prozent) nutzt jeweils bereits ein solches oder einen Data Lake in der Cloud, wobei etwa die Hälfte bislang nur eines von beiden implementiert hat.
Unified DWH/DL – ein einheitlicher Blick auf alle Daten
Auch zeigt der Report, dass 36,7 Prozent der Unternehmen ihren Data Lake bereits als Ergänzung zu ihrem Data Warehouse nutzen, um dort beispielsweise multistrukturierte Daten zu verarbeiten oder IoT-Daten zu analysieren und die Ergebnisse anschließend im Data Warehouse in Reports oder Visualisierungstools zu verwenden.
Beim nächsten Schritt, dem Unified DWH/DL, nähern Data Warehouses sich Data Lakes (und umgekehrt) so stark an, dass die Architektur beider Konzepte auf mehreren Ebenen verschmilzt und funktionale Dienste umfasst, die für alle Datentypen, Workloads, Anwendungen und Use Cases gleich sind.
Für diese neue Architektur existieren verschiedene Begriffe, die die Weiterentwicklung der bisherigen Systeme verdeutlichen: Enterprise Data Architecture, Hybrid Data Architecture, Modern Warehouse Architecture oder Multiplatform Data Architecture.
Unabhängig davon, welcher Ausdruck sich durchsetzen wird, stimmen bereits 84 Prozent der Teilnehmer zu, dass Unified DWH/DL wichtig oder sehr wichtig ist.
Die Gründe hierfür sind vielfältig, so nutzen Unternehmen eine solche Plattform, um Datensilos aufzulösen und einen Single Source of Truth zu schaffen. Damit können sie innovative KI-gestützte Analysen durchführen, in Echtzeit weitreichende Erkenntnisse aus ihren Daten gewinnen und wichtige Entscheidungen so mithilfe aller relevanten Daten treffen.
Die Integration eines Data Warehouse und eines Data Lake kann auf verschiedenen Wegen angegangen werden. Zum einen durch eine physische Konsolidierung der Daten, bei der entweder ein Teil des Data Warehouses in den Data Lake (oder umgekehrt) verschoben wird oder Daten aus beiden Systemen in ein neues Repository verlagert werden.
Dies führt jedoch zu redundanter Datenhaltung und erscheint aufgrund physischer Datenbewegungen auch aus wirtschaftlichen Gesichtspunkten als nicht sinnvoll. Hingegen bietet die Datenvirtualisierung die Möglichkeit einer Integration mittels einer logischen Datenschicht.
Hierbei verbleiben die Daten an ihrem Ursprungsort und die Datenkonsumenten erhalten mittels eines einheitlichen semantischen Modells Zugriff auf alle zugrundeliegenden Daten aus dem Data Warehouse und Data Lake. Hierbei spielt es keine Rolle, ob die Daten (jetzt oder in Zukunft) in der Cloud, On-Prem oder einer hybriden Architektur gehalten werden.
Ebenso ist dank dieses adaptiven Designs eine hohe Zukunfts- und somit Investitionssicherheit der Dateninfrastruktur sichergestellt.
Fazit: Die richtige Lösung für anspruchsvolle Bedürfnisse
Nicht jedes Unternehmen muss zwangsläufig ein Unified DWH/DL implementieren. Wenn allerdings die bestehenden Systeme die Bedürfnisse nicht mehr decken, weil das Unternehmen vermehrt unstrukturierte Daten verarbeiten oder KI-Analysen vornehmen will, kommt man um diese Lösung wohl kaum herum.
Dieser Prozess sollte allerdings nicht überstürzt vollzogen werden, sondern schrittweise, um Abläufe und Daten optimieren zu können und die Zeit zu nutzen, um Mitarbeitern die benötigten Skills beizubringen oder neue Mitarbeiter einzustellen.