a) Begriff

Wörtlich übersetzt und bildlich gesprochen ist ein Data Lake ein Datensee. Im Unterschied zum Data Warehouse werden die Daten im Data Lake in ihrer Ursprungsform gespeichert. Im Data Lake können sich somit unstrukturierte, semi-strukturierte oder strukturierte Daten in ihrer Rohform befinden. Ebenfalls kann ein Data Lake neben Text- oder Zahlendaten auch Bilder, Videos oder andere Formate importieren. Gleich wie ein Data Warehouse lässt sich auch ein Data Lake für Big Data Analytics einsetzen.

b) Einsatzgebiete

Der Vorteil des Data Lakes besteht darin, dass die Daten nicht validiert und umformatiert werden müssen, bevor diese in den Zielspeicher gelangen. Dies geschieht erst, wenn die Daten für den konkreten Anwendungsfall benötigt werden. Ein Data Lake ist deshalb insb. für solche Anwendungsfälle geeignet, in denen die Analysezwecke noch nicht festgelegt wurden. Anders als beim Data Warehouse, wo die Daten transformiert in den Zielspeicher gelangen und damit einhergehend Informationen verloren gehen können, kann im Data Lake durch die Speicherung von Rohdaten die analytische Performance gesteigert werden. Gem. Szugat ist diese Form der Befüllung (nahezu) in Echtzeit möglich. Ein Data Lake ist somit für prädiktive (was könnte passieren) und präskriptive (was sollte passieren) Analysen geeignet.

c) Funktionsweise

Da die Daten im Data Lake erst im konkreten Anwendungsfall transformiert werden, eignet sich die ELT-Pipeline als Komponente der Big Data Architektur. Die Transformationsschritte erfolgen basierend auf dem Verwendungszweck der Daten, der bei Implementierung des Data Lake noch unbekannt sein kann. Da ein Data Lake keine feste Struktur hat, besteht große Flexibilität hinsichtlich der Exploration von neuen Datenquellen. Ebenfalls möglich ist es, die Daten vom Data Lake in ein Data Warehouse zu laden, um nach oben beschriebenem Muster weiter zu verfahren.

Abb. 7: Mögliche Big Data Architektur mit einem Data Lake

Damit der Datensee nicht zum Datensumpf wird, ist gemäß Martin Szugat eine Dokumentation der Datenherkunft, des Datenflusses und der Datenverwendung von großer Bedeutung, was die Führung eines Datenkatalogs unabdingbar macht.

Das ist nur ein Ausschnitt aus dem Produkt Haufe Finance Office Premium. Sie wollen mehr?

Anmelden und Beitrag in meinem Produkt lesen


Meistgelesene beiträge