Auf Basis der extrahierten Daten erfolgt das Data Engineering als wesentlicher Bestandteil des Datenverarbeitungsprozesses. Im Fokus des Data Engineering stehen

  • die Datenintegration und -bereinigung,
  • das Logikdesign und
  • die Datenmodellierung.

Diese Prozessschritte werden durch den Data Scientist ausgeführt. Der Data Scientist besitzt die Hoheit über die extrahierten Daten und verantwortet somit die Datenverarbeitung und die Sicherstellung der notwendigen Datenqualität für die Analyse.

Im ersten Schritt des Data Engineering müssen die extrahierten Daten in einer Datenbank eingelesen werden. Die einzelnen Datenextrakte müssen anschließend verknüpft und zu einem Datenmodell aufgebaut werden. Dieses Datenmodell stellt die Basis und den Inhalt der Datenanalyse dar.

Absolute Präzision in den Daten ist nicht erforderlich

Herausforderungen in der Datenlage, wie inkonsistente Formatierungen oder falsche Ausprägungen können bei der Datenauswertung zu fehlerhaften Ergebnissen führen. Um konsistente und sprechende Auswertungen zu erhalten, muss die Qualität der Daten mittels automatischer Algorithmen und Suchabfragen überprüft werden. Oftmals ist es zusätzlich notwendig, einzelne Datenreihen zu bereinigen und Formatierungen zu vereinheitlichen.

Den Kern des Data Engineering stellen das Logikdesign und die Datenmodellierung dar. Besonders bei der Verarbeitung großer und komplexer Datenmengen ist diese Tätigkeit ein entscheidender Aufwandstreiber. Die horizontale und vertikale Informationsgenerierung durch Kombinatorik und mathematische Verknüpfungen einzelner Datenreihen bietet die Möglichkeit auf Basis einer definierten Datengrundlage neue Zusatzinformationen zu erzeugen. Dies stellt einen erheblichen Mehrwert der Advanced-Analytics-Analysen dar. Bspw. erlaubt die Programmierung von Analysealgorithmen für eine explorative Datenanalyse die Identifizierung von Kausalketten, welche inhaltliche Zusammenhänge zwischen einzelnen Variablen beschreiben. Klassische Datenanalysen stoßen hierbei an ihre Grenzen.

Abb. 5: Illustrative Darstellung der Informationsgenerierung

Das ist nur ein Ausschnitt aus dem Produkt Finance Office Professional. Sie wollen mehr?


Meistgelesene beiträge