Beim Data Profiling erfolgt eine statistische Analyse und Bewertung von Datensätzen. Vergleichbar mit einem Archäologen werden Daten mit Werkzeugen ausgegraben, sauber freigelegt, betrachtet, kategorisiert und bewertet. Im Gegensatz zum Archäologen, der in der Regel hierfür mit Schaufel, Spachtel und Pinsel Handarbeit verrichtet, erfolgt die Analyse beim Data Profiling mit weitgehend digitalen und automatisierten Verfahren.

Ziel des Data Profiling ist es, die vorhandenen Daten systematisch nach Fehlern, Inkonsistenzen und Mängeln zu untersuchen. Beim Data Profiling werden erkannte Qualitätsprobleme von Daten jedoch nicht behoben. Dies ist den nachfolgenden Schritten vorbehalten. Die Ergebnisse dienen vielmehr zur Beurteilung, wie gut die untersuchten Daten für bestimmte vorgesehene Zwecke nutzbar sind und welcher Aufwand und welches Risiko für weitere Aktivitäten entsteht. So lassen sich Überraschungen oder Verzögerungen bei der Weiterverarbeitung der Daten einschätzen. Es empfiehlt sich daher, das Data Profiling möglichst früh in der jeweiligen Projektplanung einzusetzen.

Beim grundlegenden Data Profiling erfolgt ein schrittweises Vorgehen in 4 Stufen:

  1. Daten integrieren
  2. Daten analysieren
  3. Ergebnisse präsentieren
  4. Ergebnisse bewerten

In einem ersten Schritt sind die Daten aus den originären Datenquellen zum Zweck des Profilings zu extrahieren. Dies kann durch eine programmgestützte Exportfunktion oder Schnittstelle erfolgen oder – zur Not – mit den in der Praxis bekannten Befehlen "Kopieren" (STRG-C) und "Einfügen" (STRG-V). Die Extrahierung der Daten vor dem Profiling ist empfehlenswert, um die Daten von den Produktivsystemen zu entkoppeln und "stand-alone" für den Profilingprozess zur Verfügung zu haben. Somit werden auch unnötige Netzwerklasten auf den Quellsystemen vermieden. Im Rahmen der Extrahierung können auch nicht benötigte Daten-Attribute entfernt werden, um den Prozess zu beschleunigen. Aber auch die Aufspaltung von zusammengesetzten Inhalten, wie z. B. bei Namensfeldern (Freitext) in "Vorname" und "Nachname", kann den Prozess optimieren.

Im zweiten Schritt erfolgt die Analyse der aufbereiteten Daten. Hierfür kommen verschiedene Methoden und Verfahren zur Anwendung; in den allermeisten Fällen erfolgt dieser Schritt automatisiert und in mehreren Schleifen, gegebenenfalls in Kombination mit verschiedenen technischen Verfahren und Tools. Es sind aber auch grundsätzlich manuelle Auswertungen – je nach Anforderungen – denkbar; z. B. die Analyse von Daten mit Filtervorgängen und Verformelungen mit MS Excel.

In einem dritten Schritt werden die durchgeführten Ergebnisse aufbereitet und dem Verantwortlichen präsentiert, der diese dann in einem vierten und letzten Schritt fachlich bewertet. Sofern die vorhandene Analyse unvollständig oder nicht ausreichend ist oder noch Unklarheiten bestehen, ist der gesamte Prozess in einer oder mehreren Schleifen zu wiederholen.

 
Hinweis

Data-Profiling Verfahren

Die verschiedenen Data-Profiling-Verfahren lassen sich in 3 Hauptkategorien einteilen:

  1. Attribut-Analyse
  2. Datensatz-Analyse
  3. Tabellen-Analyse

Bei der Attribut-Analyse werden die Werte in einer Tabellenspalte (Attribut) und die Eigenschaften dieser Werte ausgewertet.

Beispiel: Die Werte der Tabellenspalte "Kreditorennummer" werden hinsichtlich ihrer Eigenschaft (numerisch, nicht numerisch, Wertebereiche) analysiert.

Im Rahmen der Datensatz-Analyse werden alle Datensätze einer Tabelle auf funktionale Abhängigkeiten überprüft.

Beispiel: In der Tabelle "Debitoren" gibt es 2 Datensätze mit "Müller GmbH" und identischem Erstellungsdatum "02.08.2020".

Mittels der Tabellen-Analyse werden alle Beziehungen (referenzielle Abhängigkeiten) zwischen den vorhandenen Tabellen untersucht.

Beispiel: Im EPR-System findet sich in der Tabelle "Kunden" eine Beziehung über die Kundennummer zur Tabelle" Bestellungen".

Das ist nur ein Ausschnitt aus dem Produkt Haufe Finance Office Premium. Sie wollen mehr?

Anmelden und Beitrag in meinem Produkt lesen


Meistgelesene beiträge