Digitalisierung im Rechnungswesen: Hohe Datenqualität – ... / 6.2 Data Cleansing (Datenbereinigung) | Haufe Finance Office Premium | Finance

Dipl.-Finanzwirt (FH) Nikolaus Zöllner

Die im Rahmen des Data Profilings identifizierten Datenmängel sind mittels Data Cleansing durch verschiedene Verfahren anschließend zu bereinigen. Sofern die betroffenen Daten zuvor zuverlässig standardisiert wurden, ist die Bereinigung deutlich einfacher durchzuführen. So sollte z. B. ein Datumsfeld immer in einheitlichem Format vorliegen. Ist ein Datumswert im Format "TT.MM.JJJJ" und ein weiteres im Format "TT.MM.JJ" vorhanden, ist der Prozess des Data Cleansings erschwert. Gleiches gilt für die Normierung von Daten; der Firmenzusatz "eingetragener Kaufmann" sollte nicht in unterschiedlichen Schreibweisen (z. B. "eingetr. Kfm" und "eing. K".) vorhanden, sondern normiert (z. B. "e.K.") sein.

Hinweis

Bereinigung nicht normierter Datenmängel

Die Bereinigung von Daten kann hinsichtlich der eindeutigen Mängel – gemäß normierter Datenqualitätskriterien – mit Systemunterstützung erfolgen. Andere "weiche" Kriterien, wie z. B. die Glaubwürdigkeit von Datensätzen, muss über menschliche Prüfeingriffe erfolgen.

Für die Datenbereinigung empfehlen sich unterschiedliche Methoden, die einzeln oder in Kombination zur Anwendung kommen können. Nachfolgend werden diese Methoden beispielhaft erläutert:

6.2.1 Datenentfernung

Mit dieser Methode werden fehlerhaft identifizierte Datensätze vollständig aus den Beständen entfernt und somit auch nicht weiterverarbeitet. Dieser Weg ist anzuwenden, wenn die Daten nicht oder nur mit sehr hohem manuellem Aufwand korrigiert werden können. Die nicht entfernten, korrekten Datensätze werden hingegen weiterverarbeitet.

Praxis-Beispiel

Entfernung eines fehlerhaften Kreditoren-Datensatzes

Nach erfolgreichem Data Profiling wurde in der Tabelle "Kreditoren" ein Datensatz identifiziert, der keine Werte in den Feldern "Kreditorennummer"und "Kreditorenname" und keine Buchungsvorgänge aufweist. Der Datensatz ist nicht zu korrigieren und wird im Zuge der Datenbereinigung entfernt.

6.2.2 Datenersetzung

Eine weitere Methode ist die Ersetzung von fehlerhaften oder fehlenden Daten mit Daten aus alternativen Quellen (Referenzdatenbestände). Dies setzt voraus, dass die für das Ersetzen verwendete Datenquelle zuverlässig ist; optimaler Weise hat sie einen vollständigen Datenprüfprozess hinter sich und kann somit bedenkenlos verwendet werden. Im Gegensatz zur Methode "Entfernung fehlerhafter Daten" kann hier eine Korrektur erfolgen und der Datensatz gerettet werden.

Praxis-Beispiel

Ersetzung des Debitorennamens

Die Analyse der Tabelle "Debitoren" hat ergeben, dass ein Datensatz zwar eine Debitorennummer, aber keinen Debitorennamen aufweist; Adressdaten sind vorhanden und stimmig. Vermutlich wurde der Debitorenname im Zuge einer Stammdatenanpassung versehentlich entfernt.

Mittels eines Referenzdatenbestands kann durch die eindeutige Debitorennummer der Debitorenname rekonstruiert, mit den Adressdaten abgestimmt und im fehlenden Datensatz eingefügt werden.

6.2.3 Datenableitung

In bestimmten Fällen können fehlerhafte oder fehlende Daten durch Ableitung aus anderen Daten korrigiert werden. Hierfür ist in der Regel ein manueller Eingriff notwendig – in wenigen Ausnahmefällen wird sich dieser Vorgang automatisieren lassen.

Praxis-Beispiel

Ableitung des Namens aus dem fehlerhaften Vornamen

Bei der Datenanalyse hat sich ergeben, dass im Datenfeld "Name" eines Datensatzes kein Eintrag vorhanden ist; im dazugehörigen Datenfeld "Vorname" ist jedoch ein längerer Wert vorhanden. Da der Eintrag "Gottfried Müller" lautet, kann der fehlende Eintrag im Datenfeld "Name" durch Ableitung des (fehlerhaften) Werts im Feld "Vorname" korrigiert werden.

6.2.4 Standardwerte

In anderen Fällen lassen sich fehlende Werte durch Standardwerte ersetzen. Voraussetzung ist, dass für den fehlenden Wert ein eindeutiger, vordefinierter Wert (sog. "Default-Wert") zur Verfügung steht, dessen Verwendung die Datenqualität des betroffenen Datensatzes verbessert oder zumindest nicht "verschlimmbessert".

Praxis-Beispiel

Standard-Wert für internen Ansprechpartner

Bei den Debitorenstammdaten ist in einem Unternehmen neben den Daten zu den Debitoren jeweils ein interner Ansprechpartner aus dem Kreis der Mitarbeiter der Debitorenbuchhaltung einzutragen. Sofern im Rahmen des Data Profilings ein fehlender Wert im Datenfeld "Ansprechpartner" bei einem Debitorenstammsatz festgestellt wurde, soll im Zuge des Data Cleansings – gemäß interner Vorgaben – der Name des Gruppenleiters der Debitorenbuchhaltung als Default-Wert eingetragen werden.

6.2.5 Duplikatsentfernung

Ebenfalls unter Datenbereinigung fällt die Entfernung von Duplikaten (doppelte Datensätze). Duplikate stellen redundante Daten dar und sind zur Optimierung des Datenbestands und zur Fehlervermeidung unbedingt zu korrigieren. Im Rahmen der Bereinigung (Löschung des redundanten Datensatzes) ist wiederum zu prüfen und sicherzustellen, dass der verbleibende Datensatz in allen Belangen korrekte Werte enthält. Das Vorliegen von Duplikaten birgt die Gefahr, dass laufende Datenanpassungen während des Bestehens der Duplikate in unterschiedlichen Datensätzen erfolgen. Somit gibt es nicht ein korrektes und ein unkorrektes Duplikat; es...

Das ist nur ein Ausschnitt aus dem Produkt Haufe Finance Office Premium. Sie wollen mehr?

Jetzt kostenlos 4 Wochen testen

Anmelden und Beitrag in meinem Produkt lesen

Meistgelesene beiträge