Data-Mining-Verfahren: Anwendung im Beschaffungscontrolling / 4.2 Prozessphasen im Detail

Marcel Graf, Holger Müller

1. Aufgabenverständnis

Ausgangspunkt des CRISP-DM ist das Aufgabenverständnis innerhalb der jeweiligen Fachabteilung, die zu Beginn die Erwartungshaltung sowie eine grobe Aufgabenstellung für den Data Scientist skizziert, die sukzessiv verfeinert und in datenanalytische Teilaufgaben zerlegt werden kann. Dabei ist es seitens der Fachabteilung nicht zwingend erforderlich, die doch recht hohe Anzahl an Analyseverfahren im Detail zu kennen, aber die Zielstellungen der wesentlichen Verfahrensgruppen sollten im Wesentlichen bekannt sein.

2. Datenverständnis

Für das Datenverständnis sind die Daten verschiedener Speicherorte, Dateien unterschiedlichen Formats und verschiedene Dokumentarten zu sammeln und zu verstehen.^{^[1]} Dabei ist eine Rückkopplung in zweifacher Hinsicht mit dem Aufgabenverständnis zwingend. Zum einen ist die Frage zu klären, welche Rohdaten zur Verfügung stehen, was wiederum entweder zu einer Eingrenzung oder sogar zu einer Erweiterung der Aufgabenstellung führen kann. Zum anderen unterscheiden sich die Verfahren hinsichtlich der Ergebnisse und der benötigten unterschiedlichen Datenstrukturen, was wiederum die Definition der Teilaufgaben beeinflusst.^{^[2]}

3. Datenaufbereitung

In der Datenaufbereitung, die einen oft unterschätzten beträchtlichen Teil der Projektzeit in Anspruch nimmt, entstehen aus Rohdaten strukturierte und vollständige Daten mit dem Ziel, den Informationsgehalt zu verdichten. Dabei sind Daten für die spätere Analyse vorzubereiten und nachfolgend zu verknüpfen.^{^[3]}

4. Modellbildung

Anschließend wird das Analysemodell entwickelt. Auch hier ist zu erwarten, dass es zu Rückkopplungsschleifen kommt, da im Rahmen der Modellbildung häufig neue Erkenntnisse über die Daten (z. B. in Datensätzen nicht eindeutig zuordenbare oder fehlende Werte) gewonnen werden, d...

Jetzt kostenlos 4 Wochen testen

Anmelden und Beitrag in meinem Produkt lesen