von Simon Freese, k+k Akademie

Was Sie über Datenqualität wissen sollten!

Eine kleine Einführung

Täglich werden Daten in Unternehmen verarbeitet und genutzt. Dabei häuft sich eine Vielzahl von Adressdaten, zeitlicher Daten oder unternehmensspezifischer Daten an. Um eine reibungslose Verarbeitung der Daten zu gewährleisten, müssen diese überprüft werden. Das Ergebnis dieser Prüfung liefert einen Wert: die Datenqualität. Die Datenqualität entspricht dem Zustand der verwendeten Datenbestände im Unternehmen.

Prozess-Kreislauf zur Steigerung der Datenqualität

Um die Datenqualität zu prüfen, müssen Anforderungen an die Daten definiert werden. Der Erfüllungsgrad dieser Anforderung bildet den Wert für die Datenqualität. (Morbey 2011, S. 16)

Vollständigkeit und Korrektheit

Die Anforderungen werden in Kennzahlen ausgedrückt. Typische Kennzahlen sind die Vollständigkeit und die Korrektheit der Daten. Für die Vollständigkeit zum Beispiel kann die Anzahl von Nullwerten der Felder, also leere Felder eines Datenbestands, als Ergebnis festgelegt werden. Daten, die Leerfelder aufweisen, sind demnach nicht vollständig. Die Korrektheit lässt sich beispielsweise als fehlerfreie Übernahme von Daten aus einem Ziel- in ein Quellsystem definieren. Sind Daten im Zielsystem aus verschiedenen Daten des Quellsystems zusammengesetzt, muss außerdem die Transformation korrekt sein. Nachdem die Kennzahlen definiert sind, können sie auf die relevanten Datenbestände angewandt werden und ergeben den Wert der Datenqualität.

Zieldefinition

Um zu ermitteln, ob die Qualität der Daten zufriedenstellend ist, muss vor der Prüfung ein Ziel definiert werden. Für den Faktor Vollständigkeit ist beispielhaft festgelegt worden, dass 95% der Felder befüllt sein müssen. Nachdem die Datenqualität gemessen wurde, werden die Ergebnisse interpretiert. Die Messung der Datenqualität kann beispielsweise über ein Software-Tool erfolgen.
Liegen die Resultate über dem Ziel, ist die Datenqualität zufriedenstellend. Liegt der Wert unter dem Ziel, müssen Maßnahmen eingeleitet werden. Ein zufriedenstellender Wert wäre zum Beispiel 96%, schlecht hingegen sind nur 80% befüllte Felder.

Maßnahmen zur Steigerung der Datenqualität

Die eingeleiteten Maßnahmen variieren je nach Kennzahl. Das Ziel einer Maßnahme ist eine Steigerung der Datenqualität, um das definierte Ziel der Qualität zu erreichen. Eine Maßnahme für das Beispiel zuvor könnte sein, die leeren Felder zu befüllen, um so die Quote leerer Felder zu senken. Je nach Kontext muss eine Methode für die Fehlerausbesserung ermittelt werden. Die leeren Felder können über ein Software-Tool befüllt werden. Dies setzt voraus, dass die Software erkennt, welche Werte einzusetzen sind. Wenn beispielsweise die Attribute Postleitzahl oder Ort vorhanden sind, kann das jeweils nicht vorhandene Attribut durch eine Software automatisiert ergänzt werden. Bei nicht logisch zusammenhängenden Daten müssen diese manuell ergänzt werden.

Nach der Durchführung der Maßnahmen müssen die Ergebnisse sowie die eingeleiteten Maßnahmen dokumentiert werden. Um den Erfolg der Maßnahmen zu ermitteln, startet der Prozesskreis erneut. Daten werden iterativ überprüft, um die Qualität konsequent zu erhalten oder zu erhöhen.

Grundsätzlich wirkt sich die Datenqualität auf alle im Unternehmen ablaufenden Prozesse, Anwendungen und Aufgaben aus, die mit Daten arbeiten. (Morbey 2011, S. 20) Schlechte Datenqualität hat daher erhebliche wirtschaftliche Auswirkungen auf ein Unternehmen. (Wang/Strong 1996, S.1)

Literaturverzeichnis

Guilherme Morbey (2011): Datenqualität für Entscheider in Unternehmen, Gabler Verlag, Springer Fachmedien Wiesbaden GmbH
Richard Wang, Diane Strong (1996): Beyond Accuracy: What Data Quality Means to Data Consumers, Journal of Management Information Systems Vol.12, No. 4

Zurück

Einen Kommentar schreiben