iX 2/2024
S. 102
Wissen
Datenverwaltung

Datenqualität von Data Lakes sichern

Ohne Metadaten lässt sich mit den in Data Lakes gesammelten Informationen wenig anfangen. Beim Verwalten der Metadaten und dem Überwachen ihrer Qualität hilft das Observability-Werkzeug OpenTelemetry.

Von Christian Del Monte

Data Lakes spielen eine große Rolle bei der On-Demand-Verarbeitung großer Mengen heterogener Daten, die in hoher und zeitlich variabler Geschwindigkeit erzeugt und genutzt werden. Ein Data Lake beruht dabei auf zwei Grundprinzipien: dem Sammeln und Speichern von Daten im Rohformat und dem Verwalten eines Metadatensystems, das für das Verarbeiten von Analyseabfragen, das Datenqualitätsmanagement und das Data Reasoning unabdingbar ist. Letzteres ist eine Kombination aus statistischem und probabilistischem Denken, wobei der Schwerpunkt im Verknüpfen abstrakter Muster mit konkreten, messbaren Daten liegt.

Metadaten spielen eine entscheidende Rolle im Data Lake. Ihre Verwaltung ist nicht trivial, da sie dazu neigen, im Laufe der Zeit an Qualität zu verlieren. Das wirkt sich negativ auf die Ergebnisse der Analyseprozesse aus. Um die Qualität von Metadaten zu erhalten, ist es zuerst wichtig zu verstehen, was Metadaten ausmacht, wovon ihre Qualität abhängt und wie sich diese messen lässt.

Kommentieren