Viele Unternehmen stehen vor der Herausforderung, dass ihre Daten von schlechter Qualität sind. Das liegt häufig an ineffizienten Prozesse und fehlender Governance. Informatica beschreibt fünf wesentliche Schritte für erfolgreiches Governed Data Management, welches die Qualität und Konsistenz von Daten sicherstellt und die Basis für die erfolgreiche Implementierungen von Künstlicher Intelligenz darstellt.
Mittlerweile setzen zahlreiche Unternehmen auf generative KI (GenAI) und beginnen, GenAI-Funktionen in ihre eigenen Arbeitsabläufe einzubinden. Dabei stoßen sie jedoch auf ein bekanntes Problem: schlechte Datenqualität. Ohne vertrauenswürdige Daten bietet KI nur einen geringen Mehrwert. Das Problem liegt unter anderem darin, dass die meisten Unternehmen heute nur über fehler- bzw. lückenhafte Datenverwaltungsprozesse verfügen, die aus ineffizienten Pipelines, unzureichendem Monitoring und fehlender Governance resultieren.
Um diese Herausforderungen zu unterstreichen, gaben 46 Prozent der von der Eckerson Group im Rahmen einer Erhebung befragten Datenverantwortlichen an, dass ihr Unternehmen nicht über ausreichende Datenqualitäts- und Data-Governance-Kontrollen verfügt, um KI/ML-Initiativen wie generative KI zu unterstützen. Datenqualität erhält jedoch auch im Hinblick auf die aktuelle Regulierung im Rahmen des EU AI Acts zusätzliche Relevanz.
Greg Hanson, Senior Vice President, Platform Specialist für EMEA und LATAM bei Informatica, erklärt in diesem Kontext: „Es ist klar, dass die Verantwortung für den Einsatz von KI nun fest bei den Unternehmen liegt, die sie in ihren Geschäftsprozessen einsetzen. Diese müssen sich also auf eine stärkere behördliche Aufsicht vorbereiten, indem sie sicherstellen, dass die Grundlagen und Kontrollen für KI-Tools robust sind. Dazu gehört eine vollständige Transparenz der Daten, die zum Trainieren von KI-Modellen verwendet werden, sowie der Entscheidungen, die KI-Modelle treffen und warum.”
Governed Data Management umfasst insgesamt fünf Prozesse: Datenintegration, Katalogisierung, Stammdatenmanagement (MDM), Datenmonitoring und Governance. Diese Prozesse werden wie folgt auf das gesamte Spektrum multistrukturierter Daten angewendet, um Daten an Analyse- und Betriebsabläufe zu liefern, die eingebettete GenAI-Funktionen enthalten.
- Daten-Integration
Datenteams entwerfen, erstellen und verwalten Pipelines, die Daten für alle Arten von Workflows aufnehmen und umwandeln. Data Engineers spielen in diesem Prozess eine Schlüsselrolle, indem sie drei kritische Phasen verwalten.
- Sie extrahieren, laden, filtern, verknüpfen und formatieren Tabellendatensätze, um BI- oder KI/ML-Projekte zu unterstützen.
- Sie arbeiten mit Data Scientists und ML-Ingenieuren zusammen, um Funktionen für das ML-Modelltraining und die Produktion vorzubereiten.
- Sie arbeiten mit NLP-Ingenieuren (Natural Language Processing), ML-Ingenieuren und Datenwissenschaftlern zusammen, um Text zu vektorisieren und in Vektordatenbanken zu laden, mit deren Hilfe Language Models (LM) trainiert und angefordert werden können
- Katalogisierung
Data Stewards und Data Engineers zentralisieren Metadaten im Datenkatalog, um Analyseteams bei der Erkennung, Organisation und Kuratierung aller ihnen zur Verfügung stehenden Datenprodukte zu unterstützen. Diese Metadaten umfassen Abstammung, Datenqualitätsbewertungen und Nutzungsstatistiken für multistrukturierte Datenbestände. Dazu gehören Tabellen, Protokolle, Textdateien usw. Innovative Anbieter katalogisieren auch KI/ML-Modelle neben herkömmlichen Metadaten, um gemeinsame Projekte zu ermöglichen, die Business Intelligence und KI/ML umfassen. Die meisten Kataloge sind noch nicht mit Vektordatenbanken oder LMs integriert, aber dies ist ein zukünftiger Punkt im Hinblick auf Konvergenz, der noch realisiert werden muss. - Mastering
MDM-Manager, Datenverwalter und Dateningenieure „meistern“ Daten, um die Genauigkeit und Konsistenz von Tabellendatensätzen zu verbessern, die Geschäftseinheiten wie Produkte, Kunden und Partner beschreiben. Sie gleichen Daten systemübergreifend ab und führen sie zusammen, um Standardattribute und -begriffe zu erstellen, Duplikate zu eliminieren und Diskrepanzen zu beseitigen. Die daraus resultierenden „goldenen Datensätze“ dienen dann als einzige Quelle der Wahrheit für herkömmliche Datenbanken und ML-Feature-Stores oder unstrukturierten Text, wie Datensätze aus dem Kunden-Service. - Monitoring
Data Engineers und Data Stewards beobachten die Qualität strukturierter und halbstrukturierter Daten, indem sie beispielsweise Stichprobenwerte validieren oder Metadaten wie Werteverteilungen und Datenvolumen, Schemata und Abstammung überprüfen. Solche Maßnahmen helfen dabei, Probleme mit den strukturierten oder halbstrukturierten Daten zu erkennen und zu beheben, die in KI/ML-Projekte einfließen. Daten-, CloudOps- und ML-Ingenieure beobachten auch die Leistung von Daten-Pipelines und der sie unterstützenden Infrastruktur. - Governance
Data-Governance-Beauftragte und Data Stewards beaufsichtigen die Mitarbeiter, Prozesse und Technologien, die Daten verwalten. Sie erstellen und setzen Richtlinien, Standards und Regeln durch, die die Bereitstellung und Nutzung von Daten für alle Arten von Analyseprojekten steuern. Governance-Programme konzentrierten sich traditionell auf strukturierte und halbstrukturierte Daten für BI-Projekte und müssen nun auch auf unstrukturierte Daten ausgedehnt werden. Diese Kategorie umfasst datenschutzbezogene Funktionen wie rollenbasierte Zugriffskontrollen und Datenmaskierung, die zum Schutz personenbezogener Daten beitragen.
Metadaten richtig verarbeiten
Metadaten dienen jeweils als Bindeglied für alle vorgestellten Schritte. Sie beschreiben die Eigenschaften von Datensätzen, darunter Attribute, Namen, Speicherorte, Strukturen, Schemata, Eigentumsverhältnisse, Abstammung und Verwendung. Unternehmen verwenden Metadaten schon seit langem, um Tabellen und andere strukturierte Datensätze in Datenbanken oder Data Warehouses zu organisieren.
Jetzt verwenden sie Metadaten auch, um unstrukturierte Objekte, wie Textdateien, zu organisieren, indem sie Etiketten hinzufügen, die wichtige Details wie Namen, Länge, Schlüsselbegriffe usw. beschreiben. Diese Metadaten helfen den LMs, das Gesuchte in den Vektordatenbanken zu finden und dann genauere und kontextuell relevante Ergebnisse zu liefern. Unternehmen nutzen auch große Mengen an Metadaten (manchmal im Petabyte-Bereich), um LMs zu trainieren und zu optimieren.
Governed Data Management legt den Grundstein für die erfolgreiche Planung und Durchführung von KI-Maßnahmen. Unternehmen sollten sich in diesem Zusammenhang sehr genau mit den einzelnen Phasen beschäftigen, um das notwendige Know-how im Vorfeld aufzubauen und auch in entsprechende Software-Lösungen zu investieren.