Digitalisierung und Künstliche Intelligenz sind auf hochqualitative Daten angewiesen, um sinnvolle und wertschöpfende Resultate zu liefern. Denn hochqualitative Daten haben ganz konkrete Auswirkungen auf viele Branchen. Gerade die unglaubliche Dynamik der KI-Entwicklung sorgt für wachsende Aufmerksamkeit in Bezug auf die Qualität der Daten, die für Anwendungen im Umfeld generativer KI genutzt werden.
APARAVI hat sowohl branchenübergreifende als auch branchenspezifische Trends in Sachen Datenqualität identifiziert, die das Jahr 2024 prägen werden:
1. Embedded Permissions
Sie erlauben die rollenbasierte, feingranulare Kontrolle der Zugangsberechtigung direkt aus einer Applikation heraus. Damit wird sichergestellt, dass Benutzer ausschließlich auf die Funktionen, Daten oder Ressourcen zugreifen können, für die sie autorisiert sind. Durch die Vergabe von Zugriffsrechten bei der Datenklassifizierung kann die KI entscheiden, welcher Nutzer für welche Ergebnisse berechtigt ist. Der unbefugte Zugriff auf sensible Informationen wird damit von vornherein verhindert und die Konformität mit Security- und Compliance-Vorgaben sichergestellt.
2. Digitale Zwillinge in der Immobilienwirtschaft
Bei der Planung, dem Design, dem Betrieb, der Renovierung und dem Verkauf von Immobilienobjekten werden Digitale Zwillinge immer wichtiger. Sie bilden alle relevanten Informationen wie Layouts, Abmessungen, Materialien und Ausstattungen ab und erleichtern dadurch unter anderem das Facility Management, Leistungsanalysen, die Gebäudeüberwachung und -steuerung in Echtzeit sowie die Vorhersage des Wartungsbedarfs und unterstützen zudem bei Risiko- und Rentabilitätsanalysen. Dafür müssen unstrukturierte Daten wie Texte, Bilder, Audio- und Videodateien oder Echtzeitdaten aus Sensoren analysiert und eingebunden werden.
3. Regulierungen und Dokumentationspflichten im Finanzwesen
Banken und Finanzinstitute unterliegen spezifischen Regularien wie BAIT (Bankaufsichtliche Anforderungen an die IT), MaRisk (Mindestanforderungen an das Risikomanagement) sowie dem IT-SiG (IT-Sicherheitsgesetz 2.0) im KRITIS-Umfeld. Auch hier geht es häufig um unstrukturierte Daten, die hohes Risikopotenzial haben, etwa im Falle personenbezogener Informationen oder der sogenannten individuellen Datenverarbeitung (IDV). Um die entsprechenden Dokumentations-, Informations- und Meldepflichten einhalten zu können, müssen Daten jederzeit transparent und identifizierbar sein.
4. Datenlabore im Behördensektor
Datenlabore sind die praktische Umsetzung der neuen Datenstrategie der Bundesregierung in den Ministerien, etwa für besseren Datenaustausch im Gesundheitswesen, branchenspezifische Datenräume und Aufbereitung für KI-Projekte. Dafür ist, wie die Bundesregierung mehrfach erklärte, die Datenqualität von entscheidender Bedeutung. In der Regel liegen die Daten jedoch in unstrukturierter Form vor. Um Large Language Models (LLM) für den spezifischen Einsatz in der öffentlichen Hand trainieren zu können, müssen sie zuerst bereinigt, aufbereitet und klassifiziert werden.