Eine gute Datenqualität ist das A und O bei der Digitalisierung. Diese Binsenweisheit sollte eigentlich jedem klar sein. Trotzdem verzichten immer noch zu viele Unternehmen auf intelligente Tools, um Herr über ihre Daten zu werden und deren volles Potenzial auszuschöpfen, findet Franz Kögl, Vorstand von IntraFind, dem Spezialisten für Enterprise Search und KI.
Immer größere Datenmengen und immer leistungsfähigere Analysetools eröffnen Unternehmen neue, datenbasierte Geschäftsmodelle. Wie erfolgreich diese sind, hängt allerdings entscheidend von der Qualität der Daten und damit auch von den Prozessen und Lösungen ab, die zur Bereinigung, zur Qualitätssicherung und zur Anreicherung bereitstehen.
Sie sind notwendig, um Redundanzen zu vermeiden, Fehler zu erkennen und zu beheben und einen ganzheitlichen Zugriff zu ermöglichen.
Eine unzureichende Datenqualität dagegen – und man kann es nicht oft genug wiederholen – führt schnell zum Verlust von Marktanteilen, da Geschäftsentscheidungen unter falschen Annahmen getroffen werden. Das ist der Fall, wenn alte oder unvollständige Daten vorliegen, diese nicht validiert oder sogar falsch getaggt beziehungsweise klassifiziert sind.
Einsparpotentiale durch Prozessverbesserungen bleiben ungenutzt. Zudem können durch fehlende oder nicht auffindbare Daten schwerwiegende Compliance-Risiken entstehen. Erhält beispielsweise ein Unternehmen ein Auskunftsersuchen nach Artikel 15 der DSGVO oder müssen bestimmte personenbezogene Daten gelöscht werden, gilt es, rasch zu reagieren.
Was dabei viele Firmen unterschätzen, ist die schnelle und vor allem vollständige Lokalisierbarkeit der Daten. Denn sie liegen in der Regel nicht in strukturierten Datenbanken, sondern vor allem unstrukturiert auf Fileservern, in E-Mails, Textdateien, Tabellen oder anderen Dokumenten vor. Solche Datensilos stellen Unternehmen grundsätzlich vor eine Herausforderung.
Was zeichnet nun „gute“ Daten aus? Und gibt es eigentlich auch „schlechte“? Zuallererst, nein – es gibt keine schlechten Daten, sondern nur schlecht gepflegte. Natürlich lassen sich Informationen mit wenig Aussagekraft für die jeweilige konkrete Aufgabenstellung aussortieren. Die meisten Datensätze sind allerdings ein kostbares Gut, das sich Unternehmen zunutze machen sollten.
Denn eine hohe Datenqualität bedeutet, zu jeder Frage die richtige Antwort zu erhalten und auf deren Grundlage die richtige Entscheidung treffen zu können. Das setzt zunächst einmal voraus, dass benötigte Informationen den Usern zur Verfügung stehen und nicht irgendwo in tief verborgenen Unterverzeichnissen und Dateiordnern verstauben. Gute Daten sind also erschließ- und damit nutzbar.
Werden die Informationen dann noch sinnvoll vernetzt und gegebenenfalls auch mit Metadaten veredelt, haben die Mitarbeitenden alle Informationen, die sie brauchen. Gute Daten zeichnen sich dadurch aus, dass die Metainformationen vollständig sind, also zum Beispiel Urheber, Schlüsselwörter, Tags und Gültigkeitsdauer gepflegt werden.
Vor dem Hintergrund, dass die dafür erforderliche und für den User ohne Zuhilfenahme automatischer Tools lästige Verschlagwortung oftmals nicht verpflichtend ist, sieht die Realität leider anders aus: Metadaten werden nicht sauber gepflegt oder – wenn überhaupt – sehr subjektiv angelegt.
Dabei sind moderne Lösungen auf Basis Künstlicher Intelligenz längst in der Lage, diese Zusatzinformationen automatisch durch die Analyse des Dokumenteninhalts zu erzeugen. So lassen sich Dokumente lückenlos nach gewünschten oder rechtlich vorgegebenen Kriterien analysieren.
Unternehmen sollten sich unbedingt die Frage stellen, ob sie das Potenzial ihrer Daten wirklich ausschöpfen. Ist die Antwort darauf nicht zufriedenstellend, riskieren sie viel.