Bei der Programmierung von KI stehen Entwickler:innen weltweit immer wieder vor der Problematik von fehlerhaften Lerndaten. Diese führen dazu, dass die Software auf einem falschen Fundament konzipiert wird, woraus sich Folgefehler in der Ausführung ergeben. Jüngst fasste eine umfassende Metastudie diese Inkonsistenz in der aktuellen Entwicklung zusammen.

Weshalb die KI-Branche ein grundlegendes Problem verkennt, am falschen Ende spart und welche Lösungsansätze es dafür gibt, erklärt der KI-Experte Dr. Daniel Kondermann. Als ehemaliger Lead Data Analyst bei Apple, Privatdozent an der Uni Heidelberg im Bereich Machine Learning und Gründer sowie CEO des Annotations-Unternehmens Quality Match verfügt er über jahrelange Erfahrung in diesem Bereich:

“Bei der Entwicklung von KIs werden Unmengen an Daten benötigt, die zuvor entsprechend annotiert werden müssen. Je schlechter der jeweilige Datensatz beschriftet ist, desto höher ist dementsprechend die Wahrscheinlichkeit von Fehlern in der Ausführung.

Aufgrund noch fehlender Standards für diese Prozesse, wie auch in der jüngsten Metastudie – veröffentlicht im ISSI-Journal Quantitative Science Studies –bemängel, ist das Einfallstor für Unsicherheiten entsprechend groß. So weit, so bekannt. Ich sehe jedoch noch ein weiteres Grundproblem, welches den Siegeszug von KIs entscheidend ausbremst.

Die Unternehmen setzen bei der Beschaffung von Trainingsdaten bevorzugt auf große Massen zu möglichst niedrigen Preisen. Die Branche spart damit jedoch am falschen Ende. Im Ergebnis erhalten sie Datensätze, die von schlecht geschulten oder falsch motivierten Annotatoren bzw. sogenannten Clickworkern beschrieben werden.

Gleichzeitig mehren sich durch das hohe Aufkommen die Fehler. Den KIs liegt folglich zwar eine Vielzahl an Daten zugrunde jedoch auch viel Unnötiges bzw. Falsches. Die Branche sollte daher Umdenken und ihr Budget für kleinere, dafür aber präzise abgestimmte Trainingsdaten nutzen und anschließend das bestehende Wissen generalisieren.

Das zweite Grundproblem neben der mangelhaften Beschreibung ist die Erfassung von Unsicherheiten. Zu den Trainingsdaten fehlt in aller Regel eine Beschreibung wie eine Gebrauchsanweisung oder Beipackzettel – was funktioniert gut und wo könnten Probleme auftreten. Daher ist in der Entwicklung nicht bekannt, welche substanziellen Abstriche in der Umsetzung zu erwarten sind.

Dem kann vorweggegriffen werden. Bestehende Systeme bieten bereits heute die Möglichkeit, Datensätze auf Herz und Nieren zu prüfen, um eine klare Einschätzung zu erhalten. Gepaart mit effizienter Annotation können beiden Maßnahmen ein solides Fundament für die erfolgreiche Entwicklung von KIs formen.”

Weitere Beiträge....