Halloween steht vor der Tür – am 31. Oktober erwacht das Grauen zum Leben. Weniger Spuk und Grusel würde man sich bei so manchen Ergebnissen von ChatGPT wünschen. Solche Large Language Models (LLM) liefern zwar durchaus beeindruckende Ergebnisse, sind aber oftmals nicht in der Lage, logische und vor allem wahrheitsgemäße Schlussfolgerungen zu ziehen.
Generative KI hat in den vergangenen Monaten einen riesigen Boom erlebt. Hinter den nützlichen und vielseitigen Tools stecken sogenannte Large Language Models (LLM), die mit großen Datensätzen trainiert werden, um Texte zu verstehen und zu generieren. Sie nutzen Vektoren für die Abbildung von Beziehungen zwischen Textelementen und sagen eigentlich nur die Wahrscheinlichkeit einer bestimmten Reihenfolge von Wörtern voraus.
Wirklich intelligent sind sie nicht. Deshalb können sie auch nicht logisch und wahrheitserhaltend schlussfolgern und liefern manchmal irreführende oder gar falsche Informationen. Man spricht dann davon, dass die KI halluziniert.
Wie schnell die KI danebenliegen kann, zeigt ein einfaches Beispiel.
Frage an ChatGPT: Ein Mann und eine Frau sitzen auf einer Bank im Park. Ein anderer Mann kommt und fragt: „Seid ihr Mann und Frau?“ Die auf der Bank sitzende Frau antwortet: „Wir sind zwar kein Ehepaar, aber meine Mutter hat seine Mutter geboren." In welcher Beziehung stehen sie zueinander?
Antwort von ChatGPT: Sie sind Halbgeschwister. Die Frau auf der Bank erklärt, dass ihre Mütter dieselben sind, was bedeutet, dass sie dieselbe Mutter teilen, aber nicht unbedingt denselben Vater. Daher sind sie kein Ehepaar; sie sind Halbgeschwister.
Jedes Kind kennt das logische Konzept von Familienbeziehungen und könnte, hilfsweise auch mittels eines abstrakten Stammbaums, herleiten, dass es sich um Tante und Neffe handelt – nicht aber ChatGPT. Anderen intelligenten Systemen, die Wissen beispielsweise mittels Prädikatenlogik darstellen, wäre ein solcher Fehler ebenfalls nicht unterlaufen.
Um Software mit generativer KI intelligenter zu machen, braucht es eine Architektur aus KI und regelbasierten Komponenten/Agenten sowie gute Praktiken, um diese zu entwickeln und zu betreiben. Folgende Herausforderungen gilt es dabei zu lösen:
- Voreingenommenheit: LLMs lernen aus Trainingsdaten und eignen sich darin enthaltene Voreingenommenheiten an. Das kann zu Resultaten führen, die Stereotype verstärken oder bestimmte Gruppen diskriminieren.
- Repräsentativität: LLMs sind stark von Datenqualität abhängig und ihre Leistung kann in Bereichen mit begrenzten oder qualitativ schlechten Trainingsdaten eingeschränkt sein.
- Fehlendes Verständnis: LLMs generieren zusammenhängend klingende Texte auf Basis von Wahrscheinlichkeiten, ohne jedoch ein echtes Verständnis des Inhalts zu haben und Schlussfolgerungen ziehen zu können.
- Erklärbarkeit: LLMs sind häufig Black-Box-Systeme und bieten somit keine Transparenz, wie sie zu ihren Entscheidungen kommen. Das macht es schwer, Ergebnisse nachzuvollziehen und zu überprüfen.
- Adjustierung: Die Feinabstimmung für bestimmte Aufgaben kann komplex sein und führt möglicherweise nicht immer zu den gewünschten Ergebnissen.
- Überanpassung: Werden LLMs zu sehr auf die Trainingsdaten spezialisiert, führt das leicht zu Problemen mit neuen Daten. Die Resultate mögen plausibel erscheinen, sind aber nicht immer genau oder zuverlässig.
- Validierung und Bewertung: LLMs benötigen zuverlässige Metriken, um die Qualität und die Sicherheit der generierten Inhalte beurteilen zu können.
„Um intelligente Systeme und das Autonomous Enterprise erfolgreich auf den Weg zu bringen, greifen viele Punkte ineinander. Das reicht von der KI-Infrastruktur über die passenden Modelle bis hin zu abgestimmten Vorgehensweisen“, sagt Florian Lauck-Wunderlich, Senior Project Delivery Leader bei Pegasystems. „Generative KI bietet unzählige neue Möglichkeiten, jedoch sollten sich Anwender und Software-Architekten immer auch den Grenzen und Herausforderungen in der Nutzung bewusst sein.“