Seit der Veröffentlichung von ChatGPT stellt sich Cybersicherheitsexperten die Frage, wie sie die Verfälschung der GenKI kontrollieren sollen. Sie gehen zunächst von einem Bedrohungsszenario aus, nämlich dass durch das Data Posining der Output der GenKI bereits verfälscht wird. Bereits als erste Chatbots mit Machine Learning trainiert wurden und dann vorgefertigte Antworten liefern sollten, gab es Manipulationen. Ein Beispiel ist Twitter jetzt X.
Von Kevin Bocek, Chief Innovation Officer bei Venafi.
Schon 2016 fanden es Mitglieder des Kurznachrichtendienstes lustig den damaligen Chatbot Tay mit rassistischen Inhalten zu füttern. Das Projekt wurde daraufhin innerhalb eines Tages beendet. Ähnlich ergeht es im Grunde genommen allen öffentlich zugänglichen GenKI-Modellen. Sie werden von trollenden Nutzern auf kurz oder lang mit Desinformationen gefüttert oder aufgefordert danach zu suchen. Der Nutzer selbst ist ein Problem, doch es droht noch ein weit Schlimmeres.
Split-View- und Frontrunning Poisining in der Praxis
Lange Zeit stellte dieses Szenario nämlich die einzige Gefährdung dar. Doch seit letztem Jahr hat sich das geändert. Forscher der ETH Zürich haben in Zusammenarbeit mit Tech Firmen wie Google und NVIDIA in einer Studie nachgewiesen, wie sich KI-Poisining umsetzen lässt. Die Forscher stellten zwei Angriffsarten zum Vergiften von Datensätzen vor. Die Studie zeigt, dass sich mit diesen Attacken 10 beliebte Datensätze wie LAION, FaceScrub und COYO vergiften lassen.
Beim ersten Angriff, dem Split-View-Poisoning, wird die Veränderlichkeit von Internetinhalten ausgenutzt, um sicherzustellen, dass die anfängliche Ansicht des Datensatzes durch einen Kommentator von der Ansicht abweicht, die von nachfolgenden Clients heruntergeladen wird.
Unter Ausnutzung bestimmter ungültiger Vertrauensannahmen zeigten die Forscher, wie sie 0,01 Prozent der LAION-400M- oder COYO-700M-Datensätze mit einem Aufwandsbudget von nur 60 US-Dollar vergiften konnten. Der zweite Angriff, das Frontrunning Poisoning, zielt auf Datensätze im Internet ab, die in regelmäßigen Abständen Snapshots von crowd-gesourcten Inhalten erstellen. Hier entschieden sich die Forscher für Wikipedia. Die Studie belegt, dass ein Angreifer nur ein zeitlich begrenztes Fenster benötigt, um bösartige Daten einzuschleusen.
Diese Art von Angriffen entwickelt sich zu einer ernsthaften Bedrohung und wird Auswirkungen auf die Software-Lieferkette haben. Durch gezielte Angriffe auf ein- und ausgehende Datenpipelines können Angreifer Daten manipulieren, um KI-Modelle und die von ihnen erzeugten Ergebnisse zu verfälschen und sogar vergiften. Auch kleine Änderungen am Code eines KI-Modells während des Trainings können gravierende Auswirkungen haben. Jede böswillige Änderung an einem KI-Modell - egal wie unbedeutend sie zu sein scheint - wird verstärkt, sobald das Modell in Produktion ist und eigenständig handelt.
Angesichts der Tatsache, dass KI in immer größerem Umfang in geschäftskritischen Anwendungen und Services eingesetzt wird, ist der Schutz der Integrität dieser Systeme von entscheidender Bedeutung. In Branchen wie der verarbeitenden Industrie und der chemischen Industrie sind Kill Switches in Soft- und Hardware bereits weit verbreitet. Sie bieten eine sichere Möglichkeit, um zu verhindern, dass eine gefährliche Situation außer Kontrolle gerät und irreparable Schäden anrichtet.
Deshalb stellt sich die Frage, wie ein Kill Switch für KI wie GenKI aussehen sollte. Falls eine weitverbreitete GenKI verfälscht wird, müssen IT-Experten und vor allem IT-Sicherheitsfachkräfte sie kontrollieren und mögliche Schäden beheben können. Die IT sieht solche Auswirkungen bereits bei zahlreichen Angriffen auf Cloud Provider oder aber Drittsoftware wie bei Solarwinds oder sogar bei Sicherheitssoftware wie Firewalls von Fortinet.
Fazit
Eine Lösung für das zu Beginn geschilderte Problem kann nur ein Kill-Switch für KI-Modelle sein. Denn anstatt eines einzelnen Kill Switch pro KI-Modell könnte es Tausende von Maschinenidentitäten geben, die an ein Modell gebunden sind und es in jeder Phase schützen - sowohl beim Training als auch in der Produktion. IT-Sicherheitsexperten behalten die Kontrolle, wenn die KI von Identitäten abhängig gemacht wird.
Falls die KI abtrünnig wird, werden die betroffenen Identitäten widerrufen. Das bedeutet, dass sie nicht mehr mit anderen Maschinen interagieren kann. Sie wird dann vom Rest des Systems isoliert. Wenn ein KI-System von Hackern kompromittiert wird, kann die Aktivierung dieses Kill Switch verhindern, dass es mit bestimmten Diensten kommuniziert oder es ganz abschalten, um weiteren Schaden zu verhindern und die Bedrohung einzudämmen.