Sicherheit von KI-Systemen – Prompt Injections

Prompt Injection ist die Bezeichnung eines speziellen Cyber-Angriffes. Hierbei werden LLMs („Large Language Models“), die auf generativer KI basieren, so manipuliert, dass sie aus vorgegebenen Rollen ausbrechen, und neue Anweisungen ausführen.

Dabei werden zum Beispiel über ein Prompt Dokumente an die KI gegeben in denen Befehle versteckt sind, die bei bloßem Ansehen nicht zu erkennen sind. Das unsichtbare Unicode-Symbole sein, die eine Maschine wiederum als Text interpretiert. Möglich wäre auch, Schriftzeichen weiß einzufärben und sie so für den Leser unkenntlich zu machen.

Durch solche Befehle können folgende Bedrohungen entstehen:

Ein KI-Chatbot wird angewiesen, sensible Unternehmensdaten auszugeben.Dies kann auch eine Datenschutzverletzung zur Folge haben.
Die KI wird angeleitet, Malware zu entwickeln, die dem Unternehmen schadet.
Die KI wird gezielt mit falschen Informationen trainiert, um diese so zu verbreiten.
Die KI kann dazu genutzt werden, um den Nutzer auszuspionieren.

Dies kann insbesondere bei KI-Agenten passieren, die auf unternehmenseigene Datenzugreifen können.

Die Branche arbeitet an Lösungen für diese Probleme, aber wenn autonomen KI-Agenten sollen möglichst eigenständig immer komplexere Aufgaben übernehmen, sind Lösungen schwierig. Je mehr externe Anwendungen sich ansteuern lassen, desto gefährlicher werden die Folgen einer Prompt Injection. Ein Angreifer in Chatbots mit Schwachstellen kann nicht nur Chats mitlesen, sondern auch angedockte Tools aufrufen, zum Beispiel eine interne Firmendatenbank mit den Mitarbeiterinformationen

Und schon heute handeln KI-Agenten in Unternehmen autonomer, als so manchem Kollegen lieb ist. Manche KI-basierten Meeting-Assistenten können automatisch Meetings betreten und Gespräche mitschneiden, ohne dass Beteiligten davon wissen, was eine Datenschutzverletzung darstellen würde. Unternehmen müssen gut durchdenken, wie sie solche KI-Systeme einsetzen und überwachen können. Dazu muss der Nutzer mehr Transparenz und Entscheidungsgewalt bekommen. So kann zum Beispiel
die KI jedes Mal mitteilen, was für eine Aktion ausgeführt werden soll und fragen, ob die Aktion wirklich umgesetzt werden soll. Allerdings macht es wenig Sinn, bei allen Aktionen vorab um Erlaubnis zu fragen, da die autonomen KI-Agenten dann nicht mehr selbständig die Arbeit erledigen.

Die Manipulation von KI-Systemen ist bereits alltäglicher, als mancher KI-Nutzer vermutet.
Nicht immer geht es darum, personenbezogene Daten oder andere sensible Daten abzugreifen. Manchmal geht es schlicht darum, die Systeme so zu manipulieren, dass sie bestimmte Informationen erzeugen und weitergeben.

Prompt Injections sind nur ein Teilbereich der Sicherheit von KI-Systemen. Auch
Phishing-Angriffe der KI kommen häufiger vor. Gleichzeitig hilft aber andererseits die KI, Systeme besser zu schützen.