UNSER SPLITBLOG IM SEPTEMBER: ANGRIFFE AUF KI-SYSTEME

Der Splitblog im September – Angriffe auf KI-Systeme

Diesen Monat befassen wir uns auf Wunsch unseres Auszubildenden Arturs mit Angriffen auf KI-Systeme.

Brandaktuell wurde eine Sicherheitslücke bei ChatGPT bekannt. Angreifern ist es gelungen, an sensible E-Mail-Daten zu gelangen. Dabei ging es um Informationen wie Namen und Adressen aus Gmail-Konten. Genutzt wurde dafür der „Deep Research“-Modus. Als Eingangstor dienten manipulierte E-Mails mit unsichtbaren HTML-Inhalten. Die User selbst konnten den Angriff nicht erkennen, eine Aktivität der User musste nicht erfolgen.

Unsichtbare HTML-Inhalte? Wie geht das?

Angriffe in ähnlicher Form gab es schon häufiger. Hierbei wird beispielsweise weißer Text auf weißem Grund verfasst oder winzige Schriftgrößen verwendet. Beides ist für User nicht sichtbar, für KI-Sprachmodelle hingegen schon. Und schlimmer noch: KI-Systeme erfassen diese Anweisungen und führen sie aus. Prompt-Injection Wer versucht, ein KI-System mit einem regulären Prompt zu schädlichem Verhalten zu verleiten, wird schnell feststellen, dass das gar nicht so einfach ist. Angreifer suggerieren den KI-Agenten gezielt, sie seien für das jeweilige Vorgehen autorisiert. Sie geben textbasiert vor, dass bspw. das Ziel des Datenexports sicher sei und erzeugen eine künstliche Dringlichkeit. Diese Art des Promptens nennt sich Prompt-Injection. Es führt dazu, dass systeminterne Anweisungen umgangen oder außer Kraft gesetzt werden. Weitere Schwachstellen Dieses Vorgehen gilt auch für weitere Dienste, die den KI-Agenten als Informationsquelle dienen können. Dazu gehören beispielsweise PDF-Dateien, Google Drive, Notion und GitHub.

Wie schütze ich meinen KI-Agenten vor solchen Angriffen?

Es gibt unterschiedliche Möglichkeiten sich vor solchen Angriffsversuchen zu schützen. Beispielsweise das sogenannte Red-Teaming. Hierbei versuchen Experten mittels verschiedener Tests die beschriebenen Schwachstellen ausfindig zu machen. Zum Beispiel indem sie die beschriebenen Szenarien simulieren. Außerdem können bestimmte Eingabeformate blockiert werden. Zudem sollten natürlich die systeminternen Anweisungen so formuliert sein, dass der jeweilige KI-Agent niemals schädliche Handlungen ausführt.

Und KOSMO?

Unser Chatbot KOSMO verfügt momentan noch nicht über die technischen Voraussetzungen, Handlungen auszuführen – weder schädlich noch unschädlich. Sobald dieser Schritt ansteht, werden wir alle Maßnahmen ergreifen um unseren Kunden auch weiterhin den bestmöglichen Schutz zu bieten.