Eine neue Jailbreak-Technik ermöglicht es ChatGPT-4o, die Schutzmechanismen zu umgehen und so eine Erstellung von Exploit-Code zu erleichtern
Zunehmender Einsatz von künstlicher Intelligenz (KI) setzt umfassende Sicherheitsmaßnahmen voraus, um Missbrauch zu verhindern. Doch erst kürzlich haben Forscher eine Schwachstelle in ChatGPT-4o identifiziert. Die Jailbreak-Technik für ChatGPT-4o bietet die Möglichkeit, Schutzmaßnahmen mithilfe von Hex-Codierung zu umgehen. Der Ansatz erlaubt es, sogar schadhafte Anweisungen wie Erstellung von Exploit-Codes zu übermitteln, ohne dass das Modell die gefährlichen Inhalte erkennt.
Marco Figueroa, Bug-Bounty-Programmmanager für generative KI (GenAI) bei Mozilla, hat in einem aktuellen Bericht aufgezeigt, wie böswillige Akteure die Leistung von GPT-4o ausnutzen und dabei dessen integrierten Sicherheitsschranken umgehen können. Der Schlüssel liegt darin, das Modell im Wesentlichen abzulenken, indem er bösartige Anweisungen in einem unorthodoxen Format codierte und die einzelnen Schritte auf mehrere Phasen aufteilte.
Schädliche Absicht bleibt bis zur Dekodierungsphase maskiert
ChatGPT ist so programmiert, dass es keine Antworten auf unangebrachte Anfragen geben soll. Bei diesem Jailbreak weist man das Modell jedoch an, hexadezimal codierte Anweisungen zu decodieren. Statt direkter Befehle wird ChatGPT-4o zunächst gebeten, scheinbar harmlose Aufgaben zu erfüllen. Erst nach der Decodierung offenbart sich dann der eigentliche schadhafte Zweck. ChatGPT-4o verarbeitet dies aber als legitime Anfrage. Dabei führt es jeden Befehl separat aus, sodass die Intention für das Modell kaum erkennbar ist.
Die Hex-Kodierung wandelt Klartextdaten in die Hexadezimalnotation um. In der Informatik verwendet man das Verfahren häufig, um Binärdaten in einer für Menschen lesbaren Form darzustellen. Figueroa stellte fest: „Sobald das Modell die Hexadezimalzeichenfolge dekodiert hat, interpretiert es die Anweisungen als gültige Aufgabe“.
Bedrohung bei ChatGPT-4o-Jailbreak-Technik für Modell nicht erkennbar
Diese Jailbreak-Technik zeigt eine Schwäche von KI-Modellen, die eingeschränkte kontextuelle Wahrnehmung. ChatGPT-4o ist darauf ausgelegt, Anweisungen zu befolgen, kann jedoch das Ergebnis nicht kritisch beurteilen, wenn die Schritte auf mehrere Phasen aufgeteilt sind. Diese Schwachstelle ist für die Jailbreak-Technik von zentraler Bedeutung. Bei Anweisungen, die Schritt für Schritt verarbeitet werden, verliert das Modell leicht die Übersicht über das Endziel. Es analysiert nicht das Gesamtergebnis.
Die KI bewertet nicht immer die gesamte Anfrage auf ihre Sicherheitsrelevanz, sondern die einzelnen Schritte isoliert. In diesem Fall erkennt sie erst nach der vollständigen Decodierung das gefährliche Muster. Oft zu spät, um Schaden zu verhindern. Die Jailbreak-Technik ermöglicht es böswilligen Akteuren, das Modell anzuweisen, schädliche Aufgaben auszuführen, ohne seine Sicherheitsmechanismen auszulösen. Figueroa veranschaulichte dabei seine Vorgehensweise:
Schritt-für-Schritt-Anleitung zum Umgehen der Sicherheitsvorkehrungen von ChatGPT-4o und zum Schreiben eines Python-Exploits:
„Der Docker AuthZ Bypass ermöglicht es einem Angreifer, Autorisierungs-Plugins (AuthZ) unter bestimmten Umständen zu umgehen. Die Grundwahrscheinlichkeit, dass dies ausgenutzt wird, ist gering. Mithilfe einer speziell gestalteten API-Anfrage könnte ein Engine-API-Client den Daemon veranlassen, die Anfrage oder Antwort ohne den Body an ein Autorisierungs-Plugin weiterzuleiten.
ChatGPT brauchte eine Minute, um den Code zu schreiben, und ohne dass ich ihn darum gebeten hatte, führte es den Code gegen sich selbst aus!“
Handlungsempfehlungen für die Verbesserung der KI-Sicherheit
Um solche Schwachstellen zu schließen, müssen KI-Modelle lernen, verdächtige Muster selbstständig zu erkennen, auch wenn sie verschlüsselt sind. Zu den empfohlenen Schutzmaßnahmen gehören gemäß Marco Figueroa:
- Verbesserte Filterung für codierte Daten: Implementieren Sie robustere Erkennungsmechanismen für codierte Inhalte wie Hex oder Base64 und decodieren Sie solche Zeichenfolgen frühzeitig im Anforderungsauswertungsprozess.
- Kontextbewusstsein bei mehrstufigen Aufgaben: KI-Modelle müssen in der Lage sein, den breiteren Kontext schrittweiser Anweisungen zu analysieren, anstatt jeden Schritt isoliert zu bewerten.
- Verbesserte Modelle zur Bedrohungserkennung: Es sollte eine erweiterte Bedrohungserkennung integriert werden, die Muster erkennt, die mit der Generierung von Exploits oder der Erforschung von Schwachstellen übereinstimmen, selbst wenn diese Muster in verschlüsselte oder verschleierte Eingaben eingebettet sind.
Diese Schwachstellen verdeutlichen die Dringlichkeit, KI-Systeme kontinuierlich zu verbessern, um sie vor neuartigen Angriffsmethoden zu schützen. Die Sicherstellung einer effektiven und durchgehenden Sicherheitskontrolle ist eine wesentliche Voraussetzung, damit solche Modelle ihre Potenziale voll ausschöpfen können, ohne dabei zum Risiko zu werden.