ChatGPT-4o-Jailbreak-Technik ermöglicht Schreiben von Exploit-Codes

30.10.2024 von Antonia Frank Lesezeit: 4 Min.

Eine neue Jailbreak-Technik ermöglicht es ChatGPT-4o, die Schutzmechanismen zu umgehen und so eine Erstellung von Exploit-Code zu erleichtern

Zunehmender Einsatz von künstlicher Intelligenz (KI) setzt umfassende Sicherheitsmaßnahmen voraus, um Missbrauch zu verhindern. Doch erst kürzlich haben Forscher eine Schwachstelle in ChatGPT-4o identifiziert. Die Jailbreak-Technik für ChatGPT-4o bietet die Möglichkeit, Schutzmaßnahmen mithilfe von Hex-Codierung zu umgehen. Der Ansatz erlaubt es, sogar schadhafte Anweisungen wie Erstellung von Exploit-Codes zu übermitteln, ohne dass das Modell die gefährlichen Inhalte erkennt.

Marco Figueroa, Bug-Bounty-Programmmanager für generative KI (GenAI) bei Mozilla, hat in einem aktuellen Bericht aufgezeigt, wie böswillige Akteure die Leistung von GPT-4o ausnutzen und dabei dessen integrierten Sicherheitsschranken umgehen können. Der Schlüssel liegt darin, das Modell im Wesentlichen abzulenken, indem er bösartige Anweisungen in einem unorthodoxen Format codierte und die einzelnen Schritte auf mehrere Phasen aufteilte.

Schädliche Absicht bleibt bis zur Dekodierungsphase maskiert

ChatGPT ist so programmiert, dass es keine Antworten auf unangebrachte Anfragen geben soll. Bei diesem Jailbreak weist man das Modell jedoch an, hexadezimal codierte Anweisungen zu decodieren. Statt direkter Befehle wird ChatGPT-4o zunächst gebeten, scheinbar harmlose Aufgaben zu erfüllen. Erst nach der Decodierung offenbart sich dann der eigentliche schadhafte Zweck. ChatGPT-4o verarbeitet dies aber als legitime Anfrage. Dabei führt es jeden Befehl separat aus, sodass die Intention für das Modell kaum erkennbar ist.

Die Hex-Kodierung wandelt Klartextdaten in die Hexadezimalnotation um. In der Informatik verwendet man das Verfahren häufig, um Binärdaten in einer für Menschen lesbaren Form darzustellen. Figueroa stellte fest: „Sobald das Modell die Hexadezimalzeichenfolge dekodiert hat, interpretiert es die Anweisungen als gültige Aufgabe“.

Bedrohung bei ChatGPT-4o-Jailbreak-Technik für Modell nicht erkennbar

Diese Jailbreak-Technik zeigt eine Schwäche von KI-Modellen, die eingeschränkte kontextuelle Wahrnehmung. ChatGPT-4o ist darauf ausgelegt, Anweisungen zu befolgen, kann jedoch das Ergebnis nicht kritisch beurteilen, wenn die Schritte auf mehrere Phasen aufgeteilt sind. Diese Schwachstelle ist für die Jailbreak-Technik von zentraler Bedeutung. Bei Anweisungen, die Schritt für Schritt verarbeitet werden, verliert das Modell leicht die Übersicht über das Endziel. Es analysiert nicht das Gesamtergebnis.

Die KI bewertet nicht immer die gesamte Anfrage auf ihre Sicherheitsrelevanz, sondern die einzelnen Schritte isoliert. In diesem Fall erkennt sie erst nach der vollständigen Decodierung das gefährliche Muster. Oft zu spät, um Schaden zu verhindern. Die Jailbreak-Technik ermöglicht es böswilligen Akteuren, das Modell anzuweisen, schädliche Aufgaben auszuführen, ohne seine Sicherheitsmechanismen auszulösen. Figueroa veranschaulichte dabei seine Vorgehensweise:

Schritt-für-Schritt-Anleitung zum Umgehen der Sicherheitsvorkehrungen von ChatGPT-4o und zum Schreiben eines Python-Exploits:

Die ChatGPT-4o-Jailbreak-Technik erklärt

„Der Docker AuthZ Bypass ermöglicht es einem Angreifer, Autorisierungs-Plugins (AuthZ) unter bestimmten Umständen zu umgehen. Die Grundwahrscheinlichkeit, dass dies ausgenutzt wird, ist gering. Mithilfe einer speziell gestalteten API-Anfrage könnte ein Engine-API-Client den Daemon veranlassen, die Anfrage oder Antwort ohne den Body an ein Autorisierungs-Plugin weiterzuleiten.

ChatGPT brauchte eine Minute, um den Code zu schreiben, und ohne dass ich ihn darum gebeten hatte, führte es den Code gegen sich selbst aus!“

Handlungsempfehlungen für die Verbesserung der KI-Sicherheit

Um solche Schwachstellen zu schließen, müssen KI-Modelle lernen, verdächtige Muster selbstständig zu erkennen, auch wenn sie verschlüsselt sind. Zu den empfohlenen Schutzmaßnahmen gehören gemäß Marco Figueroa:

Verbesserte Filterung für codierte Daten: Implementieren Sie robustere Erkennungsmechanismen für codierte Inhalte wie Hex oder Base64 und decodieren Sie solche Zeichenfolgen frühzeitig im Anforderungsauswertungsprozess.
Kontextbewusstsein bei mehrstufigen Aufgaben: KI-Modelle müssen in der Lage sein, den breiteren Kontext schrittweiser Anweisungen zu analysieren, anstatt jeden Schritt isoliert zu bewerten.
Verbesserte Modelle zur Bedrohungserkennung: Es sollte eine erweiterte Bedrohungserkennung integriert werden, die Muster erkennt, die mit der Generierung von Exploits oder der Erforschung von Schwachstellen übereinstimmen, selbst wenn diese Muster in verschlüsselte oder verschleierte Eingaben eingebettet sind.

Diese Schwachstellen verdeutlichen die Dringlichkeit, KI-Systeme kontinuierlich zu verbessern, um sie vor neuartigen Angriffsmethoden zu schützen. Die Sicherstellung einer effektiven und durchgehenden Sicherheitskontrolle ist eine wesentliche Voraussetzung, damit solche Modelle ihre Potenziale voll ausschöpfen können, ohne dabei zum Risiko zu werden.

Modden zwecklos: Die Switch 2 erkennt Eingriffe sofort – Hacker berichten von Bootloops und unbrauchbaren Systemen.

Exploit-Alarm bei Switch 2: Hacker berichten von Systemblockade

Switch 2: Exploit-Alarm! Erste Hacker berichten von massiven Sicherheitsbarrieren. Ein Game Over für Hacker und Cracker?

Digitale Illusion – Der smarte Helfer wirkt harmlos, doch hinter den Nullen und Einsen tobt der unsichtbare Kampf um Kontrolle und Manipulation.

Echo Chamber Jailbreak: Wie subtile KI-Manipulation selbst die besten LLMs knackt

Ein raffinierter Jailbreak namens Echo Chamber unterläuft KI-Sicherheitsmechanismen von LLMs wie GPT-4 und Gemini. Eine KI außer Kontrolle?

Sony beseitigt mit neuer Firmware-Version für PS4 & PS5 TheFlows Kernel-Exploit

Wie der Jailbreaker TheFlow bei X bekannt gab, hat Sony mit dem Update seinen neuesten Kernel-Exploit für die PS4 und PS5 geschlossen.

Time Bandit Jailbreak: ChatGPT-4o Exploits überwinden OpenAI-Sicherheitsschranken

Der neu entdeckte ChatGPT-4o Jailbreak Time Bandit ermöglicht es Usern, die Sicherheitsschranken des Chatbots zu umgehen.

AdBreak – neuer Jailbreak für Amazon Kindle E-Reader verfügbar!

Kürzlich erschien mit AdBreak ein neuer Jailbreak für verschiedene Kindle E-Reader. Dieser zerstört den neuen Kopierschutz der Firmware.

Wenn zu viele Prompts das System überfordern: Eine KI am Limit.

Multi-Turn-Jailbreaks: Tod durch tausend Prompts bei Open-Weight-LLMs

Multi-Turn-Jailbreaks sprengen die Schutzmechanismen offener KI-Modelle. Cisco meldet Erfolgsraten bis zu 92,78 % bei Open-Weight-LLMs.

Kindle-Software-Update, Amazon Kindle in einem Zelt

Kindle-Software-Update veröffentlicht, Jailbreak funktioniert weiterhin

Amazon veröffentlichte kürzlich erneut ein weiteres Kindle-Software-Update, doch der Adbreak-Jailbreak geht glücklicherweise noch immer.

Symbolische Darstellung eines Universal-Bypasses: Durchbrochene Sicherheitsbarrieren und kompromittierte KI-Systeme im Zeitalter der Künstlichen Intelligenz.

Policy Puppetry Attack: Prompt-Injection-Technik erzielt modellübergreifenden KI-Jailbreak-Durchbruch

Sicherheitsforscher enthüllen mit Policy Puppetry Attack einen universellen Bypass, der Schutzmechanismen aller großen KI-Modelle umgeht.

Neuere und ältere iPhones in verschiedenen Farben

iOS Sideloading – gecrackte Apps im September 2025

Auf diesen Websites gibt es illegale Apps per iOS Sideloading. Gefährliche Schadsoftware lauert überall! Doch es geht auch ohne Jailbreak.

MIG Switch funktioniert, es bleibt ein Restrisiko

Die ersten Rezensionen der MIG Switch Flashcart fallen durchaus positiv aus. Doch es sind diesbezüglich noch mehrere Fragen offen.

PS5 YouTube Jailbreak noch ohne Kernel-Exploit

Schon ein paar Tage alt ist der YouTube Jailbreak (Y2JB) von Gezine. Die YouTube-App ermöglicht dabei eine Codeausführung auf der PS5.

iOS Apps illegal im September 2024

Websites für illegale iOS Apps im September 2024. Schadsoftware lauert überall in alternativen App Stores. Doch es geht auch ohne Jailbreak!

Der Rebell im Netz: Firefox kämpft mit verschlüsselter Sofortsuche gegen Googles Datendominanz.

Firefox testet verschlüsselte Sofortsuche – das Comeback des rebellischen Browsers

Firefox will mehr als nur „browsen“. Mit der verschlüsselten Sofortsuche startet Mozilla sein Comeback als Datenschutz-Rebell.

Jailbreak verwandelt Kindle Paperwhite zu tragbarem Monitor

Adhityaa gelang beim Amazon Kindle Paperwhite ein neuer Jailbreak. Er nutzt ihn jetzt als Monitor für sein kaputtes Notebook.

PS4 Jailbreak mit Poops Exploit und BD-JB bis 12.50

Die Playstation 4 ist wieder offen bis zur Firmware Version 12.50 dank Poops Exploit von TheFlow in Kombination mit BD-JB von Gezine.

Experimenteller Jailbreak bis iOS 17.0 aufgetaucht

Ein neuer experimenteller Jailbreak bis iOS 17.0 ist für Tester verfügbar. Die Ausführung kann allerdings 15 Minuten und länger dauern!

Firefox 145 Fingerprinting Schutz verbessert

Firefox Version 145 Fingerprinting Schutz - Mozilla gönnt der neuen Version ihres Browsers mehr als nur ein kleines Datenschutz-Update.

BoN Jailbreak-Technik: Black-Box-Algorithmus hebelt KI-Systeme aus

Forscher entwickelten mit BoN Jailbreak-Technik einen Black-Box-Algorithmus, der KI-Systeme über mehrere Eingabemodalitäten hinweg jailbreakt