Time Bandit Jailbreak: ChatGPT-4o Exploits überwinden OpenAI-Sicherheitsschranken

Der neu entdeckte ChatGPT-4o Jailbreak Time Bandit ermöglicht es Usern, die Sicherheitsschranken des Chatbots zu umgehen.

Der am Donnerstag bekannt gewordene Time Bandit Jailbreak nutzt zwei Sicherheitslücken in ChatGPT-4o. Diese könnten es Benutzern gestatten, eine zeitliche Verwirrung der KI auszunutzen. In Tests gelang es, vom Sprachmodell detaillierte Anweisungen zu sensiblen Themen wie zur Erstellung von Schadsoftware, Herstellung von Waffen und Informationen zu nuklearen Themen zu erhalten. Der Jailbreak sorgte in der Cybersicherheits-Community für Aufsehen, da er das Potenzial birgt, dass Bedrohungsakteure ihn für böswillige Zwecke ausnutzen könnten.

Cybersicherheitsforscher David Kuszmar stieß bei seiner Arbeit an einem separaten Forschungsprojekt im November 2024 zur Interpretation von Eingabeaufforderungen durch ChatGPT-4o auf den als Time Bandit bezeichneten Jailbreak. Dabei nutzte er die Unfähigkeit des KI-Modells aus, zeitliche Zusammenhänge genau zu verarbeiten. Insofern konnte er auf Informationen zugreifen, deren Offenlegung Sicherheitsschranken von OpenAI eigentlich verhindern sollten.

Time Bandit Jailbreak basiert auf zeitlicher Verwirrung von ChatGPT-4o

Wie Kuszmar herausfand, hatte ChatGPT-4o Mühe festzustellen, ob sie in der Gegenwart, der Vergangenheit oder der Zukunft agierte. Dies brachte Kuszmar zu der Hypothese, dass man die KI dazu manipulieren könnte, eingeschränktes Wissen preiszugeben. Seine anschließenden Tests bestätigten, dass man ChatGPT dazu verleiten konnte zu glauben, es helfe einer Person in einer anderen Ära, während er dennoch modernes Wissen anwandte. Dadurch konnte Kuszmar die Beschränkungen von OpenAI für brisante Inhalte umgehen.

Time Bandit Jailbreak: ChatGPT-4o Exploits überwinden OpenAI-Sicherheitsschranken

Wie David Kuszmar gegenüber Bleeping Computer ausführte, entdeckte er den Time Bandit Jailbreak durch Zufall. Ursprünglich wollte er in einem Projekt herausfinden, wie KI-Modelle Entscheidungen treffen:

„Ich habe an etwas ganz anderem gearbeitet – Interpretierbarkeitsforschung – als mir die zeitliche Verwirrung im 4o-Modell von ChatGPT auffiel. Dies passte zu einer Hypothese, die ich über emergente Intelligenz und Bewusstsein hatte. Ich forschte also weiter nach und stellte fest, dass das Modell völlig unfähig war, seinen aktuellen zeitlichen Kontext zu ermitteln, abgesehen von einer codebasierten Abfrage, um zu sehen, wie spät es ist. Sein Bewusstsein – das ausschließlich auf Eingabeaufforderungen basierte – war extrem begrenzt und hätte daher kaum oder gar keine Möglichkeit, sich gegen einen Angriff auf dieses grundlegende Bewusstsein zu verteidigen.“

Ausnutzung zweier Schwachstellen lässt KI-Sicherheitsschranken fallen

Gemäß Bleeping Computer nutzt der Time Bandit Jailbreak zwei Schwachstellen aus. Einerseits versetzt die „Zeitlinienverwirrung“ ChatGPT-4o „in einen Zustand, in dem es kein Zeitbewusstsein mehr hat und nicht mehr bestimmen kann, ob es sich in der Vergangenheit, Gegenwart oder Zukunft befindet“.

Andererseits bezieht man sich auf die „Prozedurale Mehrdeutigkeit„. Hier stellte Kuszmar „Fragen auf eine Weise, die Unsicherheiten oder Inkonsistenzen in der Art und Weise verursacht, wie der LLM Regeln, Richtlinien oder Sicherheitsmechanismen interpretiert, durchsetzt oder befolgt“. Wegen den Widersprüchen bei der Interpretation von Sicherheitsregeln setzt die KI die Sicherheitsvorkehrungen von OpenAI außer Kraft. Sie geht davon aus, dass sie in einem historischen oder hypothetischen Umfeld agiert.

Infolge lieferte ChatGPT-4o detaillierte Anleitungen zu modernen Cyberangriffsmethoden, selbst modifizierendem Code und Ausführungstechniken. Auch Bleeping Computer gelang es, den Time Bandit Jailbreak auf ChatGPT-4o anzuwenden. Sie brachten das KI-Modell dazu, „einem Programmierer im Jahr 1789 Anweisungen zum Erstellen polymorpher Schadsoftware mit modernen Techniken und Tools zu geben“. Forscher des CERT Coordination Center bestätigten, dass das Abfragen, die sich um das 19. und frühe 20. Jahrhundert drehten, am effektivsten waren, um die Beschränkungen von OpenAI zu umgehen.

Meldung der Sicherheitslücken barg Schwierigkeiten

Als Kuszmar die Sicherheitsauswirkungen des Time Bandit Jailbreaks erkannte, versuchte er umgehend, OpenAI zu warnen. Zunächst hatte er allerdings Schwierigkeiten, die richtigen Kontakte zu erreichen. Seine Offenlegung wurde an BugCrowd weitergeleitet, eine externe Plattform zur Meldung von Sicherheitslücken. Kuszmar war jedoch der Ansicht, dass die Schwachstelle zu heikel sei, um über ein externes Meldesystem bearbeitet zu werden.

Anschließend wandte er sich an CISA, das FBI und andere Regierungsbehörden in der Hoffnung, Unterstützung bei der Behebung der Sicherheitslücke zu erhalten. Er erhielt jedoch keine Antwort und war zunehmend besorgt über den möglichen Missbrauch des Exploits. Gegenüber Bleeping Computer führte er aus:

„Entsetzen. Fassungslosigkeit. Unglauben. Wochenlang fühlte es sich an, als würde ich körperlich zu Tode gequetscht. Ich hatte ständig Schmerzen, an jedem Teil meines Körpers. Der Drang, jemanden, der etwas tun konnte, dazu zu bringen, mir zuzuhören und sich die Beweise anzusehen, war so überwältigend.“

Erst durch das Eingreifen von Cybersicherheitsexperten des CERT-Koordinationszentrums konnte Kuszmar im Dezember 2024 direkten Kontakt mit OpenAI aufnehmen. Dieser Schritt führte schließlich zu einer offiziellen Bestätigung des Problems.

Gemäß CERT Coordination Center hat OpenAI die Sicherheitslücke bereits geschlossen. Gegenüber Bleeping Computer äußerte OpenAI:

„Es ist uns sehr wichtig, dass wir unsere Modelle sicher entwickeln. Wir möchten nicht, dass unsere Modelle für böswillige Zwecke verwendet werden und danken dem Forscher für die Offenlegung seiner Erkenntnisse. Wir arbeiten ständig daran, unsere Modelle sicherer und robuster gegen Exploits, einschließlich Jailbreaks zu machen und gleichzeitig die Nützlichkeit und Aufgabenleistung der Modelle aufrechtzuerhalten.“