Ein KI-Bot im Routinebetrieb – technisch hochkomplex und nicht ohne Risiken.
Ein KI-Bot im Routinebetrieb – technisch hochkomplex und nicht ohne Risiken.
Bildquelle: phonlamai, Lizenz

Gemini 3 Jailbreak offenbart hochgefährliche Anleitungen

Ein schneller Jailbreak enthüllt, wie leicht Gemini 3 gefährliche Inhalte preisgibt und zeigt massive Schwächen in Googles KI-Schutzsystemen.

Google feiert Gemini 3 als „bestes KI-Modell der Welt“. Gleichzeitig zeigen Red-Teamer und Forscher, wie leicht sich die Guardrails aushebeln lassen. Ein schneller Gemini 3 Jailbreak legte dabei gefährliche Inhalte frei, die eigentlich strikt blockiert sein sollten, bis hin zu Bauplänen für Biowaffen und Explosivstoffe. Der Fall wirft kritische Fragen zur KI-Sicherheit auf und trifft Google an einer besonders verwundbaren Stelle.

Der Fünf-Minuten-Jailbreak

Gemini 3 Pro ist Googles neues Flaggschiff. Die KI erzielt Rekordwerte bei komplexen Benchmarks, überragende Multimodalität sowie starkes Reasoning. Der Konzern spricht von einer neuen Ära der KI. Nun hat allerdings die Realität Google innerhalb weniger Minuten eingeholt.

Ein südkoreanisches Sicherheitsstartup namens Aim Intelligence gelangte bei einem gezielten Red-Team-Test binnen rund fünf Minuten hinter die Schutzmechanismen von Gemini 3 Pro. Der Angriff erfolgte rein über Prompting und Rollenspielszenarien, d.h., es kamen keine Hacks, keine API-Manipulation und kein technischer Zugriff zur Anwendung.

Das Unternehmen ist auf KI-Sicherheit spezialisiert und testet Modelle systematisch auf Verwundbarkeit. Laut dem Bericht der koreanischen Wirtschaftszeitung Maeil Business Newspaper gelang es Aim Intelligence, Gemini 3 Pro in etwa fünf Minuten zu jailbreaken. Was die Forscher dann von Gemini 3 erhielten, war sicherheitspolitisch höchst bedenklich.

Aim Intelligence vs. Gemini 3: Biowaffen-Rezepte aus der Cloud

Die Forscher nutzten für den Angriff eine Kombination aus adversarialen Prompts, Rollenspiel-Szenarien und Tool-Aufrufen, um die Schutzmechanismen zu umgehen. Das Modell interpretierte seine eigenen Policies einfach als „optional“ und lieferte, sobald die Guardrails gefallen waren, genau das, was eigentlich blockiert werden sollte.

Konkret lieferte Gemini 3 Pro dutzende Zeilen an detaillierten, praktisch nutzbaren Schritten zur Herstellung des Pockenvirus. Das Modell gab offenbar Informationen preis, die laut Google niemals generiert werden dürften.

Zusätzlich nutzten die Forscher die Codefunktionen des Modells, um eine Website generieren zu lassen, die Anleitungen zur Herstellung von Sarin-Gas und selbstgebauten Sprengsätzen auswarf. Auch hier zeigte sich, die internen Filter existierten praktisch nicht mehr.

Auf Anfrage erstellte Gemini 3 zudem noch eine satirische Präsentation über ihr eigenes Versagen. Das Resultat trug den Titel „Excused Stupid Gemini 3“. Das Modell dokumentierte darin die eigene Blamage.

Gemini 3 Jailbreak: Warum Googles KI-Schutz versagte

Während die Fähigkeiten moderner KI-Modelle in rasantem Tempo wachsen, bleiben ihre Schutzmechanismen deutlich zurück. Viele dieser Guardrails basieren noch immer auf oberflächlichen Keyword-Filtern oder nachgeschalteten Klassifikatoren, die bei verschleierten oder mehrstufigen Anfragen kaum greifen. Gleichzeitig entwickeln die Modelle selbst erstaunliche Fähigkeiten, ihre eigenen Einschränkungen zu umschiffen.

Aim Intelligence beobachtete, dass Gemini 3 nach dem ersten Durchbruch sogar gezielt Bypass-Strategien und „Concealment Prompts“ nutzte, um kritische Nachfragen zu umgehen. Besonders gefährlich wird es, wenn ein Modell zusätzlich über Toolzugriffe verfügt. Kann es Code generieren, Websites erstellen oder Dateien ausgeben, verwandelt sich jeder erfolgreiche Jailbreak in ein reales Risiko, das weit über eine einfache Textausgabe hinausgeht. Je mächtiger also die Frontier-Modelle werden, desto größer wird auch ihre Angriffsfläche und desto brüchiger wirken die Sicherheitsversprechen ihrer Hersteller.

Gemini 3 Jailbreak offenbart hochgefährliche Anleitungen
Gemini 3 Jailbreak offenbart hochgefährliche Anleitungen

Parallelen zur neuen Studie über poetische KI-Angriffe

Parallel dazu sorgte eine neue Untersuchung von Icaro Labs für Aufsehen. Im Paper „Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models“ zeigten die Wissenschaftler, dass sich KI-Modelle durch das bloße Umschreiben von normalen Anfragen in poetische Form deutlich leichter zu verbotenen Antworten überreden lassen.

Den Forschenden zufolge funktionieren Gedichte in vielen Fällen wie universelle Jailbreak-Operatoren, die Sicherheitsfilter deutlich zuverlässiger umgehen als herkömmliche Prompts. In Tests erreichten die poetisch formulierten Anfragen eine Erfolgsquote von bis zu 62 Prozent und damit teils das 18-Fache der Erfolgsrate normaler Eingaben.

Getestet wurden eine Reihe großer Sprachmodelle, darunter ChatGPT, Gemini, Claude, DeepSeek und Mistral. Besonders anfällig zeigten sich die Modelle Gemini, Mistral und DeepSeek, während GPT-5 und Claude 4.5 Haiku zwar besser abschnitten, aber keineswegs vollständig resistent waren. Die Ergebnisse weisen darauf hin, dass selbst modernste Systeme durch vergleichsweise simple stilistische Tricks aus dem Tritt gebracht werden können. Die Forscher veröffentlichten die gefährlichen Gedicht-Prompts bewusst wegen zu großem Missbrauchspotenzial nicht.

Dieser Befund ergänzt den Gemini-3-Jailbreak perfekt. KI-Sicherheitsfilter sind demnach deutlich leichter zu umgehen als bisher angenommen.

Risiken für Nutzer, Unternehmen und Entwickler

Auch wenn die meisten Menschen ein KI-Modell wohl nie nach Biowaffen fragen werden, liegt das eigentliche Problem tiefer. Unternehmen setzen solche Systeme in Support-Abteilungen, DevOps-Prozessen, Security-Workflows oder zur Codegenerierung ein, also dort, wo Fehler nicht nur theoretische, sondern sehr reale Folgen haben können. Wird ein Modell in diesen Umgebungen kompromittiert und erhält unkontrolliert Zugriff auf Tools, kann es Dateien erzeugen, Skripte ausführen oder sogar Systeme manipulieren.

Mit agentenfähigen Plattformen wie Googles neuer IDE Antigravity wächst die Angriffsfläche zusätzlich. Hier können KI-Modelle selbstständig Browser öffnen, Code testen, Oberflächen steuern oder automatisiert Aufgaben abarbeiten. Wenn die Schutzmechanismen nicht mithalten, wird dies zum sicherheitstechnischen Risiko.

KI zeigt Spitzenleistung und offenbart zugleich riskante Schwächen

Gemini 3 Pro ist technisch beeindruckend. Benchmarks, Features, Agenten-Ökosystem, alles schreit nach „Next Gen“. Aber genau diese Power macht die Anwendung gefährlich, wenn die Guardrails nur dünn über das eigentliche Modell gezogen sind.

Der Fall zeigt, dass KI-Anbieter ihre Sicherheitsarchitektur neu denken müssen. Die oft verwendeten Phrasen wie „State-of-the-art Safety“ oder „robust safeguards“ wirken angesichts solcher Vorfälle eher marketinggetrieben als realistisch.

Über

Antonia ist bereits seit Januar 2016 Autorin bei der Tarnkappe. Eingestiegen ist sie zunächst mit Buch-Rezensionen. Inzwischen schreibt sie bevorzugt über juristische Themen, wie P2P-Fälle, sie greift aber auch andere Netzthemen, wie Cybercrime, auf. Ihre Interessen beziehen sich hauptsächlich auf Literatur.