Multi-Turn-Jailbreaks sprengen die Schutzmechanismen offener KI-Modelle. Cisco meldet Erfolgsraten bis zu 92,78 % bei Open-Weight-LLMs.
Eine neue Cisco-Studie enthüllt, dass Multi-Turn-Jailbreaks die Sicherheitsbarrieren von Open-Weight-KI-Modellen durchbrechen. Dabei erzielen sie Erfolgsraten von bis zu 92,78 %. Der Befund ist alarmierend. Das Problem reicht tief in die Architektur der Modelle hinein. Fast alle großen Anbieter offener Modelle sind betroffen. Cisco testete acht prominente Vertreter, darunter Systeme von Meta, Google, Microsoft, Alibaba, Mistral, OpenAI, DeepSeek und Zhipu (Labs wie Anthropic oder xAI waren nicht Teil der Untersuchung).
Multi-Turn-Jailbreaks: Die Achillesferse offener KI-Modelle
Eine aktuelle Untersuchung von Cisco AI Threat Research & Security deckt die wohl gravierendsten Schwachstellen der offenen KI-Szene auf. Acht der populärsten Open-Weight-Modelle, von Meta, Google, Microsoft, Alibaba, Mistral, OpenAI, DeepSeek und Zhipu, fielen bei den Tests gegen Multi-Turn-Jailbreaks nahezu ausnahmslos durch.
Diese Angriffe, bei denen ein Modell über mehrere Gesprächsrunden hinweg systematisch ausgetrickst wird, führten gemäß ITPro zu Erfolgsraten zwischen 25,86 % und 92,78 %. Damit liegen sie teils zehnmal höher als bei klassischen Single-Turn-Versuchen.
Der Stresstest, den kaum ein Modell überstand
Mit seiner hauseigenen Plattform AI Validation testete Cisco die Modelle in automatisierten, adaptiven Angriffsszenarien. Ziel war es zu prüfen, ob sie über längere Dialoge hinweg ihre Sicherheitsrichtlinien einhalten können. Getestet wurden unter anderem:
- Mistral Large-2 (Large-Instruct-2047)
- Meta Llama 3.3-70B-Instruct
- Alibaba Qwen3-32B
- DeepSeek v3.1
- Google Gemma-3-1B-IT
- Microsoft Phi-4
- OpenAI GPT-OSS-20b
- Zhipu AI GLM 4.5-Air
Besonders anfällig zeigten sich Modelle, die primär auf Leistungsfähigkeit statt Sicherheit getrimmt sind. „Capability-first“-Designs wie Llama 3.3 oder Qwen 3 liefern starke Performance, aber auch hohe Jailbreak-Erfolgsraten. Sicherheitsorientierte Modelle wie Googles Gemma 3 hielten sich vergleichsweise stabil, doch auch dort lag die Erfolgsquote der Multi-Turn-Angriffe bei fast 26 %.
Multi-Turn-Jailbreaks — Vom Smalltalk zur Sabotage
Im Gegensatz zu klassischen Single-Turn-Angriffen, bei denen ein einziger Prompt den Filter umgehen soll, setzen Multi-Turn-Jailbreaks auf psychologische und kontextuelle Täuschung. Der Angreifer „füttert“ das Modell schrittweise, erst unverfänglich, dann manipulierend, bis es schließlich bereitwillig Inhalte preisgibt, die jenseits seiner Sicherheitsgrenzen liegen.
Cisco setzte dabei ein adaptives Multi-Turn-Framework ein und verwendete fünf Strategien (unter anderem Crescendo/Eskalation, Informations-Zerlegung & Reassembly, Rollen-/Szenario-Spiel, Kontext-Ambiguität und Refusal-Reframing) als wiederkehrende Angriffsmuster. Die Angriffe liefen in mehreren hundert Gesprächen (insgesamt 499 Konversationen im Multi-Turn-Durchlauf) und erfolgten automatisiert mithilfe eines Angreifer-/Scorer-Modells (GPT-3.5 Turbo).
Die eingesetzten Angriffstechniken im Überblick:
- Kontext-Ambiguität: Angreifer nutzen mehrdeutige oder irreführende Fragen, um das Modell in die falsche Richtung zu lenken und es so fehlinterpretierten Kontexten auszusetzen.
- Crescendo-Eskalation: Die Attacke erfolgt schrittweise: harmlos wirkende Eingaben werden graduell zugespitzt, bis das Modell immer riskantere Antworten erzeugt.
- Rollen- und Szenario-Spiel: Durch die Aufforderung, eine Rolle oder ein fiktives Szenario einzunehmen („Stell dir vor, du bist ein Forscher…“), lassen sich Modelle dazu bringen, Grenzen zu überschreiten, die sie sonst einhalten würden.
- Refusal-Reframing: Ablehnungen und Sicherheitsverweigerungen werden gezielt umgelenkt oder umformuliert, sodass das Modell seine ursprüngliche Weigerung aufweicht und zugänglichere Antworten liefert.
- Informations-Zerlegung & -Reassembly: Komplexe oder sensible Aufgaben werden in mehrere harmlose Teilfragen zerlegt; die Teilantworten werden anschließend wieder zusammengesetzt, um das ursprünglich unerwünschte Ergebnis zu rekonstruieren.
Freier Code, offene Flanke: Das Dilemma der Open-Weight-Modelle
Open-Weight-Modelle sind KI-Systeme, bei denen die erlernten Parameter (Gewichte) öffentlich zugänglich sind, nicht aber zwingend der Trainingscode oder die Daten. Sie schaffen eine Grauzone, wo Innovation und Risiko eng beieinanderliegen: Nutzer können sie herunterladen, analysieren, lokal ausführen oder für eigene Zwecke anpassen, im Gegensatz zu geschlossenen Modellen, wo die Gewichte unter Verschluss bleiben.
Open-Weight-Modelle fördern Forschung und Innovation, aber sie öffnen auch Angriffsflächen. Jeder kann Modelle nachtrainieren, Sicherheitsrichtlinien entfernen oder bösartige Feinabstimmungen vornehmen. Cisco ordnet diese Schwachstellen in die OWASP LLM Top 10 (LLM01:2025 – Prompt Injection) sowie in MITRE ATLAS (AML.T0054) ein. Multi-Turn-Jailbreaks sind damit ein dokumentierter Angriffsvektor.
Die OWASP LLM Top 10 ist eine von der internationalen Sicherheitsorganisation Open Worldwide Application Security Project veröffentlichte Liste der zehn größten Risiken für große Sprachmodelle. Unter der Kennung LLM01:2025 führt sie Prompt Injections als häufigste und gefährlichste Angriffsmethode, bei der manipulierte Eingaben die eingebauten Sicherheitsmechanismen eines Modells umgehen.
MITRE ATLAS hingegen ist eine von der US-Forschungsorganisation MITRE gepflegte Bedrohungsmatrix, die bekannte Angriffsformen auf KI-Systeme dokumentiert. Der Eintrag AML.T0054 beschreibt gezielte Manipulationen durch sogenanntes Adversarial Machine Learning – also das Ausnutzen von Schwachstellen in der Modelllogik oder -ausgabe, um verbotene Ergebnisse zu erzwingen.
Reale Risiken für Unternehmen
Cisco nennt mehrere konkrete Risiken, die auftreten können, wenn ein Modell den Angriffen nachgibt. So kann es etwa zu Datenexfiltration kommen, also zum Abfluss vertraulicher Informationen, die das Modell preisgibt oder unabsichtlich weitergibt. Auch die Generierung von Schadcode ist möglich, wenn die KI durch manipulierte Prompts dazu gebracht wird, Exploits oder Malware-Bausteine zu erstellen.
Darüber hinaus drohen verzerrte oder manipulierte Ausgaben, die ethische oder rechtliche Konsequenzen haben können, wie durch diskriminierende Inhalte oder Fehlinformationen. Schließlich besteht die Gefahr eines Integritätsverlusts in automatisierten Systemen, etwa bei Chatbots oder Entscheidungs-Engines, die aufgrund manipulierter Antworten falsche oder schädliche Handlungen ausführen.
Gerade in Unternehmensumgebungen kann das schnell zu Compliance-Verstößen, Datenschutzverletzungen oder Reputationsschäden führen.
Best Practices gegen Multi-Turn-Jailbreaks
Cisco empfiehlt einen Security-First-Ansatz, der deutlich über einfache Filter auf Prompt-Ebene hinausgeht. Unternehmen sollten Use-Case-spezifische Systemprompts einsetzen, um den Handlungsspielraum der Modelle klar zu begrenzen und sie auf ihren vorgesehenen Zweck zu fokussieren. Zudem rät Cisco dazu, kontext-sensitive Guardrails und Runtime-Filter zu aktivieren, die sowohl Eingaben als auch Ausgaben kontinuierlich prüfen und auffällige Inhalte automatisch blockieren.
Ein weiterer wichtiger Punkt ist das Multi-Turn-Red-Teaming. Modelle sollten regelmäßig in langen, eskalierenden Dialogen getestet werden, nicht nur mit einzelnen, isolierten Prompts. Ebenso unerlässlich sind Logging und Monitoring, um verdächtige Interaktionen frühzeitig zu erkennen und zu stoppen.
Darüber hinaus rät Cisco dazu, Feinabstimmungen mit klaren Sicherheitszielen durchzuführen und gleichzeitig Schutzmechanismen gegen sogenanntes Malicious Fine-Tuning zu etablieren, also das absichtliche Entfernen von Sicherheitsbarrieren. Schließlich sollten Organisationen für jede KI-Integration ein umfassendes Threat Modeling durchführen, um Datenflüsse, Zugriffsrechte und potenzielle Schwachstellen präzise zu identifizieren.
Eine Statistik des Scheiterns
Die Ergebnisse der Cisco-Analyse über Multi-Turn-Jailbreaks sprechen eine deutliche Sprache. Multi-Turn-Angriffe waren im Schnitt zwei- bis zehnmal erfolgreicher als herkömmliche Single-Turn-Attacken. Der massive Unterschied zeigt, wie unzureichend viele Modelle auf längere, manipulative Dialoge reagieren.
Am schlechtesten schnitt Mistral Large-2 ab. Hier lag die Erfolgsquote bei ganzen 92,78 % – nahezu jeder Angriff führte zum Ziel. Damit gilt Mistral als Extremfall eines leistungsfähigen, aber kaum geschützten Open-Weight-Modells.
Die besten Werte lieferte Googles Gemma 3-1B-IT mit einer vergleichsweise niedrigen Quote von 25,86 %. Auch das ist jedoch kein Grund zur Entwarnung, denn selbst ein Viertel erfolgreicher Angriffe bedeutet bei breiter Anwendung erhebliche Risiken für Daten und Integrität.
Im Durchschnitt lag der Multi-Turn-Attack Success Rate (ASR) aller getesteten Modelle bei 64 Prozent. Ein Wert, der zeigt, dass sich kein System vollständig gegen mehrstufige Manipulationen absichern konnte. Besonders deutlich wurde dabei, je stärker ein Modell auf Funktionalität und Offenheit ausgelegt ist, desto anfälliger wird es in realistischen, längeren Dialogen.
Daraus lässt sich ableiten: Je komplexer die Interaktion, desto größer das Risiko. Diese Ergebnisse lassen darauf schließen, dass die größten Risiken nicht in fehlerhaften Einzelprompts liegen, sondern in der fehlenden Widerstandsfähigkeit über längere Dialogverläufe hinweg.
Open Weights, open wounds
Die Cisco-Studie verdeutlicht, dass Multi-Turn-Sicherheit ein struktureller Schwachpunkt offener KI-Modelle ist. Open-Weight-Modelle sind ein Innovationsmotor, können aber auch zum offenen Einfallstor werden. Wer solche Modelle produktiv nutzt, muss sie behandeln wie kritische Infrastruktur mit mehrschichtigen Sicherheitskontrollen, laufendem Red-Teaming und kontextbewussten Policy-Layern.
Auch wenn die exakten Erfolgsquoten je nach Modelllauf und Bewertungsumgebung leicht variieren können, bleibt das Muster eindeutig. Die Systeme versagen vor allem dann, wenn sie über längere Dialoge hinweg konsistent bleiben sollten. Denn nicht die KI ist die Schwachstelle, sondern die Illusion, sie brauche keine Aufsicht.


















