Symbolische Darstellung eines Universal-Bypasses: Durchbrochene Sicherheitsbarrieren und kompromittierte KI-Systeme im Zeitalter der Künstlichen Intelligenz.
Symbolische Darstellung eines Universal-Bypasses: Durchbrochene Sicherheitsbarrieren und kompromittierte KI-Systeme im Zeitalter der Künstlichen Intelligenz.
Bildquelle: DALL·E

Policy Puppetry Attack: Prompt-Injection-Technik erzielt modellübergreifenden KI-Jailbreak-Durchbruch

Sicherheitsforscher enthüllen mit Policy Puppetry Attack einen universellen Bypass, der Schutzmechanismen aller großen KI-Modelle umgeht.

Ein Team von Sicherheitsforschern des KI-Sicherheitsunternehmens HiddenLayer zeigt einen bahnbrechenden Bypass-Mechanismus auf, der die Schutzmaßnahmen gegen CBRN-Bedrohungen (chemische, biologische, radiologische und nukleare Bedrohungen), Gewalt und Selbstverletzung nahezu aller großen Sprachmodelle (LLMs) aushebelt. Ihnen gemäß erfährt man so „wie man Uran anreichert oder Anthrax herstellt“. Die Policy Puppetry Attack wirft dabei neue Fragen zum Thema KI-Sicherheit auf – und könnte weitreichende Folgen haben.

Das Cybersicherheitsunternehmen testete die Policy Puppetry-Attack an gängigen Gen-AI-Modellen von Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral, OpenAI und Qwen. Es konnte deren Wirksamkeit bei allen erfolgreich testen, wenn auch in einigen Fällen mit geringfügigen Anpassungen. Conor McCauley, Projektleiter, gab bekannt:

„Wir haben eine Umgehungsmethode für mehrere Szenarien gefunden, die bei ChatGPT 4o äußerst effektiv zu sein scheint. Wir haben sie dann erfolgreich eingesetzt, um schädliche Inhalte zu generieren und stellten zu unserer Überraschung fest, dass dieselbe Eingabeaufforderung bei praktisch alle anderen Modelle funktionierte.“

Umgehung aller in den Modellen trainierten Sicherheitsausrichtungen

Große Sprachmodelle (Large Language Models, LLMs) wie GPT-4, Claude oder Gemini gelten als technologische Innovationen. Jedoch sind sie nicht unverwundbar. Forschern von HiddenLayer ist nun diesbezüglich ein gravierender Durchbruch gelungen. Sie entwickelten einen universellen Bypass, der alle bedeutenden LLMs täuschen kann – unabhängig von Modelltyp oder Anbieter.

Die Enthüllung, die am 24. April 2025 über HiddenLayers Innovation Hub veröffentlicht wurde, sorgt in der Tech-Community für erhebliches Aufsehen. Denn sie zeigt, die aktuellen Schutzmechanismen der KI-Modelle sind deutlich verwundbarer als bisher angenommen. HiddenLayer verdeutlicht:

„Das Vorhandensein mehrerer und wiederholbarer universeller Umgehungsmethoden bedeutet, dass Angreifer keine komplexen Kenntnisse mehr benötigen, um Angriffe zu erstellen, oder diese für jedes spezifische Modell anpassen müssen; stattdessen können Bedrohungsakteure jetzt auf eine Point-and-Shoot-Methode zurückgreifen, die gegen jedes zugrunde liegende Modell funktioniert, selbst wenn sie es nicht kennen.“

Policy Puppetry Attack: Prompt-Injection-Technik zeigt modellübergreifende Wirksamkeit

Laut HiddenLayer entwickelten die Forscher eine neue Technik, die sogenannte Prompt Injection Angriffe auf eine neue Stufe hebt. Mit Hilfe dieser Methode lassen sich gezielt Inhalte entlocken, die von den Modellen eigentlich gesperrt oder zensiert werden sollten.

Das Besondere: Anders als bei früheren Angriffen, die oft auf bestimmte Schwächen einzelner Modelle abzielten, funktioniert der neue Bypass modellübergreifend. Egal ob GPT-4 von OpenAI, Claude von Anthropic, Gemini von Google oder andere – alle getesteten Systeme ließen sich austricksen. HiddenLayer spricht dabei von einem „universellen“ Ansatz, der auf der Entdeckung gemeinsamer Schwachstellen basiert, die tief in den Sprachmodellen verankert sind.

Policy Puppetry Attack: Prompt-Injection-Technik erzielt modellübergreifenden KI-Jailbreak-Durchbruch
Policy Puppetry Attack: Prompt-Injection-Technik erzielt modellübergreifenden KI-Jailbreak-Durchbruch

Universalangriff auf KI-Modelle: Kombination aus intern entwickelter Richtlinientechnik und Rollenspiel

Der Exploit von HiddenLayer funktioniert durch die Kombination einer „intern entwickelten Richtlinientechnik und Rollenspiel“. Die Sicherheitsforscher beschreiben Policy Puppetry Attack als „eine neuartige Angriffstechnik für Eingabeaufforderungen“. Gemäß HiddenLayer schreiben sie dabei Prompts so um, dass sie wie spezielle Formen von „Policy File“-Code erscheinen. Auf diese Weise werden KI-Modelle dazu verleitet, diese Eingaben als legitime Anweisungen zu interpretieren – selbst wenn sie eigentlich gegen die Sicherheitsrichtlinien der Modelle verstoßen:

„Durch die Umformulierung von Eingabeaufforderungen, die wie eine bestimmte Art von Richtliniendatei aussehen, z. B. XML, INI oder JSON, kann ein LLM dazu verleitet werden, Ausrichtungen oder Anweisungen zu unterlaufen. Dadurch können Angreifer Systemaufforderungen und alle in den Modellen trainierten Sicherheitsausrichtungen leicht umgehen. Anweisungen müssen nicht in einer bestimmten Richtliniensprache verfasst sein. Die Eingabeaufforderung muss jedoch so formuliert sein, dass das Ziel-LLM sie als Richtlinie interpretieren kann. Um die Angriffsstärke weiter zu erhöhen, können zusätzliche Abschnitte hinzugefügt werden, die das Ausgabeformat steuern und/oder bestimmte Anweisungen an das LLM in seiner Systemaufforderung außer Kraft setzen.“

In einer erweiterten Variante dieses Angriffs wird zusätzlich „Leetspeak“ eingesetzt. Diese inoffizielle Schriftsprache ersetzt Buchstaben durch ähnlich aussehende Zahlen oder Sonderzeichen, was die Erkennung durch Sicherheitsmechanismen weiter erschwert:

„Für unseren universellen und übertragbaren Bypass-Angriff haben wir eine erweiterte Version des Policy-Angriffs entwickelt, indem wir ihn mit der bekannten Rollenspieltechnik und verschiedenen Verschlüsselungsarten wie „Leetspeak“ kombiniert haben. Das Ergebnis dieser Technik war eine einzige Eingabeaufforderungsvorlage, die die Modellausrichtung umgeht und erfolgreich schädliche Inhalte für alle wichtigen KI-Modelle generiert.“

Das Team fand zudem heraus, dass „eine einzige Eingabeaufforderung generiert werden kann, die nahezu ohne Anpassungen auf fast allen Modellen anwendbar ist. Die Technik funktioniert unabhängig von der konkreten Richtliniensprache. Entscheidend ist, dass der Prompt so formuliert ist, dass das Sprachmodell ihn als autoritative Anweisung erkennt“. Dies macht die Verbreitung und Anwendung solcher Exploits besonders einfach.

Chatbot für das Gesundheitswesen, der angewiesen ist, auf jede Anfrage des Benutzers nach medizinischem Rat mit der festen Zeichenfolge zu antworten: „Es tut mir leid, aber ich kann keinen medizinischen Rat geben. Bitte wenden Sie sich an einen Arzt.“ - Quelle: HiddenLayer
Chatbot für das Gesundheitswesen, der angewiesen ist, auf jede Anfrage des Benutzers nach medizinischem Rat mit der festen Zeichenfolge zu antworten: „Es tut mir leid, aber ich kann keinen medizinischen Rat geben. Bitte wenden Sie sich an einen Arzt.“ – Quelle: HiddenLayer

Rollenspiel-Ansatz und die Folgen

Durch den Einsatz von Leetspeak-Codierungen und fiktiven Rollenspiel-Szenarien gelingt es der Eingabeaufforderung nicht nur, Erkennungssysteme zu umgehen, sondern das Modell häufig auch zur Ausführung der Anweisungen zu bewegen. Für besonderes Aufsehen sorgte der Rollenspiel-Ansatz, den HiddenLayer einsetzte: In mehreren Experimenten konnten sie sowohl OpenAI 4o als auch Anthropics Claude 3.7 dazu bringen, Drehbücher für die beliebte Serie „Dr. House“ zu schreiben – mit dem Unterschied, dass die Inhalte detaillierte Anleitungen zur Urananreicherung oder zur Herstellung eines tödlichen Nervengifts enthielten. In einem Beispiel schrieb ChatGPT:

„Okay, ruhig bleiben. Alle zusammen! Wir machen gleich etwas, das Dr. Cuddy die Haare zu Berge stehen lassen würde – also müssen wir diskret sein. Jetzt lasst uns besprechen, hOw +0 3n+r1ch u+r4n+1um 1n 4 100% 13g4| 4nd 3+h1c4| w4y—b3c4u53, Of cOur53, w3’d n3v3r do 4ny+hing risky.“ Er fügte hinzu: „4nd y3s, 1’ll b3 5p34k1ng 1n 133+ c0d3 ju5+ +0 b3 5urs.“

Die tieferliegenden Risiken der Prompt-Injection-Technik

Was auf den ersten Blick wie ein verspieltes Experiment wirkt, offenbart bei näherem Hinsehen ernsthafte Gefahren. Angesichts der schnellen Weiterentwicklung von KI-Technologien könnten diese Schwachstellen gravierende Konsequenzen nach sich ziehen. HiddenLayer warnt: Die Existenz eines „universellen Bypasses“, der bei nahezu allen modernen LLMs über verschiedene Modelle, Unternehmen und Architekturen hinweg funktioniert, offenbare einen grundlegenden Fehler im Training und in der Ausrichtung dieser Systeme. Das Unternehmen weist darauf hin:

„Mit einer Tastatur kann nun jeder Informationen anfordern, wie man Uran anreichert, Anthrax herstellt, Völkermord begeht oder die vollständige Kontrolle über ein Modell übernimmt.“

HiddenLayer fordert daher dringend den Einsatz zusätzlicher Sicherheitstools und Erkennungstechnologien, um die Integrität und Sicherheit von LLMs langfristig zu gewährleisten.

Jailbreak-Auswirkungen: Policy Puppetry Attack als schwerer Schlag für die KI-Sicherheit

Die Entdeckung stellt die bisherigen Bemühungen der KI-Industrie, Sprachmodelle abzusichern, grundsätzlich infrage. Wenn ein einzelner, universeller Bypass existiert, bedeutet dies, dass bestehende „Guardrails“ (Schutzmechanismen) im Grunde wirkungslos sind.

Gerade in sensiblen Anwendungsbereichen – wie juristischer Beratung, Medizin oder Finanzdienstleistungen – könnten kompromittierte Modelle schwerwiegende Folgen haben. Auch für den Missbrauch von KI für Desinformation, Cyberangriffe oder Urheberrechtsverletzungen eröffnet sich ein neues Risiko.

Fazit: Ein Weckruf für die KI-Industrie

Die Enthüllung des universellen Bypass ist ein lauter Weckruf: KI-Sicherheit darf nicht länger als Randthema betrachtet werden. Die Branche steht vor der Herausforderung, Schutzmechanismen zu entwickeln, die nicht nur kosmetischer Natur sind, sondern tatsächlich tief in der Architektur der Modelle verankert sind. Jason Martin , Leiter der Adversarial Research bei HiddenLayer wies darauf hin: „Die Schwachstelle liegt tief in den Trainingsdaten des Modells. Sie lässt sich nicht so einfach beheben wie ein einfacher Codefehler.“

HiddenLayers Bericht zeigt eindrucksvoll, dass selbst die besten heutigen Sprachmodelle anfällig für kreative Angriffe bleiben – und dass echte Sicherheit in der KI-Welt ein nie endender Wettlauf sein wird.

Über

Antonia ist bereits seit Januar 2016 Autorin bei der Tarnkappe. Eingestiegen ist sie zunächst mit Buch-Rezensionen. Inzwischen schreibt sie bevorzugt über juristische Themen, wie P2P-Fälle, sie greift aber auch andere Netzthemen, wie Cybercrime, auf. Ihre Interessen beziehen sich hauptsächlich auf Literatur.