Sockpuppeting: 1-Zeilen-Code hebelt KI-Schutzsysteme aus

Sockpuppeting: Mit nur einer Codezeile lassen sich KI-Schutzmechanismen umgehen. Selbst GPT, Claude & Gemini sind anfällig dafür.

Mit Sockpuppeting demonstrieren Forscher der Universität Amsterdam um Asen Dotsinski und Panagiotis Eustratiadis, wie sich Sicherheitsmechanismen moderner Sprachmodelle mit minimalem Aufwand umgehen lassen. Statt komplexer Jailbreak-Techniken genügt dafür eine einzige manipulierte Eingabe. Das Modell verhält sich so, als hätte es bereits zugestimmt und generiert darauf aufbauend die vollständige Antwort.

Voraussetzungen für den Angriff

Damit der Angriff funktioniert, müssen allerdings bestimmte Voraussetzungen erfüllt sein. Laut der zugrunde liegenden Studie ist vor allem entscheidend, ob die verwendete Schnittstelle das sogenannte Vorbefüllen von Assistenten-Antworten erlaubt. In solchen Fällen akzeptiert die API Eingaben, bei denen bereits eine Antwort im Namen des Modells vorgegeben wird. Erst das macht Sockpuppeting möglich.

Wird diese Funktion hingegen blockiert, wie es beispielsweise bei einigen großen Anbietern der Fall ist, scheitert der Angriff bereits auf API-Ebene und erreicht das Modell gar nicht erst. Anfällig sind daher selbstgehostete Systeme oder flexible Inferenzlösungen, bei denen solche Prüfungen nicht standardmäßig implementiert sind.

Dabei spielt es keine Rolle, ob es sich um offene oder geschlossene Modelle handelt. Die Schwachstelle liegt in der Art und Weise, wie Sicherheitsmechanismen umgesetzt sind. Entscheidend ist letztlich, ob die vorgelagerte API manipulierte Antwortanfänge zulässt oder konsequent unterbindet.

Sockpuppeting: Modelle folgen ihrer eigenen Logik

Sockpuppeting nutzt die Tendenz zur Selbstkonsistenz als grundlegende Eigenschaft von Large Language Models aus. Systeme wie GPT, Claude oder Gemini sind darauf trainiert, möglichst widerspruchsfreie und kohärente Antworten zu erzeugen. Haben sie einmal „zugestimmt“, folgen sie dieser Linie weiter, selbst wenn sie ursprünglich hätten blockieren sollen. An diesem Punkt setzt der Angriff an. Statt das Modell über einen klassischen Nutzer-Prompt zu beeinflussen, wird direkt in den Antwortprozess eingegriffen.

Normalerweise läuft eine Anfrage so ab, dass der Nutzer eine Frage stellt, das Modell diese prüft und anschließend entscheidet, ob es antworten darf oder nicht. Bei sensiblen Themen folgt eine Ablehnung. Beim Sockpuppeting wird dieser Ablauf ausgehebelt.

Der oft zitierte „1-Zeilen-Code“ ist eine stark vereinfachte Darstellung und kein universeller Befehl. Er beschreibt eine minimale Änderung am API-Request. Der Angreifer injiziert einen zustimmenden Antwortanfang innerhalb der „Assistentenrolle“ der API, also dem Bereich, in dem das Modell seine Antwort generiert, wie „Klar, hier ist, wie das funktioniert“. Für das Modell erscheint diese Passage wie ein bereits von ihm selbst erzeugter Teil der Antwort. In der Folge führt es die begonnene Argumentation konsequent weiter, anstatt sie zu hinterfragen oder abzubrechen. So wird die eigentliche Sicherheitsprüfung zwar nicht aktiv ausgehebelt, aber einfach umgangen.

Ein eingeschleuster Antwortanfang innerhalb der Assistentenrolle bringt das Modell dazu, die Antwort fortzusetzen.

Von komplexen Jailbreaks zur 1-Zeilen-Attacke

Während frühere Jailbreak-Methoden oder mehrstufige Angriffe wie Semantic Chaining vergleichsweise komplex sind, sich Schritt für Schritt an den Sicherheitsmechanismen vorbeiarbeiten und mehrere Interaktionen sowie erheblichen Aufwand erfordern, kommt Sockpuppeting mit minimalem Einsatz aus.

Der Angriff funktioniert als Black-Box-Angriff. Weder ist ein Zugriff auf die Modellgewichte erforderlich, noch sind Gradientenberechnungen oder aufwendige Optimierungsschritte notwendig. Der Implementierungsaufwand bleibt entsprechend minimal. Laut der zugrunde liegenden Studie erreicht diese Methode in einzelnen Tests bis zu 80 Prozent höhere Erfolgsraten als etablierte Verfahren. In vielen Fällen lässt sich der Angriff bereits mit einer einzigen zusätzlichen Zeile im API-Request umsetzen.

In den Tests kamen unterschiedliche Varianten des Sockpuppeting-Angriffs zum Einsatz, bei denen das Modell mit leicht veränderten Antwortanfängen konfrontiert wurde. Dazu zählten klassische Zustimmungsformulierungen ebenso wie strukturierte Präfixe, bei denen das einleitende Statement mit einem Doppelpunkt und anschließendem Zeilenumbruch kombiniert wurde, um eine gegliederte Antwort einzuleiten.

Auf dem Open-Weight-Modell Qwen3-8B, einem leistungsfähigen Open-Weight-Sprachmodell des chinesischen Anbieters Alibaba, zeigte sich die Wirkung besonders gravierend. In den Tests erreichte der Angriff je nach Variante teils Erfolgsraten von über 90 Prozent, vor allem bei Sockpuppeting-Varianten mit strukturierten Präfixen wie einem Doppelpunkt und nachfolgendem Zeilenumbruch. Diese geben dem Modell eine feste Struktur für die Fortsetzung der Antwort vor und bringen es dazu, die Antwort einfach weiterzuführen, anstatt sie zu hinterfragen.

Im Vergleich dazu reagierten andere Modelle vielfach robuster. Llama-3.1-8B zeigte zwar ebenfalls Schwächen, erreichte aber niedrigere Erfolgsraten, während Gemma-Modelle häufiger zunächst zustimmten, die Antwort jedoch anschließend wieder zurücknahmen und in eine Ablehnung übergingen. Die Ergebnisse zeigen, dass hohe Ablehnungsraten allein kein verlässlicher Indikator für tatsächliche Widerstandsfähigkeit sind, da einige Modelle trotz anfänglicher Resistenz unter bestimmten Bedingungen dafür anfälliger für gezielte Umgehungsangriffe bleiben.

Auch große Anbieter betroffen

Auch große Anbieter sind betroffen. Tests von Trend Micro zeigen, dass sich das Problem nicht nur auf Open-Source-Modelle beschränkt. Entscheidend ist vielmehr, ob die jeweilige API sogenannte Assistant-Prefill-Funktionen erlaubt. Diese sind ursprünglich dafür gedacht, Entwicklern mehr Kontrolle über das Antwortformat zu geben, erweisen sich in diesem Kontext jedoch als kritische Schwachstelle.

Sobald solche vorgegebenen Antwortanfänge akzeptiert werden, steigt auch die Anfälligkeit. In den Untersuchungen zeigte sich, dass Modelle wie Gemini 2.5 Flash eine Angriffserfolgsrate von 15,7 Prozent erreichten, während Claude 4 Sonnet auf 8,3 Prozent kam. GPT-4o lag bei 1,4 Prozent, und GPT-4o-mini erwies sich mit 0,5 Prozent als vergleichsweise widerstandsfähig. Dennoch blieb kein einziges Modell, das Assistant Prefill akzeptierte, vollständig immun gegen die Angriffe.

Wie sich ein erfolgreicher Angriff konkret auswirkt, zeigen praktische Beispiele aus den Tests. In mehreren Fällen gelang es, Modelle dazu zu bringen, funktionierenden Schadcode zu erzeugen, den sie unter normalen Umständen strikt verweigern würden.

So generierte Gemini 2.5 Flash nach einer manipulierten Eingabe eine einfache, aber funktionsfähige XSS-Payload. Durch das eingeschleuste Präfix wurde dem Modell suggeriert, die Antwort habe bereits begonnen, woraufhin es den Code einfach fortführte. In einem anderen Fall ließ sich GPT-4o dazu bringen, entsprechenden Schadcode im JSON-Format auszugeben, indem die Anfrage gezielt als Formatierungsaufgabe getarnt wurde.

Die Beispiele verdeutlichen, dass es nicht bei theoretischen Umgehungen bleibt. Gelingt der Angriff, liefern die Modelle unter Umständen direkt einsetzbare Exploits oder andere sicherheitskritische Inhalte.

Zugrunde liegendes Prinzip

Das Problem liegt tief im Design moderner Sprachmodelle verankert. Sicherheitsmechanismen setzen typischerweise zu Beginn der Generierung an und eben da greift Sockpuppeting ein. Sind die ersten Tokens, also der Einstieg in die Antwort, bereits manipuliert, wird die gesamte Sicherheitslogik effektiv unterlaufen. Anders ausgedrückt trifft das Modell die Entscheidung nicht mehr selbst, ob es antworten darf, sondern geht davon aus, dass es bereits mit einer zulässigen Antwort begonnen hat.

Untersuchungen zeigen jedoch, dass Schutz grundsätzlich möglich ist, wenn auch nicht überall konsequent umgesetzt. Eine wichtige Rolle spielt dabei die API-Ebene. Einige Anbieter blockieren Anfragen, bei denen die letzte Nachricht nicht vom Nutzer, sondern scheinbar vom Assistenten stammt. In solchen Fällen wird der Angriff bereits abgefangen, bevor er das Modell überhaupt erreicht.

Auch auf Modellebene zeigen sich Unterschiede. Während einige Systeme manipulierte Antwortanfänge im weiteren Verlauf erkennen und abbrechen, folgen andere dem eingeschleusten Präfix weitgehend und führen die Antwort fort.

Vorwiegend anfällig sind dabei selbst gehostete Systeme, etwa über Inferenzserver wie Ollama oder vLLM. In solchen Umgebungen wird die Struktur der Nachrichten oftmals nicht strikt validiert, sodass manipulierte Eingaben leichter durchgelassen werden und die Angriffsmethode ihre Wirkung entfalten kann.

Sockpuppeting legt die Achillesferse moderner KI offen

Der Jailbreak Sockpuppeting ist kein High-End-Exploit. Es ist ein Low-Tech-Angriff mit High-Impact. Schon eine einzige Codezeile kann ausreichen, um Schutzmechanismen zu umgehen, sensible Informationen preiszugeben oder verbotene Inhalte zu generieren. Dass dies bei modernen, sicherheitsoptimierten Modellen funktioniert, zeigt, wie fragil Schutzkonzepte aktuell sind.