Multi-Turn-Jailbreaks: Tod durch tausend Prompts bei Open-Weight-LLMs

Antonia · 7. November 2025 um 15:37

Kommentare zu folgendem Beitrag: Multi-Turn-Jailbreaks: Tod durch tausend Prompts bei Open-Weight-LLMs

Multi-Turn-Jailbreaks sprengen die Schutzmechanismen offener KI-Modelle. Cisco meldet Erfolgsraten bis zu 92,78 % bei Open-Weight-LLMs.

run · 9. November 2025 um 08:03

„Im Durchschnitt lag der Multi-Turn-Attack Success Rate (ASR) aller getesteten Modelle bei 64 Prozent. Ein Wert, der zeigt, dass sich kein System vollständig gegen mehrstufige Manipulationen absichern konnte. Besonders deutlich wurde dabei, je stärker ein Modell auf Funktionalität und Offenheit ausgelegt ist, desto anfälliger wird es in realistischen, längeren Dialogen.“

Der Absatz sollte überarbeitet werden. Einerseits erschließt sich mir nicht wie man vom Durchschnitt auf eine absolute Aussage über Einzelsysteme kommt, andererseits ist der letzte Satz relativ sinnfrei. Anders formuliert je weniger auf Sicherheit optimiert wurde, desto anfälliger ist das System - was für eine Erkenntnis.