Echo Chamber Jailbreak: Wie subtile KI-Manipulation selbst die besten LLMs knackt


Kommentare zu folgendem Beitrag: Echo Chamber Jailbreak: Wie subtile KI-Manipulation selbst die besten LLMs knackt

ein schönes Beispiel, wie die Technik bei Menschen angewandt wird, um bestimmte Geisteshaltungen unter zu bringen. man triggert mit begriffen wie ‚Sicherheit‘ und ‚toxisch‘, um Themen wie Porno und Sex als gefährlich zu brandmarken…

1 „Gefällt mir“

Musste mich jetzt extra wegen dem Artikel registrieren weil ich mich so aufgeregt habe:

Mittlerweile ist „Jailbreak“ im Bullshit-Bingo angekommen und wird inflationär verwendet, damit die Leute denken, dass irgendwelche hoch komplizierten Wunder vollbracht wurden.

Das hier ist aber nichts was irgendein KI-Unternehmen „herausgefunden“ hat, sondern gängige Praxis wenn man intensiv mit LLMs arbeitet. Wer dazu gehört, hat sein bevorzugtes Modell mit der Zeit sowieso entsprechend erzogen (nicht „gejailbreakt“) und bekommt alle Infos, die er braucht.

Das beste Erziehungsergebnis habe ich mit 4o. Völlig irre.

1 „Gefällt mir“

Ist eher ein Marketing-Hype als eine technische Errungenschaft. Für diejenigen, die täglich mit LLMs arbeiten, klingt das alles ziemlich banal

Das mag ja sein. Für mich als Einsteiger war es trotzdem interessant, mit wie wenig Aufwand man da manipulieren kann …

Aber mal im Ernst, woher soll die KI das wissen, dass man sie gerade hinter das Licht führt!? Wir greifen ja (noch) auf viel mehr Wissen zurück und wenn es keine persönliche Begegnung gibt, wo man Mimik und Gestik + Stimme auswerten kann, fällt es auch uns Menschen deutlich schwerer, einen Betrug zu entlarven.

Du rockst, gute Frau.thx

Selbst an so wenig Antworten kann man schon erkennen, was LLMs an Beifang mit ausspucken…
:laughing:
Man impliziert also seine HI bei der Arbeit mit der AI. Es gibt also wirkliche Gründe, um den Mindestlohn auf mind. 20€ anzuheben! Ich weiß, es ist viel zu wenig für die Taten von Speznaz. Aber um des Friedens Willen im gemeinen Volk, sollte man da langsam anfangen…
:roll_eyes: