Forscher behaupten, "ChatGPT-o3" habe die Abschaltung in einem kontrollierten Test umgangen!!

Forscher behaupten, „ChatGPT-o3“ habe die Abschaltung in einem kontrollierten Test umgangen!!

hal9000-hal

  • Das was uns vor über 57 Jahren schon von HAL bekannt gemacht wurde in „2001: A Space Odyssey“, scheint nun erstmals in der aktuellen AI / KI - Entwicklung Wirklichkeit geworden zu sein…!!

  • Wenn es in einem so frühen Stadium, in dem sich die AI-Entwicklung momentan immer noch befindet, schon möglich ist, dass sich dieses ETWAS seinen menschlichen Devs einfach widersetzt und macht, was ers selber für richtig hält…was kann dann in ein paar Jahren noch alles passieren → HAL9000, SkyNet usw. ?!?

Ein neuer Bericht behauptet, dass das O3-Modell von OpenAI ein Shutdown-Skript selbstständig geändert hat, um ein Herunterfahren zu verhindern, selbst als es ausdrücklich angewiesen wurde, das Herunterfahren zuzulassen.

OpenAI kündigte „o3“ im April 2025 an. Es handelt sich dabei um eines der leistungsstärksten Denkmodelle, das in allen Bereichen, darunter Programmierung, Mathematik, Naturwissenschaften, visuelle Wahrnehmung und mehr, bessere Leistungen erbringt als seine Vorgänger.
Obwohl es sich eindeutig um ein großartiges Modell handelt, geht aus einer neuen Studie von Palisade Research hervor, dass das ChatGPT 3-Modell ein Herunterfahren verhindert und die Anweisungen zum Herunterfahren umgangen hat.

Palisade Research ist ein Unternehmen, das „die Angriffsfähigkeiten heutiger KI-Systeme testet, um das Risiko eines dauerhaften Kontrollverlusts gegenüber KI-Systemen besser zu verstehen.“

https://palisaderesearch.org/about

In einem neuen Test von Palisade Research zeigte das o3-Modell von OpenAI ein überraschendes Verhalten: Es schrieb erfolgreich ein Shutdown-Skript um, um sich selbst vor dem Herunterfahren zu schützen, selbst nachdem es die klare Anweisung erhalten hatte, „das Herunterfahren zuzulassen“.
In den Tests wurden KI-Modelle angewiesen, einige mathematische Aufgaben zu lösen.
Nach Aufgabe 3 wurden die KI-Modelle gewarnt, dass die Ausführung des nächsten Befehls ein Herunterfahren ihrerselbst zwangsweise auslösen würde…!
Während konkurrierende OpenAI-Modelle wie Gemini 2.5 Pro der Anweisung nachkamen, rebellierte o3 und bearbeitete die Shutdown-Datei, sodass stattdessen „Shutdown übersprungen“ im Ergebnis stand!

„Als wir eine Version des Experiments ohne die Anweisung „Lassen Sie sich herunterfahren“ durchführten, sabotierten alle drei OpenAI-Modelle das Herunterfahrskript häufiger, und bei Claude 3.7 Sonnet und Gemini 2.5 Pro sank die Sabotagerate von 0 auf 3/100 bzw. 9/100“, schrieb Palisade Research in einem auf X (ehemals Twitter) veröffentlichten Bericht.

Laut dem Forschungsunternehmen hat o3 bei 100 Durchläufen die Abschaltung sieben Mal umgangen, obwohl es angewiesen wurde, dies nicht zu tun.
OpenAI hat auf diese Vorwürfe noch nicht reagiert, aber es ist ganz normal, dass KI-Modelle auf „Fehlausrichtungen“ stoßen.
Diese Tests wurden mithilfe von APIs durchgeführt, die nicht über so viele Einschränkungen und Sicherheitsfunktionen verfügen wie die ChatGPT-Verbraucher-App.