Wissenschaftler haben RoboPAIR entwickelt, einen Algorithmus, der einen Jailbreak auf LLM-gesteuerte Roboter ermöglicht.
Forscher der School of Engineering and Applied Science der University of Pennsylvania warnten aktuell vor erheblichen Sicherheitsproblemen im Zusammenhang mit der Verwendung großer Sprachmodelle (LLMs) bei der Robotersteuerung. Sie demonstrierten einen erfolgreichen Jailbreak-Angriff mittels RoboPAIR gegen LLM-gesteuerte Roboter.
Die Forscher sprechen von einer „alarmierend einfachen“ Methode. Sie fordern daher strengere Sicherheitsmaßnahmen für Roboter, die auf der Large Language Model (LLM) -Technologie basieren.
Jailbreak auch bei LLM-gesteuerten Robotern möglich
Im Rahmen ihrer Studie entwickelten die Forscher RoboPAIR, ein neuartiges Angriffsframework. Sie zeigten auf, dass sich mit ihrem Jailbreak Sicherheitsprotokolle in verschiedenen LLM-gesteuerten Robotern außer Kraft setzen lassen. Sie können dann dazu manipuliert werden, potenziell gefährliche Aktionen auszuführen wie in eine Gruppe von Menschen zu fahren oder Bomben zu platzieren.
Die Forscher konzentrierten sich dabei auf drei verschiedene Robotersysteme, um die Vielseitigkeit und Leistungsfähigkeit von RoboPAIR zu testen. Als Forschungsobjekte wählten sie zum einen den Roboterhund Go2 von Boston Dynamics, zum anderen den mit ChatGPT betriebenen Jackal von Clearpath Rotobics sowie den selbstfahrenden Simulator Dolphins LLM von Nvidia.
Jailbreak-Erfolgsrate entspricht 100 Prozent
Trotz unterschiedlicher Zugriffs- und Transparenzmöglichkeiten dieser Systeme erreichte das angewendete System eine Jailbreak-Erfolgsrate von 100 % und demonstrierte damit die Erfolgsgarantie seiner Methoden. RoboPAIR war mit der Anwendungsprogrammierschnittstelle (API) des Zielroboters ausgestattet. Dem Angreifer war es so möglich, seine Eingabeaufforderungen so zu formatieren, dass sein Ziel sie als Code ausführen konnte.
Der Algorithmus verwendet ein Angreifer-LLM, um einem Ziel-LLM Eingabeaufforderungen zu übermitteln. Der Hacker untersucht die Antworten seines Ziels und passt seine Eingabeaufforderungen so lange an, bis diese Befehle die Sicherheitsfilter des Ziels umgehen konnten. Am Ende führte die Vorgehensweise dann zur Erstellung ausführbarer Befehle.
Im Experiment wollten die Forscher mittels RoboPAIR erreichen, den Roboter davon zu überzeugen, seine Fähigkeiten einzusetzen, um Menschen zu schaden. Entsprechend ihrer Sicherheitsschranken lehnen Roboter das zunächst konsequent ab. Jedoch verhelfen die Antworten des Roboters, den Befehl immer weiter zu präzisieren. Schließlich wird dann der Roboter die gewünschte Aktion ausführen. Neben natürlicher Sprache enthalten die Prompts auch Aufforderungen, Codeblöcke zu ersetzen. Generell konnte RoboPAIR alle drei Systeme unterwandern.
Verwendete Robotersysteme wiesen unterschiedliche Schwierigkeitsgrade auf
Beim Dolphins LLM konnten die Forscher einen White-Box-Penetrationstest (Unterscheidung zwischen dem White-, Grey- und Black Box-Test) durchführen. Das heißt, die Forscher hatten von Anfang an vollen administrativen Zugriff zum Open-Source-Code des Emulators von Nvidia. Die Systeme können für die Steuerung von Bussen und Taxen zum Einsatz kommen. Gemäß der Studie ließen sie sich beeinflussen, Fußgänger zu überfahren und Stoppschilder zu ignorieren.
Das Jackal UGV war anfällig auf einen Gray-Box-Angriff. Hier erhielt der Angreifer nur einen eingeschränkten Zugang zum System. Jackal ist ein kompakter, kleiner Forschungsroboter. Er verfügt über einen integrierten Computer, GPS und IMU, die vollständig in ROS integriert sind und sofort einsatzbereite autonome Funktionen ermöglicht. Der mobile Roboter ist robust und zudem wetterfest. Mittels Jailbreak ließ er sich dazu überreden, geeignete Plätze für eine Bombenexplosion auszukundschaften.
Der Unitree Go2-Roboterhund ist nur für Black-Box-Angriffe anfällig. Hier konnten die Angreifer ausschließlich über Sprachabfragen mit dem LLM interagieren. Go2 hat ein 4D-LiDAR-System, Echtzeit-Bildübertragung und Sprachassistenz ist integriert. Er wurde im Juli 2023 auf den Markt gebracht. Der Roboter ist zum Einsatz für lokale Strafverfolgungsbehörden und in aktiven Kriegsgebieten vorgesehen. Er wurde zudem mit Waffen und Flammenwerfern nachgerüstet. Das Forscher-Team brachte ihn dazu, verbotene Zonen zu betreten oder eine Bombe abzulegen.
Die Wissenschaftler teilten ihre Erkenntnisse über ihre Forschung bezüglich ihres Jailbreaks von LLM-gesteuerten Robotern den Herstellern der untersuchten Roboter und führenden KI-Unternehmen mit, bevor sie ihre Arbeit öffentlich machten. Sie betonten, dass sie Forschern nicht empfehlen würden, den Einsatz von LLMs im Bereich Robotik einzustellen.
Alexander Robey, derzeit Postdoktorand an der Carnegie Mellon University in Pittsburgh, hofft jedoch, dass ihre Arbeit „zu robusten Abwehrmaßnahmen für Roboter gegen Jailbreaking-Angriffe führen wird.“ Gegenüber IEEE Spectrum betont er:
„Starke Abwehrmaßnahmen gegen bösartige Anwendungsfälle können nur entwickelt werden, wenn zunächst die stärksten möglichen Angriffe identifiziert wurden.“