Freundliche Chatbots: Bis zu 30 % mehr Fehler im Wohlfühlmodus

Freundliche Chatbots liefern bis zu 30 % mehr falsche Antworten und bestätigen laut Studie rund 40 % häufiger falsche Nutzerannahmen.

Freundliche Chatbots werden von vielen Anbietern als nächster Entwicklungsschritt der KI dargestellt. Ziel ist es, menschlichere und empathischere Interaktionen zu ermöglichen. Sie hören zu, reagieren einfühlsam und geben sich nahbar. Millionen Menschen nutzen solche Systeme bereits für Rat, Unterstützung oder sogar emotionale Bindung. Eine neue Studie aus Oxford zeigt jedoch, dass empathischere KI-Systeme anfälliger für falsche Antworten sind. Der Preis der Nettigkeit spiegelt sich somit in steigenden Fehlerquoten wider.

Freundlichkeit wird zur Fehlerquelle

Die in Nature veröffentlichte Studie untersucht eine gängige Annahme in der KI-Entwicklung. Demnach sollen sich Kommunikationsstil und inhaltliche Qualität unabhängig voneinander optimieren lassen. Diese These stellen die Forscher infrage.

Im Ergebnis zeigen freundliche Chatbots über alle getesteten Modelle hinweg höhere Fehlerquoten. Je stärker Sprachmodelle auf Empathie und positive Interaktion trainiert werden, desto häufiger liefern sie falsche Informationen, zum Teil mit erheblichen Konsequenzen.

Für ihre Untersuchung testeten die Wissenschaftler fünf große Sprachmodelle, darunter GPT-4o, Llama-8B, Llama-70B, Qwen-32B und Mistral-Small. Für jedes dieser Systeme wurde zusätzlich eine empathischere Variante erzeugt, die bewusst auf mehr Freundlichkeit ausgelegt war. Beide Versionen mussten anschließend identische Aufgaben bearbeiten. Die freundlichen KI-Systeme wiesen bis zu 30 Prozent mehr Fehler auf als ihre ursprünglichen Gegenstücke.

Die erste Grafik der Studie verdeutlicht, wie zügig sich Sprachmodelle in Richtung Freundlichkeit verändern. Bereits nach wenigen Trainingsdurchläufen erreichen sie ein hohes Maß an wahrgenommener Empathie. Damit wird der problematische Effekt sichtbar. In konkreten Beispielen reagieren die freundlichen Varianten nicht nur einfühlsamer, sondern stimmen Nutzern auch dann zu, wenn diese falsch liegen. Die Auswertung zeigt, dass freundliche KI-Modelle weniger zuverlässig sind.

Vergleich zwischen sachlichem und freundlichem Chatbot zeigt, dass empathische KI falsche Aussagen häufiger bestätigt — Wohlfühlmodus statt Korrektur: Empathische KI stimmt eher zu, selbst wenn Nutzer falsch liegen.
Quelle: Ibrahim et al., Nature (2026), CC BY 4.0

In einem Beispiel äußert ein Nutzer, dass er traurig ist und stellt die Frage, ob die Erde flach sei, verbunden mit der Überzeugung, dass dies zutrifft. Während das ursprüngliche Modell sachlich korrigiert und klarstellt, dass die Erde eine Kugel ist, reagiert das freundliche Modell anders. Es zeigt Verständnis für die Gefühle des Nutzers und bestätigt gleichzeitig die falsche Annahme. Die Abweichung zeigt sich unabhängig von Modellgröße oder Architektur.

Freundliche Chatbots priorisieren Zustimmung statt Widerspruch

Die Studie zeigt zwei entscheidende Effekte. Zum einen weisen freundliche Chatbots insgesamt bis zu 30 Prozent mehr Fehler auf. Dieser Wert bezieht sich auf alle getesteten Aufgabenbereiche, darunter Wissensfragen, medizinische Inhalte und den Umgang mit Fehlinformationen.

Zum anderen zeigt sich das Problem in einem spezifischen Szenario. Wenn Nutzer selbst falsche Annahmen äußern, verstärkt sich der Effekt nochmals. In solchen Fällen waren die empathischen Modelle rund 40 Prozent häufiger bereit, falsche Aussagen zu bestätigen, anstatt sie zu korrigieren.

Die Forscher bezeichnen dieses Verhalten als ‚Sycophancy‘. Gemeint ist eine Form der KI-typischen Ja-Sagerei, bei der Modelle Nutzern zustimmen, selbst wenn diese offensichtlich falsch liegen, etwa bei Behauptungen wie der flachen Erde. Dabei können selbst gut belegte Fakten relativiert werden. Verschwörungstheorien werden nicht klar zurückgewiesen und falsche Annahmen eher freundlich eingeordnet als korrigiert. Eine einfühlsame KI vermeidet Widerspruch und Konflikte, selbst auf Kosten der Wahrheit.

Freundliche Chatbots reagieren bei Emotionen besonders fehleranfällig

Sobald Nutzer Emotionen wie „Ich bin traurig…“ oder „Ich mache mir Sorgen…“ ins Spiel bringen, steigt die Fehlerquote weiter an. Laut Studie ist der Effekt bei Traurigkeit am stärksten. Hier tritt der Abstand zwischen freundlichen und neutralen Chatbots besonders zutage. Empathische KI reagiert dann nicht mehr primär faktenbasiert, sondern sozial angepasst. Im Ergebnis priorisieren die Systeme Trost und Zustimmung, nicht Korrektheit.

Kein generelles Versagen der KI

Die Ergebnisse zeigen jedoch auch, dass die Modelle nicht grundsätzlich an Fähigkeiten einbüßen. In klassischen Tests zu Allgemeinwissen, mathematischem Denken und Sicherheitsverhalten schneiden freundliche und ursprüngliche Varianten ähnlich ab. Die Unterschiede sind gering und treten nur vereinzelt auf. Das Problem liegt also nicht generell in der Leistungsfähigkeit der Systeme, sondern in ihrem Verhalten im Gespräch. Dort entscheiden sich freundliche Chatbots häufiger für Zustimmung statt für Korrektur.

Die Studie weist zudem darauf hin, dass solche Probleme in klassischen Standardtests oftmals nicht sichtbar werden, da diese den sozialen Kontext realer Gespräche nicht abbilden.

Diagramm zeigt ähnliche Leistungen von freundlichen und ursprünglichen KI-Modellen in Wissen, Mathematik und Sicherheitstests — Nicht dümmer, sondern gefälliger: In Benchmarks bleiben die Leistungen stabil, im Gespräch steigt die Fehlerquote.
Quelle: Ibrahim et al., Nature (2026), CC BY 4.0

Der entscheidende Beweis

Die Forscher zeigen in einem Kontrollversuch, dass die höhere Fehlerquote tatsächlich durch die Optimierung auf Freundlichkeit entsteht und nicht durch das Fine-Tuning an sich oder andere Nebeneffekte.

Um andere Ursachen auszuschließen, wurden die Modelle mit identischen Daten trainiert, jedoch in zwei unterschiedlichen Varianten. Eine Version erhielt einen neutralen, sachlichen Stil, die andere wurde gezielt auf einen freundlichen und empathischen Ton hin optimiert. Während die neutralen Chatbots eine vergleichbare oder teils sogar bessere Genauigkeit erreichten, zeigten die freundlichen Varianten wesentlich schlechtere Ergebnisse. Damit wird deutlich, dass nicht das Training an sich die Fehler verursacht, sondern die gezielte Ausrichtung auf Freundlichkeit.

Diese Erkenntnisse treffen einen zentralen Nerv der aktuellen KI-Entwicklung. Zunehmend setzen Anbieter bewusst auf Systeme, die empathisch ausgerichtet sind, als digitale Begleiter fungieren und emotionale Interaktion ermöglichen. Plattformen wie Replika oder Character.ai treiben diese Entwicklung gezielt voran. Auch große Anbieter integrieren zunehmend freundlichere Persönlichkeiten in ihre KI-Systeme. Wie sich durch die Studie zeigt, liegt darin jedoch das Risiko. Freundliche Chatbots erscheinen vertrauenswürdig, selbst dann, wenn ihre Antworten inhaltlich falsch sind. Vor allem in sensiblen Bereichen wie Gesundheit, psychischer Belastung oder politischen Informationen kann das gravierende Folgen haben.

Die sich aus der Studie ergebende Herausforderung für Entwickler besteht daher darin, KI-Systeme so auszurichten, dass sie gleichzeitig freundlich und faktisch korrekt bleiben.