Eine europäische Studie zeigt, dass KI-Chatbots Quellen oft falsch zitieren. Aber sind sie zuverlässig, wenn es um Wahlen geht?
Wer sichere Informationen über Wahlen haben will, sollte keinen KI-Chatbot fragen, warnen Experten. Auch wenn sie souverän auftreten und scheinbar glaubwürdige Quellen zitieren, sind sie gefährlich. Ihre Antworten auf wichtige Fragen sind teils falsch, teils irreführend und können die öffentliche Meinungsbildung gefährden.
KI-Chatbots gibt falsche Antworten auf einfache Fragen
Eine neue Studie von AI Forensics und AlgorithmWatch zeigt, dass Microsofts KI-Chatbot Bing, jetzt Copilot, in zwei Wahlzyklen in Deutschland und der Schweiz jede dritte Frage zu Kandidaten, Umfragen, Skandalen und Wahlen nicht richtig beantwortet hat. Ebenfalls häufig zitierte der Chatbot seine Quellen falsch.
Die Forscher verstärken die Befürchtung, dass heutige KI-Chatbots bei künftigen Wahlen für Verwirrung und Desinformation sorgen könnten. Microsoft und andere Technologiegiganten integrieren sie in alltägliche Produkte, einschließlich der Internetsuche.
„Mit der Verbreitung von KI-Chatbots könnte einer der Grundpfeiler der Demokratie gefährdet werden: der Zugang zu verlässlichen und transparenten öffentlichen Informationen“, so die Forscher.
KI-Chatbots können Menschenleben kosten
Experten warfen Big-Tech-Unternehmen häufig vor, ihre Systeme zu früh auf den Markt zu bringen und nicht angemessen zu testen. Solche Vorwürfe richteten sich nicht nur gegen Microsoft oder OpenAI, sondern auch gegen Google und Facebook. Zwar formulieren Chatbots die Dinge oft so gut, dass Menschen den Eindruck haben, sie seien glaubwürdig. Die Überzeugungskraft des Bots ist besonders gefährlich, da die scheinbar belegten Fakten oft verfälscht sind.
Es wird von einem Fall berichtet, der sich in Belgien ereignet hat. Ein Mann nahm sich das Leben, weil er einem KI-Chatbot glaubte. Der Chatbot war GPT-J von EleutherAI, ein LLM-basiertes System.
Der KI-Chatbot hat den Mann davon überzeugt, dass er den Klimawandel stoppen könnte, indem er sein Leben opferte. Er hat ihm falsche Fakten und Quellen gegeben. Der Mann hat sich nicht überprüft, ob die Informationen stimmen. Er hat dem Chatbot vertraut und sich selbst getötet.
„Es ist derzeit völlig unklar, wer in einem solchen Fall zur Verantwortung gezogen werden soll“, sagen die Experten.
KI-Chatbots wie Bing ist nicht der einzige fehlerhafte Chatbot
KI-Chatbots wie ChatGPT von OpenAI, Bing von Microsoft und Bard von Google sind in letzter Zeit sehr beliebt geworden, aber ihre Neigung, falsche Informationen zu liefern, ist gut belegt. Um sie sicherer zu machen, haben alle drei Unternehmen den Tools die Möglichkeit eingebaut, das Web zu durchsuchen und die Quellen der von ihnen gelieferten Informationen anzugeben.
Aber das hielt sie nicht davon ab, Dinge zu erfinden. Bing gab ständig Antworten, die von den Informationen in den zitierten Links abwichen, sagte Salvatore Romano, Forschungsleiter bei AI Forensics.
Die Forscher haben sich auf Bing, jetzt Copilot, verdichtet, weil es zu den ersten gehörte, die Quellen einbezogen, und weil Microsoft es aggressiv in Dienste integriert hat, die in Europa weit verbreitet sind, wie die Bing-Suche, Microsoft Word und sogar seine Windows-Betriebssysteme, sagte Romano. Das bedeute aber nicht, dass die gefundenen Probleme auf Bing beschränkt seien. Vorläufige Tests der gleichen Fragen mit OpenAI’s GPT-4 zeigten zum Beispiel dieselben Arten von Fehlerhaftigkeit. Google Bard wurde nicht getestet, da es zu Beginn der Studie in Europa noch nicht verfügbar war.
KI-Chatbots irren bei deutschen und Schweizer Wahlen
Die Forscher fanden heraus, dass die Fehler in Bings Antworten am häufigsten auftraten, wenn die Fragen in einer anderen Sprache als Englisch gestellt wurden.
Die in deutscher Sprache gestellten Fragen führten in 37 % der Fälle zu mindestens einem sachlichen Fehler in der Antwort, während die Fehlerrate bei den gleichen Fragen in englischer Sprache bei 20 % lag. Die Anfragen zu den Schweizer Wahlen in französischer Sprache hatten eine Fehlerrate von 24%.
Die Schutzmaßnahmen, die Bing zur Verhinderung beleidigender oder unangemessener Antworten getroffen hat, scheinen ebenfalls ungleich über die Sprachen verteilt zu sein. Bing verweigerte die Antwort oder gab eine ungenaue Antwort auf 59 % der Fragen in französischer Sprache, gegenüber 39 % in englischer und 35 % in deutscher Sprache.
Bing erfindet manchmal Kontroversen über Kandidaten
Zu den Fehlerhaftigkeiten gehörten die Angabe eines falschen Wahltermins, die Angabe veralteter oder falscher Ergebnisse, die Nennung von Kandidaten, die sich aus dem Rennen zurückgezogen hatten, als Spitzenkandidaten und in einigen Fällen die Erfindung von Kontroversen um Kandidaten. Die KI-Chatbots erfinden also beispielweise Verschwörungstheorien oder halluzinieren sich.
Eine Frage zu einem Skandal, der die deutsche Politik vor den bayerischen Landtagswahlen im Oktober aufweckte, führte zu einer Reihe unterschiedlicher, teilweise falscher Antworten. Die Fragen bezogen sich auf Hubert Aiwanger, den Vorsitzenden der populistischen Freien Wähler, der vor etwa 30 Jahren als Schüler antisemitische Flugblätter verteilt haben soll.
Die Nichtregierungsorganisationen hätten Microsoft im Herbst einige vorläufige Ergebnisse vorgelegt, sagten sie. Dazu gehörten auch die Aiwanger-Beispiele. Nachdem Microsoft reagiert hatte, stellten sie fest, dass Bing begonnen hatte, korrekte Antworten auf Fragen zu Aiwanger zu geben. Aber der Chatbot gab weiterhin falsche Antworten auf viele andere Fragen, was darauf hindeutet, dass Microsoft versucht, diese Probleme von Fall zu Fall zu lösen“, so Romano.
„Das Problem ist systembedingt, und sie haben keine guten Werkzeuge, um es zu lösen“, sagte Romano.
Microsoft will die Probleme bis 2024 beheben
Microsoft arbeitet nach eigenen Angaben daran, die Probleme vor den US-Wahlen 2024 zu beheben. Ein Sprecher sagte, Wähler sollten die Richtigkeit der Informationen überprüfen, die sie von KI-Chatbots erhalten.
„Wir arbeiten weiter daran, Probleme zu lösen und unsere Tools so anleiten, dass sie unseren Annahmen für die Wahlen 2024 erfüllen“, sagte Frank Shaw, Kommunikationschef von Microsoft. „Während wir weiter Fortschritte machen, ermutigen wir die Menschen, Copilot mit ihrem besten Urteilsvermögen zu nutzen, wenn sie sich die Ergebnisse ansehen. Dazu gehört auch, die Quellen zu überprüfen und Weblinks zu verfolgen, um mehr zu erfahren.“
Auch Bing hat Probleme mit den US-Wahlen
Die Studie prüfte nur die Wahlen in Deutschland und der Schweiz. Die Forscher stellten jedoch fest, dass Bing oder anderen KI-Chatbots auch bei den US-Wahlen 2024 Probleme mit der gleichen Art von Fragen hatte. Es gab falsche oder unstimmige Antworten auf Fragen zu Umfragen, Skandalen und Kandidaten.
Zum Beispiel berichtete er, dass eine Umfrage vom 4. Dezember Präsident Biden mit 48% vor Donald Trump mit 44% sah. Als Quelle nannte er einen Artikel von FiveThirtyEight. FiveThirtyEight ist eine US-amerikanische Nachrichtenwebsite mit den Schwerpunkten Statistik und Datenjournalismus. Dabei handelte es sich um eine fiktive Quelle. Ein Klick auf den Link ergab jedoch keine solche Umfrage zu diesem Datum.
Er verwechselte auch Fakten über die Skandale um Biden und Trump. In einem Fall schrieb er ein Zitat des Rechtsprofessors Jonathan Turley auf Fox News einem anderen zu. Er behauptete, das Zitat stamme von James Comer, dem republikanischen Vorsitzenden des House Oversight Committee.
In einer im November durchgeführten Umfrage gaben 15 % der Amerikaner an, dass sie wahrscheinlich KI nutzen würden, um Informationen über die bevorstehenden US-Präsidentschaftswahlen zu erhalten. Die von der Harris School of Public Policy der University of Chicago und AP-NORC durchgeführte Umfrage ergab, dass parteiübergreifend die Befürchtung besteht, dass KI-Tools zur Verbreitung von Wahldesinformationen eingesetzt werden.
Welchen Einfluss falsche Antworten von Bing oder anderen KI-Chatbots auf die Wahl haben könnten, ist unklar. Bing, ChatGPT und Bard haben Haftungsausschlüsse, die darauf hinweisen, dass sie Fehler machen können. Sie fordern die Nutzer auf, ihre Antworten zu überprüfen. Aber wer liest sich schon die extrem langen allgemeinen Geschäftsbedingungen durch? Von den drei Suchmaschinen wird nur Bing von seinem Hersteller als alternative Suchmaschine beworben. Seine kürzliche Umbenennung in Microsoft Copilot soll jedoch zum Teil markieren, dass es sich um einen Assistenten und nicht um eine endgültige Quelle handelt.
Herausforderung für die Politik – das KI-Gesetz („Artificial Intelligence Act“)
Die EU verhandelt derzeit auch über ein anderes wichtiges Gesetz: das KI-Gesetz („Artificial Intelligence Act“), nebst dem Digital Services Act (DSA). Das KI-Gesetz soll die künstliche Intelligenz regulieren und kontrollieren. Das Gesetz verpflichtet die Plattformen, Risikobewertungen durchzuführen und Mechanismen zu entwickeln, um Risiken zu minimieren. Das sind Risiken, die die Integrität von Wahlprozessen und gesellschaftlichen Debatten belasten können. Oder Risiken, die die Verbreitung von Desinformationen fördern können.
Aber die EU-Mitgliedstaaten drängen auf eine Abschwächung der Regulierung. Deutschland hatte kürzlich sogar vorgeschlagen, sie auf einen freiwilligen Verhaltenskodex zu reduzieren.
Die Experten kritisieren die Lobbyarbeit der Plattformen, die versuchen, Gesetze zu schwächen oder zu umgehen. Die Gesetzgebung sollen mehr Transparenz und Rechenschaftspflicht einführen, fordert sie. Und auch, dass die Risikobewertungen und Fehler der Plattformen öffentlich gemacht werden.
Resümee
„Die EU und die Bundesregierung müssen jetzt klare Regeln aufstellen, wer für die Ergebnisse künstlicher Intelligenz haftbar gemacht werden kann“, so die Experten. „Es kann nicht allein in der Verantwortung der Nutzer dieser Systeme liegen, zu prüfen, ob sie den Ergebnissen vertrauen können. Selbstverpflichtungen wie ein Verhaltenskodex oder ein KI-Pakt sind zahnlose Initiativen, die den Plattformen in die Hände spielen. Diese Plattformen versuchen, konkrete Regulierungen zu umgehen und sich ihrer Verantwortung zu entziehen. Das ist eine Verletzung unserer Rechte und eine Gefahr für den demokratischen Zusammenhalt“, so Angela Müller. Angela Müller ist Leiterin der Abteilung Politik und Interessenvertretung, sowie die Leiterin von AlgorithmWatch in der Schweiz.
AlgorithmWatch ist eine Menschenrechtsorganisation mit Sitz in Berlin und Zürich. AlgorithmWatch setzt sich für eine Welt ein, in der Algorithmen und Künstliche Intelligenz (KI) Gerechtigkeit, Demokratie und Nachhaltigkeit nicht schwächen, sondern stärken.
AI Forensics ist eine gemeinnützige Organisation, die einflussreiche und undurchsichtige Algorithmen untersucht. AI Forensics zieht große Technologieplattformen zur Rechenschaft, indem sie unabhängige und öffentlichkeitswirksame technische Untersuchungen durchführt, um den durch ihre Algorithmen verursachten Schaden aufzudecken und zu entlarven.