Wikipedia, KI-Bots saugen Wissen ab.
Die Wikipedia im Fokus der KI-Firmen, die alles für lau haben wollen.
Bildquelle: ChatGPT

Wikipedia zieht der KI den Stecker raus

Die Wikipedia verliert nicht nur immer mehr Zugriffe an KI-Portale und -Chatbots. Sie haben auch noch die Kosten für deren Datensammlung.

Nicht erst seit dem abgebrochenen Jimmy Wales-Interview ringt die Wikipedia mit dem eigenen Anspruch auf Neutralität. Es geht auch um die Rolle der Community und einer Froundation, die gleichzeitig Dienstleister und ein gewaltiges Machtzentrum darstellt.

Jetzt rutscht ein anderer Konflikt auf der Prioritätenliste nach oben. Es geht nicht mehr darum, was in einem Artikel steht, sondern darum, wer sich im Hintergrund an den Inhalten bedient. KI-Konzerne hängen an der Leitung, ziehen sich Artikel, Bilder und Metadaten in großen Mengen herunter. Dabei tun sie so, als wäre das selbstverständlich. Die Rechnung für den zusätzlichen Aufwand der Wikipedia-Server landet aber wie so oft nicht bei den Verursachern, sondern ganz woanders.

Vom Interviewlärm zum Kassenproblem

Wikipedia schaut schlicht darauf, wer den Traffic verursacht. Und wer von den entstandenen Kosten an die Foundation zurückgibt. Auf der einen Seite stehen die üblichen Nutzer. Sie lesen, klicken sich durch, spenden vielleicht und schreiben hin und wieder etwas, wenn sie dazu berechtigt sind. Auf der anderen Seite laufen Crawler, die in einem Durchgang große Teile der Wikipedia einsammeln, weil irgendeine LLM mal wieder mit frischen Daten gefüttert werden muss. Für die Server macht das keinen Unterschied. Für das nicht kommerzielle Projekt aber sehr wohl.

Die Wikimedia Foundation hat sich diese Entwicklung genauer angeschaut und öffentlich gemacht. Vor allem bei Bildern und anderen Medien kommen sehr viele Anfragen von Bots, die lange Zeit wie normale Nutzer aussahen. Erst bei genauerer Betrachtung hat man erkannt, dass es sich um die üblichen Maschinen zum Füttern der Modelle handelt.

Wikimedia
Bildquelle Wikimedia Foundation – CC BY-SA 3.0.

Hier reicht eine einfache Milchmädchenrechnung. Durch das systematische Crawling entsteht mehr Auslastung der Bandbreite, mehr Hardware ist beteiligt und mehr Arbeit fällt im laufenden Betrieb an. Währenddessen sinken jeden Monat die echten Seitenaufrufe von Menschen aufs Neue. Für eine Online-Plattform, die jedes Jahr um Spenden bittet, ist das aber nichts Neues.

Wikipedia hat ein gut gefülltes Polster und dramatische Banner

Ganz nebenbei ist Wikipedia finanziell gesehen meilenweit von „Wir schaffen es kaum bis morgen“ entfernt. Die sind ja nicht wie wir, die sich jeden Tag den Allerwertesten aufreißen, um euch exklusive Einblicke zu bieten und bei denen trotzdem wenig hängen bleibt. Laut aktuellem Audit verfügt die Foundation zum 30. Juni 2025 über ein Nettovermögen von rund 296,6 Millionen Dollar. Das entspricht etwa 17 Monaten aktuell geplanter Betriebskosten.

Zum letzten bekannten Stichtag, dem 30. Juni 2024, lagen im eigenen Endowment-Topf, einem langfristigen Fonds, gut 144 Millionen Dollar. Mit anderen Worten, die Wikimedia Foundation sitzt nicht auf der letzten Serverkiste, sondern auf einem Polster, das sie selbst als „starke finanzielle Positionbeschreibt.

Umso schräger wirken die alljährlichen Bettelbanner, die seit Jahren suggerieren, die Wikipedia stehe kurz davor, unter der Last zusammenzuklappen, wenn man nicht „heute“ spendet. Kritiker weisen schon lange darauf hin, dass diese Kampagnen jedes Jahr zig Millionen zusätzlich in die Kassen spülen und die Rücklagen sowie das Endowment (Vermögen) weiter aufbläht. Das Portal UnHerd sprach bereits 2022 von einer „Kriegskasse“ in dreistelliger Millionenhöhe, die sich aus genau diesen Aktionen aufgebaut hat.

wikipedia

Die KI-Firmen sollen zur Kasse gebeten werden

Vor diesem Hintergrund wirkt der neue Druck auf KI-Firmen kaum wie ein Warnruf, sondern eher wie eine Optimierung der eigenen Stromrechnung und ein Griff in den Topf, in den aktuell alle investieren, die mit KI-Geld verdienen. Die Wikmedia Foundation ist finanziell nicht am Limit, die Frage ist eine andere. Warum sollen Privatleute jedes Jahr per Banner zur Kasse gebeten werden, während große Firmen weiterhin kostenlos an der Datenleitung hängen und damit jede Menge Unkosten generieren?

Google gehört inzwischen nicht mehr in diese Gratis-Kategorie. Der Konzern ist seit 2022 offizieller Kunde von Wikimedia Enterprise und zahlt für den Zugriff, während das Internet Archive denselben Zugang kostenlos erhält.

Der eigentliche Streit dreht sich um all die anderen KI- und Plattformanbieter, die weiterhin über die normale Seite scrapen, als wäre nie etwas gewesen.

Fußball-WM, rojadirecta, Sport-Streaming-Domains

Freies Wissen mit roter Karte für Maschinen

Die Inhalte von Wikipedia stehen unter freien Lizenzen. Sie dürfen weiterverwendet werden, auch kommerziell. Das heißt jedoch nicht, dass keinerlei Spielregeln gelten. Dazu gehören die Namensnennung, Hinweise auf die Lizenz und ein Mindestmaß an Transparenz. Für Menschen ist das selten ein Problem. Man verlinkt Wikipedia und nennt den Urheber namentlich.

Beim KI-Training ist genau das der blinde Fleck. Die Daten landen im Trainingssatz und später kommen Antworten heraus, bei denen niemand mehr sieht, woher die Bausteine ursprünglich stammen. Für die Nutzenden wirkt das wie eine selbstständige Leistung des Modells. Das Wissensarchiv der Wikipedia verschwindet dabei aber ungenannt in der Versenkung.

Wikimedia versucht, dem entgegenzuwirken. Wer in großem Stil automatisiert zugreift, soll dies über eine API tun. Die AI-Firmen sollen die Wikipedia sichtbar lassen und sich an den Kosten beteiligen. Für uns als normale Nutzende bleibt alles beim Alten. Artikel bleiben frei erreichbar und Suchmaschinen können weiterhin darauf verlinken. Es geht um diejenigen, die aus „ein bisschen im Lexikon nachschlagen” längst ein Geschäftsmodell gemacht haben, nicht um uns.

Creative Commons

Creative Commons steckt im selben Dilemma

Wikipedia ist damit allerdings nicht allein. Auch Creative Commons hat auf der Lizenzseite ein ähnliches Problem. Die verschiedenen CC-Varianten sollten eigentlich dafür sorgen, dass Inhalte leichter nutzbar werden, solange ein paar einfache Rahmenbedingungen eingehalten werden.

Mittlerweile müssen die eigenen Juristen ziemlich deutlich schreiben, dass viele Formen des KI-Trainings vom klassischen Urheberrecht gedeckt sind und sich mit Lizenztexten nur bedingt steuern lassen. Wer hier die Schrauben zu fest anzieht, trifft schnell die normale Weiterverwendung, ohne damit die großen Datensätze wirklich zu verhindern.

Als Reaktion darauf gibt es inzwischen ein eigenes Programm rund um KI und Commons. Die Idee ist dieselbe wie bei Wikimedia. Wer auf Basis offener Inhalte Modelle baut, soll nicht nur Daten einsammeln und davonziehen.

Wenn KI-Antworten die Klicks fressen

Was das konkret für Wikipedia bedeutet, zeigen die eigenen Statistiken der Plattform. Die Foundation spricht von einem Rückgang der Seitenaufrufe durch Menschen um etwa acht Prozent im Vergleich zum Vorjahr. Gleichzeitig steigt der Anteil an Zugriffsarten, die sich nur schwer von Bots unterscheiden lassen.

Ein Teil davon ist auf eine Bereinigung der Zahlen zurückzuführen. Ein anderer Teil hängt mit dem Verhalten der Nutzer zusammen. Immer mehr Suchoberflächen beantworten Fragen direkt. KI-Zusammenfassungen, Antwortboxen und kurze Clips. Viele dieser Antworten stützen sich auf die Wikipedia. Doch der Klick auf den entsprechenden Artikel bleibt aus. Das ist auch deutlich in den Statistiken sichtbar.

Aus Sicht des Projekts sieht das folgendermaßen aus: Ihre Inhalte tragen nach wie vor einen großen Teil des Wissens im Netz bei. Doch die Verbindung zur eigentlichen Plattform, auf der dieses Wissen aufbewahrt wird, wird immer dünner. Spendenbanner werden dann deutlich seltener gesehen als aktuell.

Am Ende geht es immer nur ums liebe Geld!

Wikipedia als Spielfeld, nicht als Sonderfall

Wikipedia ist somit weniger eine Ausnahme als ein Testfeld. Überall, wo offene Inhalte vorliegen, tauchen ähnliche Fragen auf. Dazu gehören Repositorien mit Creative-Commons-Lizenzen, wissenschaftliche Archive, Medienangebote und kleinere Projekte, die ihre Texte freigegeben haben.

Parallel dazu melden Infrastrukturbetreiber, dass sie inzwischen massenhaft KI-Verkehr blocken, da Seitenbetreiber die Scraper nicht mehr einfach auf ihren Content lassen wollen.

In der Wissenschaft sieht es ähnlich aus. Analysen der London School of Economics kommen zu dem Ergebnis, dass viele Open-Access-Texte in Trainingsdaten landen, ohne dass die Autorinnen und Autoren das unbedingt im Blick hatten. Zwar setzen dem Treiben Lizenzen und das Urheberrecht Grenzen. Das verhindert aber nicht, dass offene Arbeiten in Datensätzen auftauchen, auf die später nur noch wenige Firmen Zugriff haben.

Ursprünglich war alles deutlich einfacher gedacht. Offene Inhalte sollten es leichter machen, an Wissen zu gelangen und darauf aufzubauen. Jetzt müssen sich dieselben Projekte damit auseinandersetzen, dass KI genau diese Offenheit als kostenloses Trainingsmaterial betrachtet.

Zwischen Politik, Community und KI

Der Streit um KI verschärft die ohnehin bestehenden Probleme der Wikipedia. Im Interview mit Wales ging es unter anderem darum, wie die Plattform mit politischem Druck zurechtkommt. Seit Jahren attackieren rechte und konservative Gruppen die Enzyklopädie, werfen ihr eine Schlagseite vor und versuchen, einzelne Themen in die eigene Richtung zu ziehen.

Gleichzeitig kämpfen die Communities inzwischen mit KI-Texten in Artikeln, mit automatisierten Edits und mit Diskussionen, in denen Chatbots als Zitatquelle herhalten sollen. Hinzu kommen die ganz normalen Fragen nach Zeit, Geld und Personal, das sich um den Betrieb kümmert.

Genau hier schließt sich der Kreis zu unserem „Jung und Naiv”-Artikel. Wikipedia ist längst kein kleines Projekt mehr, sondern Teil der Grundausstattung des Internets. Die Frage, wer darauf wie billig mitfahren darf, entscheidet mit darüber, ob dieses Modell in einer KI-Landschaft noch funktioniert oder ob am Ende vor allem eines bleibt. Ein Trainingssatz, der irgendwo in fremden Rechenzentren liegt, während das ursprüngliche Projekt weiterhin um Spenden bittet, vielleicht in Zukunft noch penetranter.