KI-Datensatz, AI, Network
KI-Datensatz, AI, Network
Bildquelle: stockcake

Piratenjäger nehmen KI-Datensatz vom Netz

Wegen umfangreichen Urheberrechtsverletzungen haben niederländische Piratenjäger bei einem großen KI-Datensatz den Stecker gezogen.

Die niederländischen Copyright-Schützer von BREIN schalteten einen großen KI-Datensatz in ihrer Landessprache offline. Diesen verwendeten Dritte ohne Genehmigung für das Training von Modellen der künstlichen Intelligenz (KI / AI). Nach einem Hinweis entdeckte BREIN, dass dieser Datensatz aus illegalen Kopien von Zehntausenden E-Books und Millionen von Zeilen aus Nachrichtenartikeln von News-Portalen wie nu.nl bestand. Dazu kamen Untertitel von unzähligen Filmen und Fernsehserien aus illegalen Quellen.

Der KI-Datensatz war für Menschen nicht lesbar

Den riesigen Datensatz hat man komprimiert, damit KI-Computermodelle wie große Sprachmodelle (Large Language Models, LLMs) problemlos damit arbeiten konnten. Obwohl dies bedeutete, dass der Datensatz für die Verbraucher nicht direkt zum Lesen als E-Book oder Nachrichten-Website geeignet war, war diese Form der Verwertung illegal. Das Kopieren und damit das Data Mining aus illegalen Quellen ist niemals erlaubt. Selbst Data Mining aus legalen Quellen mit Urheberrechtsvorbehalt bedarf der Erlaubnis der Rechteinhaber, stellt BREIN in deren Pressemitteilung fest.

10.000 Mal den Hinweis auf ein Verwertungsverbot ignoriert

BREIN geht gegen verletzende und unrechtmäßige Nutzung von künstlicher Intelligenz (KI) vor. Wir haben den KI-Datensatz unter anderem nach dem wörtlichen Text ‚Nichts aus dieser Veröffentlichung darf vervielfältigt werden‘ durchsucht und dabei mehr als 10.000 Ergebnisse erhalten. Dabei handelte es sich ausnahmslos um illegal kopierte Bücher. Auch hat man Nachrichtenartikel von urheberrechtlich geschützten Websites genutzt. Dies zeigt deutlich, dass man die Urheberrechte nicht beachtet hat. Wir bezeichnen dies als kriminellen Akt“, kommentierte der BREIN-Direktor Bastiaan van Ramshorst. Er folgte kürzlich Tim Kuik, der im April diesen Jahres in Rente ging.

Datenanalyse

Den Datensatz hat inzwischen der Ersteller aus dem Netz genommen. Der Urheber des Datensatzes hat eine strafbewährte Unterlassungserklärung unterzeichnet. Darin sichert er der Gegenseite zu, die begangenen Rechtsverletzungen einzustellen. Außerdem lieferte er bereits Informationen darüber, wer den KI-Datensatz erhalten und somit wohl auch dafür bezahlt hat. BREIN untersucht nun, welche KI-Modelle diesen Datensatz verwenden, um sich an die beteiligten Unternehmen zu wenden.

Um zu verhindern, dass jemand massenhaft urheberrechtlich geschütztes Material aus legalen Quellen verwertet, empfiehlt BREIN den Rechteinhabern, ihre Werke mit einem Vorbehalt gemäß dem niederländischen Urheberrechtsgesetz zu kennzeichnen. Viele Kunden der Organisation (Rechteinhaber) tun dies bereits.

Doch in diesem Fall hätte das wohl auch nichts geholfen, da man die bestehenden Hinweise auf die Verwertung der Quellen sowieso komplett ignoriert hat. Der Autor dieses KI-Datensatzes hatte offenkundig nie vor, sich an irgendwelche Gesetze zu halten.

Lars Sobiraj

Über

Lars Sobiraj fing im Jahr 2000 an, als Quereinsteiger für verschiedene Computerzeitschriften tätig zu sein. 2006 kamen neben gulli.com noch zahlreiche andere Online-Magazine dazu. Er ist der Gründer von Tarnkappe.info. Früher brachte Ghandy, wie er sich in der Szene nennt, an verschiedenen Hochschulen und Fortbildungseinrichtungen den Teilnehmerinnen und Teilnehmern bei, wie das Internet funktioniert. In seiner Freizeit geht er am liebsten mit seinem Hund spazieren.