OpenAI steht vor Sammelklage wegen Urheberrechtsverletzung
OpenAI steht vor Sammelklage gegen OpenAI wegen Urheberrechtsverletzungen
Bildquelle: cihangirstock, Lizenz

Urheberrechtsverletzung: Autoren verklagen OpenAI

Zwei in den USA ansässige Autoren haben OpenAI aktuell vor einem Bundesgericht in San Francisco wegen Urheberrechtsverletzung verklagt.

Gerichte müssen sich aktuell mit der Frage auseinandersetzen, ob bereits eine Urheberrechtsverletzung durch die Verwendung urheberrechtlich geschützter Werke zum Trainieren von KI-Systemen durch OpenAI vorliegt.

Zwei US-Autoren haben OpenAI am vergangenen Mittwoch vor dem Bundesgericht in San Francisco verklagt. Sie behaupten, das Unternehmen habe ihre Werke dazu missbraucht, um ihr generatives System für künstliche Intelligenz ChatGPT zu trainieren. Bücher seien eine „Schlüsselzutat“ für solche Daten, da sie „die besten Beispiele für qualitativ hochwertige Texte in Langform“ bieten.

Sammelklage zur Durchsetzung der Urheberrechte

Am 28. Juni reichten zwei in Massachusetts ansässige Schriftsteller, Paul Tremblay und Mona Awad, vertreten durch die Anwaltskanzlei Joseph Saveri und Matthew Butterick, eine angestrengte Sammelklage gegen OpenAI ein. Darin machten sie unter anderem Urheberrechtsverletzung, Verstöße gegen den Digital Millennium Copyright Act und ungerechtfertigte Bereicherung geltend.

Das von Microsoft unterstützte Forschungsunternehmen für künstliche Intelligenz, OpenAI, hat im November 2022 ChatGPT auf den Markt gebracht. Das generative KI-Modell reagiert auf User-Texteingaben in einer menschenähnlichen Konversation. Nur zwei Monate nach seinem Start avancierte das KI-System zur am schnellsten wachsenden Verbraucher-App. Schon im Januar 2023 erreichte sie 100 Millionen aktive Nutzer.

OpenAI

Als Beweis für einen solchen Verstoß gegen das Urheberrecht führten die Autoren an, dass ChatGPT auf Aufforderung hin „sehr genaue“ Zusammenfassungen ihrer Romane erstellt hätte. Sie argumentieren, dass dies „nur möglich ist, wenn ChatGPT in Bezug auf die urheberrechtlich geschützten Werke der Kläger geschult wurde“. In der Klageschrift gegen OpenAI heißt es:

„Da das KI-System ohne die aus dem Material extrahierten Informationen nicht funktionieren kann, sind die als große Sprachmodelle bekannten Softwareprogramme, die ChatGPT antreiben, selbst verletzend abgeleitete Werke, die ohne die Erlaubnis der Kläger und unter Verletzung ihrer ausschließlichen Rechte gemäß dem Urheberrecht erstellt wurden. […]

Sie haben die Bücher von einer Website namens Smashwords.com kopiert, auf der unveröffentlichte Romane gehostet werden, die den Lesern kostenlos zur Verfügung stehen. Diese Romane unterliegen jedoch größtenteils dem Urheberrecht. Sie wurden ohne Zustimmung, Quellenangabe oder Vergütung der Autoren in den BookCorpus-Datensatz kopiert.“

Die Autoren beanstanden, dass OpenAI illegal Daten aus fast 300.000 Büchern in sein Training einbezogen hätte, um sein KI-System zu trainieren. Wie Hollywoodreporter berichtete, gab OpenAI im Juni 2018 eigens bekannt, „dass es GPT-1 – die erste Iteration seines großen Sprachmodells – mit einer Sammlung von über 7.000 Romanen auf BookCorpus versorgt“. Die Auswahl traf dabei ein Team von KI-Forschern.

Spätere Versionen der Sprachmodelle von OpenAI wurden der Klage zufolge auf größere Mengen urheberrechtlich geschützter Werke trainiert. In einer Veröffentlichung aus dem Jahr 2020, in dem OpenAI GPT-3 vorgestellte, gab das Unternehmen an, dass 15 Prozent seines Trainingsdatensatzes aus „zwei Internet-basierten Buchkorpora“ stammten. diese beziechneten sie als „Books1“ und „Books2“.

Nutzte OpenAI auch Schattenbibliotheken als Quelle des KI-Trainings?

Die Kläger behaupteten auch, dass die Daten, die man für das Training von ChatGPT verwendete, aus unrechtmäßigen Quellen stammen. Darunter illegale Schattenbibliotheken wie Library Genesis, Z-Library und Sci-Hub, die urheberrechtlich geschützte Bücher ohne Erlaubnis anbieten. Der Anwalt der Autoren, Joseph Saveri, führte gemäß Hollywoodreporter diesbezüglich an:

„Diese offensichtlich illegalen Schattenbibliotheken sind seit langem von Interesse für die KI-Trainings-Gemeinschaft: Zum Beispiel enthält ein KI-Trainings-Datensatz namens „Books3“, der im Dezember 2020 von EleutherAI veröffentlicht wurde, eine Nachbildung der Bibliotik-Sammlung und enthält fast 200.000 Bücher“.

OpenAI gibt keine Informationen mehr über die Quellen seines Datensatzes heraus. Dies sei geboten „angesichts der Wettbewerbslandschaft und der Sicherheitsauswirkungen von großen Modellen wie GPT-4“, betonte das Unternehmen erst im vergangenen Jahr.

Gericht entscheidet: Urheberrechtsverletzung oder faire Nutzung?

Die Klage zielt auf ein Schwurgerichtsverfahren und die Gewährung von Schadensersatz und Anwaltskosten ab. Zudem streben die Kläger einen dauerhaften Unterlassungsanspruch, einschließlich Änderungen an ChatGPT an.

Paul Tremblay ist Autor von Genreromanen, darunter dem Buch „The Cabin at the End of the World“. Das Werk verfilmte Regisseur M. Night Shyamalan unter „Knock at the Cabin“. Der Titel ist übrigens auch auf Deutsch erschienen als „Das Haus am Ende der Welt“.

Mona Awad ist Romanautorin und Assistenzprofessorin im Programm „Kreatives Schreiben“ an der Syracuse University. Sie veröffentlichte Bücher wie „13 Ways of Looking at a Fat Girl“, „Bunny“ oder „Rouge“. Awads Debütroman „13 Ways of Looking at a Fat Girl“ kam in die engere Wahl für den Scotiabank Giller Prize und erhielt den Amazon.ca First Novel Award.

Über

Antonia ist bereits seit Januar 2016 Autorin bei der Tarnkappe. Eingestiegen ist sie zunächst mit Buch-Rezensionen. Inzwischen schreibt sie bevorzugt über juristische Themen, wie P2P-Fälle, sie greift aber auch andere Netzthemen, wie Cybercrime, auf. Ihre Interessen beziehen sich hauptsächlich auf Literatur.