Zugunsten von Urheberschutz passte Penguin Random House seinen Copyright-Wortlaut an. Der Verlag untersagt darin eine Textverwertung durch KI
Der Verlagsriese Penguin Random House (PRH) fügt auf den Copyright-Seiten seiner Bücher eine Klausel hinzu, die die Verwendung dieser Titel zum Trainieren künstlicher Intelligenz (KI) verbietet. Mit dieser Maßnahme will der Verlag das „geistige Eigentum der Autoren vor der Verwendung zum Trainieren großer Sprachmodelle (LLMs) und anderer Tools für künstliche Intelligenz (KI) schützen“.
Penguin Random House-Werke keine Quelle für KI-Training
Wie The Bookseller exklusiv berichtete, versieht Penguin Random House neue Bücher und Nachdrucke von Backlist-Titeln des Verlags künftig mit dem Hinweis:
„Kein Teil dieses Buches darf zum Trainieren von Technologien oder Systemen künstlicher Intelligenz in irgendeiner Weise verwendet oder reproduziert werden.“
Klausel bietet neuen Ansatz zum Schutz von Autoren
Zudem weist man in der Klausel darauf hin, dass Penguin Random House ihre Werke „ausdrücklich von Text- und Data-Mining ausnimmt“. Damit will der Verlag seine Autoren vor unerlaubtem Data-Mining schützen. Dieser Änderungsantrag steht im Einklang mit einer kürzlich erlassenen Richtlinie des Europäischen Parlaments. Darin geregelt sind Ausnahmen und Eigentumsrechte im Zusammenhang mit Text- und Data-Mining.
Unter Text- und Data-Mining versteht man das Durchsuchen großer Datenmengen wie etwa Bücher, um nützliche Informationen zu extrahieren. Gemäß The Bookseller ist Penguin Random House offenbar der erste große Verlag, der die KI-Klausel auf seiner Copyright-Site angibt.
Branche uneinig über KI-Einsatz
Damit grenzt sich Penguin Random House auch von anderen großen Verlagen ab. Erst im August wies der Verlag in einer Erklärung darauf hin, „das geistige Eigentum unserer Autoren und Künstler energisch zu verteidigen“. Laut Gizmodo haben Wissenschaftsverlage Taylor & Francis, Wiley und Oxford University Press zugestimmt, ihre Portfolios an KI-Unternehmen zu lizenzieren.
Allerdings schickte auch die New York Times Anfang letzter Woche eine Unterlassungsaufforderung an das KI-Start-up Perplexity. Sie forderten darin dazu auf, ihre Artikel nicht mehr als Grundlage zur Generierung von Antworten für ihr Modell zu verwenden.
Gemäß einem Artikel von 24books.de vom Februar wären bereits Titel von Penguin Random House am häufigsten in bestehender KI-Software vertreten. Eine Suche in der Books3 Datenbank, die als Grundlage für Metas LLaMA und ChatGPT von OpenAI dient, gab dabei darüber Aufschluss, welche Verlage diese Rangliste anführen.
Peter Schoppert, Geschäftsführer von NUS Press, durchforstete im Rahmen einer Analyse rund 72.000 vornehmlich englischsprachige E-Books. Die Durchsuchung erfolgte nach Autorenname, Verlagsname und ISBN. Als Ergebnis erhielt er dann den Verlag mit der größten Anzahl an E-Book-Titeln. Die Liste führte demnach Penguin Publishing Group an, mit 6.866 Werken, gefolgt von Harper Collins mit rund 5.800 Titeln. Auf Platz 3 landete Random House Publishing mit rund 3.400 E-Books.