Hier noch etwas ergänzendes dazu:
Der Programmierer und Anwalt Matthew Butterick hat Microsoft, GitHub und OpenAI verklagt und behauptet, dass Copilot von GitHub gegen die Bedingungen von Open-Source-Lizenzen verstößt und die Rechte von Programmierern verletzt.
GitHub Copilot, veröffentlicht im Juni 2022, ist eine KI-basierte Programmierhilfe, die OpenAI Codex verwendet , um Echtzeit-Quellcode und Funktionsempfehlungen in Visual Studio zu generieren.
Das Tool wurde mit maschinellem Lernen unter Verwendung von Milliarden von Codezeilen aus öffentlichen Repositories trainiert und kann natürliche Sprache in Codeschnipsel in Dutzenden von Programmiersprachen umwandeln.
Während Copilot den Prozess des Schreibens von Code beschleunigen und die Softwareentwicklung vereinfachen kann, hat die Verwendung von öffentlichem Open-Source-Code Experten dazu veranlasst, sich Sorgen zu machen, dass er gegen Lizenzzuweisungen und -beschränkungen verstößt.
Open-Source-Lizenzen, wie die GPL-, Apache- und MIT-Lizenzen, erfordern die Nennung des Namens des Autors und die Definition bestimmter Urheberrechte.
Copilot entfernt diese Komponente jedoch, und selbst wenn die Snippets länger als 150 Zeichen sind und direkt aus dem Trainingssatz stammen, erfolgt keine Zuordnung.
Einige Programmierer sind so weit gegangen, dies als Open-Source-Wäsche zu bezeichnen , und die rechtlichen Auswirkungen dieses Ansatzes wurden nach der Einführung des KI-Tools demonstriert.
„Es scheint, dass Microsoft von der Arbeit anderer profitiert, indem es die Bedingungen der zugrunde liegenden Open-Source-Lizenzen und andere gesetzliche Anforderungen missachtet“, kommentiert Joseph Saveri , die Anwaltskanzlei, die Butterick in dem Rechtsstreit vertritt.
Um die Sache noch schlimmer zu machen, haben Leute Fälle gemeldet, in denen Copilot Geheimnisse preisgegeben hat, die versehentlich in öffentlichen Repositories veröffentlicht und daher in das Trainingsset aufgenommen wurden, wie API-Schlüssel.
Abgesehen von den Lizenzverletzungen behauptet Butterick auch, dass die Entwicklungsfunktion gegen Folgendes verstößt:
- Nutzungsbedingungen und Datenschutzrichtlinien von GitHub
- DMCA 1202, das das Entfernen von Informationen zur Urheberrechtsverwaltung verbietet
- Den California Consumer Privacy Act
- …und andere Gesetze, die die entsprechenden Rechtsansprüche begründen
Die Klage wurde beim US-Bezirksgericht des nördlichen Bezirks von Kalifornien eingereicht und forderte die Genehmigung eines gesetzlichen Schadensersatzes in Höhe von 9.000.000.000 US-Dollar.
„Jedes Mal, wenn Copilot eine rechtswidrige Ausgabe bereitstellt, verstößt es dreimal gegen Abschnitt 1202 (Verteilung der lizenzierten Materialien ohne: (1) Namensnennung, (2) Urheberrechtshinweis und (3) Lizenzbedingungen)“, heißt es in der Beschwerde .
„Wenn also jeder Benutzer während seiner gesamten Nutzungszeit von Copilot (bis zu fünfzehn Monate für die frühesten Anwender) nur eine Ausgabe erhält, die gegen Abschnitt 1202 verstößt, dann haben GitHub und OpenAI 3.600.000 Mal gegen den DMCA verstoßen. Bei einem gesetzlichen Mindestschaden von 2500 $ pro Verstoß, das entspricht 9.000.000.000 $."
Open-Source schädigen
Butterick hat in einem Blogbeitrag Anfang Oktober auch ein anderes Thema angesprochen und den Schaden diskutiert, den Copilot Open-Source-Communities zufügen könnte.
Der Programmierer argumentierte, dass der Anreiz für Open-Source-Beiträge und Zusammenarbeit im Wesentlichen dadurch beseitigt wird, dass den Leuten Codeschnipsel angeboten werden und ihnen nie gesagt wird, wer den Code erstellt hat, den sie verwenden.
„Microsoft schafft einen neuen ummauerten Garten, der Programmierer davon abhalten wird, traditionelle Open-Source-Communities zu entdecken“, schreibt Butterick .
„Im Laufe der Zeit wird dieser Prozess diese Gemeinschaften aushungern. Die Aufmerksamkeit und das Engagement der Benutzer werden […] von den Open-Source-Projekten selbst abgelenkt – weg von ihren Quell-Repos, ihren Issue-Trackern, ihren Mailinglisten, ihren Diskussionsforen. "
Butterick befürchtet, dass Copilot bei ausreichender Zeit dazu führen wird, dass Open-Source-Communities zurückgehen und dadurch die Qualität des Codes in den Trainingsdaten abnimmt.