Metas KI-Daten Skandal: 81 TB von Anna’s Archive geladen

Sunny · 7. Februar 2025 um 06:15

Kommentare zu folgendem Beitrag: Metas KI-Daten Skandal: 81 TB von Anna’s Archive geladen

Ghandy · 7. Februar 2025 um 07:08

Ich glaube nicht, dass es Meta interessiert, ob es ein in den USA gültiges Copyright gibt. Es geht immer nur um Gewinnmaximierung, egal auf welche Kosten.

netzpiz · 7. Februar 2025 um 07:50

Steile These, aber ich denke, da ist etwas Wahres dran. Aus dem erstellten Model wirst du unmöglich nachweisen können, dass ein Einzelwerk enthalten ist. Wenn aber die ganze Bibliothek an Quelldaten leakt, fliegt das natürlich auf.

Ich kann mir kaum vorstellen, dass man realistisch so viel Wissen in ein KI Modell saugen kann, ohne ganze Bibliotheken an aktuellen Sachbüchern und ggfs. kuratierten anderen Kram wie Fandom Wikis in das Model zu saugen. In der Masse kann man sich keinen Consent besorgen.

Jetzt die Frage: Sind die Daten komprimiert oder unkomprimiert?

Ghandy · 7. Februar 2025 um 08:21

Nun ja, steil ist sie, die These. Aber bisher war es halt nicht viel anders, wenn ich mir das Verhalten der Tech-Konzerne anschaue. Datenschutz? In den USA ein Fremdwort. Copy-Right? Ja, aber bei Tech-Firmen immer nur dann wichtig, wenn es darum ging, die eigenen Pfründe zu sichern… Man nehme die ganzen Markenrechts-Klagen und Patent-Klagen als Beispiel. Apple klaut von Samsung und hat aber vorher schon das Patent angemeldet. Samsung anders herum handelte ganz ähnlich, wenn ich mich recht entsinne.

Für Juristen muss geklärt werden, wenn das nicht schon passiert ist, ob man vom Copyright sprechen kann, wo die Werke ja nicht 1:1 wiedergegeben werden. Wenn dann nur als Daten-Basis für die KI-Chatbots der Endnutzer oder andere KI-Anwendungen.

Soll heißen: Kann man rechtlich gesehen, ein Buch als Ganzes in so viele Stücke aufteilen, dass daraus so kleine Zitate werden, die unter das Zitatrecht fallen und deswegen legal sind? So regelt es ja das deutsche Urheberrecht. Kleine Satzpassagen sind erlaubt. Wie das beim US-amerikanischen Copyright ist, weiß ich nicht.

Aber wäre ich deren Anwalt, würde ich versuchen beispielsweise so vor Gericht zu argumentieren.

VIP · 7. Februar 2025 um 09:26

Vielleicht müsste man den Meta-Spezis nochmal das p2p-System erklären…
Natürlich sind diese Archivdateien, im Vergleich zu Standard-Downloads, extrem groß.

Ein zuvoriger Blick von Meta auf den Status, hätte ausgereicht, um weitere Planungen durchzuführen:

Wie weit hat Meta überhaupt dabei nachgedacht? Anscheinend keine 11 Millimeter weit!

Wir sprechen hier von einer gesamten Datenmasse von über 1,17 PB seitens AA…!

Da Meta so gut wie kaum in den Seed-Listen auftaucht, kann man sich den Rest schon denken → Meta benimmt sich in dem Fall genauso, wie jeder andere Arschloch-Snatcher!!

Hier nochmals die kompl. Json-Liste seitens AA:

h***s://annas-archive.org/dyn/torrents.json

Weitere Erklärungen → Order torrents by leechers/downloads in generate_torrents