Meta Secretly Trained Its AI on a Notorious Piracy Database, Newly Unredacted Court Docs Reveal

« Meta a traité la soi-disant « disponibilité publique » des ensembles de données fantômes comme une carte pour sortir de prison, même si les enregistrements internes de Meta montrent tous les décideurs concernés chez Meta, jusqu'à et y compris son PDG, Mark. Zuckerberg savait que LibGen était « un ensemble de données que nous savons être piraté » », affirment les plaignants dans cette requête. (Initialement déposée fin 2024, la requête est une demande de dépôt d’une troisième plainte modifiée.)

En plus des mémoires des plaignants, un autre dossier n'a pas été expurgé en réponse à l'ordonnance de Chhabria : celui de Meta. opposition à la requête pour déposer une plainte modifiée. Il soutient que les tentatives des auteurs pour ajouter des allégations supplémentaires à l'affaire sont un « pari de la onzième heure basé sur une prémisse fausse et incendiaire » et nie que Meta ait attendu pour révéler des informations cruciales lors de l'enquête préalable. Au lieu de cela, Meta affirme avoir révélé pour la première fois aux plaignants qu'elle avait utilisé un ensemble de données LibGen en juillet 2024. (Étant donné qu'une grande partie des documents découverts restent confidentiels, il est difficile pour WIRED de confirmer cette affirmation.)

L'argument de Meta repose sur son affirmation selon laquelle les plaignants étaient déjà au courant de l'utilisation de LibGen et ne devraient pas bénéficier d'un délai supplémentaire pour déposer une troisième réclamation modifiée alors qu'ils avaient suffisamment de temps pour le faire avant la fin de la découverte en décembre 2024. « Les plaignants étaient au courant du téléchargement de Meta. et l'utilisation de LibGen et d'autres prétendues « bibliothèques fantômes » depuis au moins la mi-juillet 2024 », ont déclaré les avocats du géant de la technologie. argumenter.

En novembre 2023, Chhabria a fait droit à la requête de Meta visant à rejeter certaines des allégations du procès, y compris son affirmation selon laquelle l'utilisation présumée par Meta du travail des auteurs pour former l'IA violait le Digital Millennium Copyright Act, une loi américaine introduite en 1998 pour empêcher les gens de vendre ou de dupliquer. œuvres protégées par le droit d'auteur sur Internet. A l'époque, le juge convenu avec la position de Meta selon laquelle les plaignants n'avaient pas fourni suffisamment de preuves pour prouver que la société avait supprimé ce que l'on appelle les « informations sur la gestion des droits d'auteur », comme le nom de l'auteur et le titre de l'œuvre.

Les documents non expurgés soutiennent que les plaignants devraient être autorisés à modifier leur plainte, alléguant que les informations révélées par Meta sont la preuve que la réclamation DMCA était justifiée. Ils affirment également que le processus d’enquête a révélé des raisons d’ajouter de nouvelles allégations. “Meta, par l'intermédiaire d'un représentant d'entreprise qui a témoigné le 20 novembre 2024, a maintenant admis sous serment avoir téléchargé (c'est-à-dire 'ensemencement') des fichiers piratés contenant les œuvres des plaignants sur des sites 'torrent'”, affirme la requête. (L'amorçage consiste à partager des fichiers torrent avec d'autres pairs une fois le téléchargement terminé.)

“Cette activité de torrent a transformé Meta lui-même en un distributeur du même matériel piraté protégé par le droit d'auteur qu'il téléchargeait également pour l'utiliser dans ses modèles d'IA disponibles dans le commerce”, affirme l'un des documents récemment non expurgés, alléguant que Meta, en d'autres termes, n'avait pas j'ai simplement utilisé du matériel protégé par le droit d'auteur sans autorisation, mais je l'ai également diffusé.

LibGen, une archive de livres téléchargés sur Internet originaire de Russie vers 2008, est l’une des « bibliothèques fantômes » les plus grandes et les plus controversées au monde. En 2015, un juge new-yorkais ordonné une injonction préliminaire contre le site, mesure conçue en théorie pour fermer temporairement les archives, mais ses administrateurs anonymes ont simplement changé de domaine. En septembre 2024, un autre juge new-yorkais ordonné LibGen va payer 30 millions de dollars aux titulaires de droits pour violation de leurs droits d'auteur, même s'il ne sait pas qui exploite réellement le centre de piratage.

Les problèmes de découverte de Meta dans cette affaire ne sont pas terminés non plus. Dans le même ordre, Chhabria a mis en garde le géant de la technologie contre toute demande de suppression trop radicale à l’avenir : « Si Meta soumet à nouveau une demande de scellement déraisonnablement large, tous les documents seront simplement descellés », a-t-il écrit.