Publishers Target Common Crawl In Fight Over AI Training Data

Les médias danois ont exigé que les archives Web à but non lucratif crampantes suppriment des copies de leurs articles des ensembles de données antérieurs et arrêtent de ramper immédiatement leurs sites Web. Cette demande a été publiée au milieu d'une indignation croissante quant à la façon dont les sociétés d'intelligence artificielle comme OpenAI utilisent du matériel protégé par le droit d'auteur.

Common Crawl prévoit de se conformer à la demande, publiée pour la première fois lundi. Le directeur exécutif Rich Skrenta a déclaré que l'organisation n'est «pas équipée» pour lutter contre les sociétés de médias et les éditeurs en cour.

La Danish Rights Alliance (DRA), une association représentant les titulaires de droits d'auteur au Danemark, a dirigé la campagne. Il a fait la demande au nom de quatre médias, notamment Berlingske Media et le quotidien Jyllands-Posten. Le New York Times fait une demande similaire de Crawl commun l'année dernière, avant de déposer une plainte contre OpenAI pour avoir utilisé son travail sans autorisation. Dans son plaintele New York Times a souligné à quel point les données de Crawl sont communes étaient le «ensemble de données hautement pondéré» dans GPT-3.

Thomas Heldrup, chef de la DRA de la protection et de l'application du DRA, dit que ce nouvel effort a été inspiré par le Times. «La rampe commune est unique dans le sens où nous voyons autant de grandes entreprises d'IA en utilisant leurs données», explique Heldrup. Il considère son corpus comme une menace pour les sociétés de médias qui tentent de négocier avec l'IA Titans.

Bien que la rampe commune ait été essentielle au développement de nombreux outils génératifs d'IA basés sur le texte, il n'a pas été conçu en pensant à l'IA. Fondée en 2007, l'organisation basée à San Francisco était surtout connue avant le boom de l'IA pour sa valeur en tant qu'outil de recherche. «La rampe commune est prise dans ce conflit concernant le droit d'auteur et l'IA génératrice», explique Stefan Baack, analyste de données à la Fondation Mozilla qui a récemment publié un rapport Sur le rôle de Crawl commun dans la formation d'IA. “Pendant de nombreuses années, c'était un petit projet de niche que presque personne ne connaissait.”

Avant 2023, Common Crawl n'a pas reçu une seule demande pour réduire les données. Maintenant, en plus des demandes du New York Times et de ce groupe d'éditeurs danois, il fait également passer une hausse des demandes qui n'ont pas été rendues publiques.

En plus de cette forte augmentation des demandes de rédaction des données, le Crawler Web de Common Crawl, CCBOT, est également de plus en plus contrarié par l'accumulation de nouvelles données des éditeurs. Selon l'originalité de startup de détection de l'IA, qui suit souvent l'utilisation de robots Web, plus de 44% des meilleurs sites mondiaux et médias bloquent le CCBOT. Outre Buzzfeed, qui a commencé à le bloquer en 2018, la plupart des points de vente importants qu'il a analysés, notamment Reuters, le Washington Post et la CBC – ont repris le Crawler seulement l'année dernière. «Ils sont bloqués de plus en plus», explique Baack.

La conformité rapide de Common Crawl à ce type de demande est motivée par les réalités de maintenir un petit organisme à but non lucratif à flot. La conformité n'équivaut cependant pas à un accord idéologique. Skrenta voit cette poussée pour éliminer les matériaux d'archives des référentiels de données comme Common Crawl comme rien de moins qu'un affront à Internet tel que nous le connaissons. «C'est une menace existentielle», dit-il. «Ils tueront le Web ouvert.»