The Race to Block OpenAI’s Scraping Bots Is Slowing Down

C'est trop tôt Pour dire comment la vague de transactions entre les entreprises d'IA et les éditeurs se débarrassera. Openai a déjà marqué une victoire claire, cependant: ses robots Web ne sont pas bloqués par les meilleurs médias au rythme qu'ils étaient.

Le boom de l'IA génératif a déclenché une ruée vers l'or pour les données – et une ruée ultérieure de protection des données (pour la plupart des sites Web d'actualités, de toute façon) dans lesquelles les éditeurs ont cherché à bloquer les robots d'IA et à empêcher leur travail de former des données sans consentement. Lorsque Apple a fait ses débuts un nouvel agent d'IA cet été, par exemple, une multitude de meilleurs médias ont rapidement retiré le grattage Web d'Apple à l'aide du protocole d'exclusion des robots, ou robots.txt, le fichier qui permet aux webmasters de contrôler les robots. Il y a tellement de nouveaux robots AI sur la scène que cela peut avoir envie de jouer à Whack-a-Mole pour suivre.

Le GPTBOT d'OpenAI a le plus de reconnaissance de nom et est également plus fréquemment bloqué que les concurrents comme Google AI. Le nombre de sites Web de médias de haut rang utilisant des robots.txt pour «interdire» le GPTBOT d'Openai a considérablement augmenté de son lancement d'août 2023 jusqu'à cet automne, puis a augmenté (mais plus progressivement) de novembre 2023 à avril 2024, selon une analyse de 1000 Les médias populaires de la startup de détection d'IA basée en Ontario Originalité AI. À son apogée, le sommet était un peu plus d'un tiers des sites Web; Il est maintenant tombé plus près d'un quart. Dans un bassin plus petit des médias les plus importants, le taux de blocs est toujours supérieur à 50%, mais il est en baisse par rapport à des hauteurs plus tôt cette année de près de 90%.

Mais en mai dernier, après que Dotdash Meredith a annoncé un accord de licence avec OpenAI, ce nombre a considérablement baissé. Il a ensuite plongé à nouveau fin mai quand Vox annoncé Son propre arrangement – et encore une fois en août lorsque la société mère de Wired, Condé Nast, a conclu un accord. La tendance vers l'augmentation du blocage semble être terminée, du moins pour l'instant.

Ces trempettes ont un sens évident. Lorsque les entreprises concluent des partenariats et autorisent l'utilisation de leurs données, ils ne sont plus incités à le barricier, il s'ensuit donc qu'ils mettraient à jour leurs fichiers robots.txt pour permettre de ramper; Faire suffisamment d'offres et le pourcentage global de sites bloquant les robots des robots des chenilles va presque certainement baisser. Certains points de vente ont débloqué les robots d'Openai le même jour qu'ils ont annoncé un accord, comme l'Atlantique. D'autres ont pris quelques jours à quelques semaines, comme Vox, qui a annoncé son partenariat fin mai, mais qui a débloqué le GPTBOT sur ses propriétés vers la fin juin.

Robots.txt n'est pas juridiquement contraignant, mais il a longtemps fonctionné comme la norme qui régit le comportement du compteur Web. Pour la majeure partie de l'existence d'Internet, les personnes exécutant des pages Web s'attendent à ce que les autres respectent le fichier. Lorsqu'une enquête filaire plus tôt cet été a révélé que la perplexité de la startup AI choisissait probablement d'ignorer les commandes Robots.TXT, la division Cloud d'Amazon a lancé une enquête pour savoir si la perplexité avait violé ses règles. Ce n'est pas un bon aperçu d'ignorer les robots.txt, ce qui explique probablement pourquoi tant de sociétés d'IA éminentes – notamment Openai—indiquer explicitement qu'ils l'utilisent pour déterminer quoi ramper. Le PDG de l'originalité AI, Jon Gillham, estime que cela ajoute une urgence supplémentaire à la poussée d'Openai pour conclure des accords. «Il est clair que les vues Openai sont bloquées comme une menace pour leurs ambitions futures», explique Gillham.