Major Sites Are Saying No to Apple’s AI Scraping
Dans une analyse distincte réalisée cette semaine, le journaliste de données Ben Welsh a constaté qu'un peu plus d'un quart des sites de nouvelles qu'il a interrogés (294 sur 1 167 principalement des publications basées sur l'anglais, basées aux États-Unis) bloquent Applebot-étendu. En comparaison, Welsh a constaté que 53% des sites Web d'actualités de son échantillon Block Openai Bot. Google a présenté son propre bot spécifique à l'IA, étendu à Google, en septembre dernier; Il est bloqué par près de 43% de ces sites, un signe que Applebot-étendu peut toujours être sous le radar. Comme Welsh le dit câblé, le nombre a «progressivement progressé» depuis qu'il a commencé à chercher.
Welsh a Un projet en cours Surveillance comment les médias approchent les principaux agents de l'IA. “Un peu de fossé est apparu entre les éditeurs de nouvelles pour savoir s'ils veulent bloquer ces robots”, dit-il. «Je n'ai pas la réponse à la raison pour laquelle chaque organisation de presse a pris sa décision. De toute évidence, nous pouvons en savoir plus sur beaucoup d'entre eux faisant des accords de licence, où ils sont payés en échange de laisser les robots – peut-être que c'est un facteur. »
L'année dernière, le New York Times signalé qu'Apple tentait de conclure des accords sur l'IA avec des éditeurs. Depuis lors, des concurrents comme Openai et Perplexity ont annoncé des partenariats avec une variété de médias, de plateformes sociales et d'autres sites Web populaires. «Beaucoup des plus grands éditeurs au monde adoptent clairement une approche stratégique», explique Jon Gillham, le fondateur de l'originalité de l'IA. «Je pense que dans certains cas, il y a une stratégie commerciale impliquée – comme, retenir les données jusqu'à ce qu'un accord de partenariat soit en place.»
Il existe des preuves à l'appui de la théorie de Gillham. Par exemple, les sites Web de Condé Nast utilisés pour bloquer les robots Web d'Openai. Après que la société a annoncé un partenariat avec OpenAI la semaine dernière, elle a débloqué les bots de l'entreprise. (Condé Nast a refusé de commenter le dossier de cette histoire.) Pendant ce temps, la porte-parole de Buzzfeed, Juliana Clifton a conclu un partenariat – typiquement payé – avec la société, qui possède également le Huffington Post.
Étant donné que Robots.txt doit être édité manuellement et qu'il y a tellement de nouveaux agents d'IA qui débuteront, il peut être difficile de conserver une liste de blocs à jour. «Les gens ne savent tout simplement pas quoi bloquer», explique Gavin King, le fondateur des visiteurs de Dark. Dark Visitors propose un service Freemium qui met automatiquement à jour Robots.TXT d'un site client, et King dit que les éditeurs constituent une grande partie de ses clients en raison de problèmes de droit d'auteur.
Robots.txt peut sembler le territoire arcanique des webmasters – mais étant donné son importance surdimensionnée pour les éditeurs numériques à l'ère de l'IA, il est maintenant le domaine des dirigeants des médias. Wired a appris que deux PDG des grandes sociétés de médias décident directement quels robots bloquer.
Certains points de vente ont explicitement noté qu'ils bloquent les outils de grattage de l'IA car ils n'ont pas actuellement de partenariats avec leurs propriétaires. «Nous bloquons Applebot-étendus dans toutes les propriétés de Vox Media, comme nous l'avons fait avec de nombreux autres outils de grattement de l'IA lorsque nous n'avons pas d'accord commercial avec l'autre partie», a déclaré Lauren Starke, vice-présidente principale de Vox Media de la Communications. «Nous croyons à la protection de la valeur de nos travaux publiés.»