Stack Overflow Will Charge AI Giants for Training Data

Une feuille de route potentielle vers les tarifs pourrait provenir d'Elon Musk, qui a augmenté ce mois-ci pour l'accès aux données de Twitter. Ils commencent à 42 000 $ par mois pour accéder à 50 millions de tweets. Environ trois fois le volume de tweets était auparavant disponible gratuitement. Dans Un tweet cette semaineMusk a accusé Microsoft, un grand développeur d'IA et partenaire proche d'OpenAI, d'algorithmes de formation «à l'aide de données Twitter». Sans élaboration, il a ajouté: «Temps de procès».

Stack Overflow et Reddit continueront de concéder gratuitement des données pour certaines personnes et entreprises. Chandrasekar dit que Stack Overflow ne veut que la rémunération uniquement des entreprises développant des LLM à des fins commerciales importantes. «Lorsque les gens commencent à facturer des produits construits sur des sites construits par la communauté comme le nôtre, c'est là que ce n'est pas une utilisation équitable», dit-il.

Le PDG de Reddit Steve Huffman dit Le New York Times cette semaine qu'il ne voulait pas donner un cadeau aux plus grandes entreprises du monde. “Ramper Reddit, générer de la valeur et ne pas renvoyer cette valeur à nos utilisateurs est quelque chose avec lequel nous avons un problème”, a-t-il déclaré.

Au fur et à mesure que les attentes augmentent selon lesquelles les robots de style Chatgpt et d'autres produits construits sur les LLM réaliseront d'énormes bénéfices, d'autres sociétés avec des stocks de contenu nécessaires pour former des algorithmes d'apprentissage automatique souhaitent également être payés. Certains éditeurs de nouvelles se méfient de la façon dont le nouveau chatbot Bing de Microsoft gère leur contenu.

Mais jusqu'à présent, seuls quelques offres publiques sur l'accès aux données de formation ont été annoncées, telles que des bombes à bancs de photos qui acceptent l'octroi de contenu d'Openai. Son rival Getty Images poursuit la stabilité AIun concurrent OpenAI, pour ne pas avoir demandé de licence avant d'utiliser plus de 12 millions de photos. La réponse de la startup de l'IA est due devant la Cour fédérale américaine la semaine prochaine.

Les développeurs d'IA ne sont pas encore sous pression totale pour payer. Certaines entreprises avec de grands volumes de texte académique ou de conversations occasionnelles disent qu'ils n'ont pas l'intention de commencer à facturer leurs API ou leurs portails de données similaires. PLOS, un éditeur de recherches scientifiques dont le contenu a été exploité dans la formation de l'IA, est «peu probable» de changer ses termes d'utilisation assez peu restrictifs, a déclaré le porte-parole David Knutson. La plateforme communautaire en ligne Discord n'a pas l'intention de modifier ses offres d'API, qui sont gratuites et fournies Selon des termes qui interdisent la formation de l'IAdit le porte-parole Swaleha Carlson.

À Stack Overflow, la charge pour son API n'est qu'une partie de Une stratégie d'IA plus large que l'entreprise s'attend à dévoiler en quelques mois. Environ 10% des près de 600 employés de Stack Overflow se concentrent sur l'initiative, ce qui comprend le développement de ses propres services d'IA génératifs. Par exemple, une fonction assistant pourrait aider à guider les gens car ils composent les questions à publier.

À ce jour, l'action principale de la communauté Stack Overflow a été d'interdire aux utilisateurs de publier des réponses générées par l'IA. Chandrasekar dit qu'un pic dans des réponses inexacts après la publication de Chatgpt avait créé un défi pour les centaines de modérateurs de la société.

Lancé en 2008, Stack Overflow génère environ des parties égales de ses revenus à partir des annonces et des licences de logiciels de questions-réponses en tant qu'abonnement à plus de 1 200 organisations à usage interne. Le Les ventes de l'entreprise a augmenté de 33% à 45 millions de dollars au cours des six mois clos le 30 septembre 2022, les données les plus récentes disponibles, par rapport à la période annuelle. Environ 200 000 nouveaux utilisateurs se sont inscrits en moyenne chaque mois pendant cette période.

Ces utilisateurs pourraient raisonnablement réclamer leur propre compensation si Stack Overflow réussit à l'octroi de licences aux fabricants d'IA les questions et réponses qu'ils écrivent gratuitement. Chandrasekar dit: «Il y a absolument une réflexion sur la meilleure façon de s'assurer que les membres de notre communauté et les personnes qui font du site ce qu'elle est aujourd'hui – comment nous allons prendre soin d'eux dans le contexte de ce qui se passe ici.»