Google’s Deal With Stack Overflow Is the Latest Proof That AI Giants Will Pay for Data

L'année dernière, Stack Overflow est devenu l'un des premiers sites Web à annoncer qu'il facturerait des géants de l'IA pour l'accès au contenu utilisé pour former des chatbots. Maintenant, le service de questions-réponses populaire pour les codeurs a inscrit son premier client – Google – dans ce que le PDG, Prashanth Chandrasekar, dit que c'est le début d'un nouveau flux de revenus «significatif».

L'accord est significatif, car il n'est pas clair à quel point Google et d'autres développeurs d'IA paieront en général pour les projets d'IA. Des millions de livres et de sites Web ont alimenté le développement des systèmes d'IA, mais la plupart des éditeurs n'ont pas été rémunérés, et certains poursuivent ce qu'ils allèguent est une mauvaise utilisation. De nombreux éditeurs, dont Stack Overflow, semblent menacés par Chatgpt et d'autres produits génératifs de l'IA, qui peuvent répondre aux requêtes qui auraient déjà envoyé des codeurs.

L'accord verra les questions et réponses d'utiliser les questions et les réponses de la division cloud de Google sur les services de Google Cloud pour fournir une assistance de codage et un support technique via une version du chatbot Gemini de Google. Les clients du cloud computing de Google pourront également poser des questions via l'interface de ligne de commande de Google Cloud. «Leur IA peut ne pas avoir toutes les réponses, et nous avons donc une énorme capacité à compléter cette boucle», explique Chandrasekar. «Nous sommes le plus grand endroit où les connaissances communautaires sont organisées et validées.»

Gemini résumera les réponses tirées de Stack Overflow dans ses propres mots, mais inclura le logo de l'entreprise, un lien vers le matériel d'origine et le nom d'utilisateur du contributeur du site qui l'a fourni. Les sociétés prévoient de démontrer le système de Google Cloud Next, la conférence annuelle du cloud de la société de recherche en avril et de le lancer peu de temps après.

Chandrasekar dit qu'il n'y a pas de restrictions significatives sur la façon dont Google Cloud peut utiliser des données de débordement de pile, ce qui signifie qu'elle peut être utilisée pour former de grands modèles de langage et d'autres systèmes d'IA. «Là où nous voulons rester fermement, c'est…des choses non négociables pour nous– Confiance, précision, qualité et attribution aux sources de ces résultats de l'IA », dit-il.

Il a refusé de dire à quel point le débordement de pile est payé par Google pour les données. «Ce sera une offre commerciale significative pour nous à court terme, à moyen terme et à long terme», explique Chandrasekar.

Grattage secrète

Google et d'autres développeurs d'IA ont précédemment recueilli des données de Stack Overflow et d'autres sites Web sans préavis. Alors que la demande de technologies génératrices de l'IA a augmenté – et les évaluations des entreprises qui les ont développées ont explosé – les sites Web fournissant le texte fondamental ont commencé à exiger ce qu'ils considèrent comme leur juste part. Heureusement pour Stack Overflow, les clients potentiels ont respecté le message, dit Chandrasekar. «Nous n'avons pas à chasser les gens», dit-il.

Les données de débordement de pile sont particulièrement bénéfiques pour les systèmes d'IA qui génèrent du code informatique, qui se sont avérés populaires auprès des ingénieurs logiciels et une source importante de revenus pour Microsoft et OpenAI.

Le nouvel accord de débordement de pile intervient une semaine seulement après que Google ait conclu un accord de licence pour hisser les données de Reddit, l'opérateur des forums de discussion, dont le contenu a aidé la capacité des chatbots à converser. Reddit avait dévoilé des plans pour commencer à facturer l'accès aux données juste avant que Stack Overflow ait eu l'an dernier.