Reddit’s Sale of User Data for AI Training Draws FTC Inquiry
Reddit a dit à l'avance Parmi son introduction en bourse la semaine prochaine, que les publications de licence des utilisateurs à Google et autres pour les projets d'IA pourraient rapporter 203 millions de dollars de revenus au cours des prochaines années. La plate-forme axée sur la communauté a été forcée de révéler vendredi que les régulateurs américains ont déjà des questions sur cette nouvelle section d'activité.
Dans un dépôt réglementaireReddit a déclaré qu'il avait reçu jeudi une lettre de la commission du commerce fédéral américain demandant «notre vente, notre licence ou le partage de contenu généré par les utilisateurs avec des tiers pour former des modèles d'IA».
La FTC, le principal régulateur antitrust du gouvernement américain, a le pouvoir de sanctionner les sociétés qui s'engagent dans des pratiques commerciales déloyales ou trompeuses. L'idée de l'octroi de licences de contenu généré par l'utilisateur pour les projets d'IA a abordé des questions des législateurs et groupes de défense des droits sur les risques de confidentialité, l'équité et le droit d'auteur.
Reddit n'est pas le seul à essayer de réaliser des données de licence, y compris celle générée par les utilisateurs, pour l'IA. Programmation du site Q&A Overflow a signé un accord avec Google, l'Associated Press en a signé un avec OpenAI et le propriétaire de Tumblr Automattic a dit Il fonctionne «avec certaines sociétés d'IA», mais permettra aux utilisateurs de se retirer de la transmission de leurs données. Aucun des concédants de licence n'a immédiatement répondu aux demandes de commentaires. Reddit n'est pas non plus la seule entreprise à recevoir une lettre de la FTC sur les licences de données, Axios signalé Vendredi, citant un ancien responsable de l'agence sans nom.
Il n'est pas clair si la lettre à Reddit est directement liée à l'examen dans d'autres sociétés.
Reddit a déclaré dans la divulgation de vendredi qu'il ne croyait pas qu'il se livrait à des pratiques injustes ou trompeuses, mais a averti que faire face à une enquête gouvernementale peut être coûteux et long. “La lettre a indiqué que le personnel de la FTC était intéressé à nous rencontrer pour en savoir plus sur nos plans et que la FTC avait l'intention de nous demander des informations et des documents au fur et à mesure que son enquête se poursuit”, indique le dossier. Reddit a déclaré que la lettre de la FTC décrivait le contrôle comme lié à «une enquête non publique».
Reddit, dont 17 milliards de messages et commentaires sont considérés par les experts de l'IA comme précieux pour la formation des chatbots dans l'art de la conversation, a annoncé un accord le mois dernier pour concéder au contenu de Google. Reddit et Google n'ont pas immédiatement répondu aux demandes de commentaires. La FTC a refusé de commenter. (Advance Magazine Publishers, parent de l'éditeur de Wired, Condé Nast, possède une participation dans Reddit.)
Les chatbots AI comme le chatppt d'Openai et les Gémeaux de Google sont considérés comme une menace concurrentielle pour Reddit, les éditeurs et d'autres entreprises soutenues par la publicité et axées sur le contenu. Au cours de la dernière année, la perspective de licence de données aux développeurs de l'IA a émergé comme un potentiel à la hausse de l'IA générative pour certaines entreprises.
Mais l'utilisation de données récoltées en ligne pour former des modèles d'IA a soulevé un certain nombre de questions enroulées dans les salles de conférence, les salles d'audience et le Congrès. Pour Reddit et d'autres dont les données sont générées par les utilisateurs, ces questions incluent qui possède vraiment le contenu et s'il est juste de le licencier sans donner au Créateur une coupe. Les chercheurs en sécurité ont découvert que les modèles d'IA peuvent divulguer des données personnelles incluses dans le matériel utilisé pour les créer. Et certains critiques ont suggéré que les transactions pourraient rendre les entreprises puissantes encore plus dominantes.