OpenAI Messed With the Wrong Mega-Popular Parenting Forum

Penser à tout Sujet vaguement lié à l'élévation des enfants imaginables, et il y a probablement un article à ce sujet sur Mumsnet, le forum parental au Royaume-Uni basé sur la controverse de longue date, extrêmement populaire et éprouvant pour les mères. Au cours de son histoire de plus de deux décennies, Mumsnet a amassé une archive de plus de six milliards de mots écrits par sa base d'utilisateurs très engagés, sur des sujets tels que des couches sales et des maris paresseux. (Sans parler d'un Les pirates de dauphins.)

Ce printemps, après que Mumsnet a découvert que les sociétés d'IA grattant ses données, la société a déclaré qu'elle avait décidé d'essayer de conclure des accords de licence avec certains des principaux acteurs de l'espace, y compris Openai, qui a initialement exprimé sa volonté d'explorer un arrange dehors. Après que les entretiens avec Openai se sont effondrés, Mumsnet a annoncé en juillet poursuivre une action en justice.

Selon Mumsnet, au cours de ces premières conversations, une avance de partenariat stratégique OpenAI a déclaré à la société que des ensembles de données plus d'un milliard de mots intéressaient le géant de l'IA. Le leadership de Mumsnet était excité. «Nous avons passé pas mal de temps dans un va-et-vient avec eux», a déclaré Wired, fondateur et PDG de Mumsnet «Nous avons dû signer des NDA, et ils voulaient beaucoup d'informations de notre part.»

Cependant, plus d'un mois plus tard, Openai a déclaré à Mumsnet que la société n'était plus intéressée à s'associer à ce moment-là, selon un échange de courriels examiné par Wired. Lorsqu'on lui a demandé pourquoi, le personnel d'Openai a caractérisé l'ensemble de données de 6 milliards de mots de Mumsnet comme trop petit pour justifier un arrangement de licence, dit Roberts. Ils ont également noté qu'OpenAI est principalement intéressé par les grands ensembles de données auxquels le public ne peut pas déjà accéder en ligne, et qu'il voulait des ensembles de données qui capturaient une vaste expérience humaine.

Ce sentiment a été repris par la société lorsqu'on lui a demandé des commentaires de Wired. «Nous recherchons des partenariats pour des ensembles de données à grande échelle qui reflètent la société humaine et ne poursuivons pas les partenariats uniquement pour des informations accessibles au public», explique la porte-parole d'Openai, Kayla Wood. «Nous soutenons le choix de l'éditeur et du créateur, leur offrant des moyens d'exprimer leurs préférences sur la façon dont leurs sites et leur contenu fonctionnent avec l'IA dans les résultats de recherche et la formation des modèles génératifs de la fondation d'IA.»

Roberts dit qu'elle a été «irritée» par ce développement. Elle se souvient qu'Openai avait d'abord semblé particulièrement intéressé par Mumsnet en raison du contenu fortement rédigé de la plate-forme. «Ce sont des données conversationnelles de très haute qualité», dit-elle. «C'est une conversation féminine à 90%, ce qui est assez inhabituel.»

OpenAI a conclu une variété de transactions de licence de données avec les médias et les plateformes au cours de la dernière année, concluant des accords avec Vox Media, le atlantiqueAxel saute, Tempset la société mère filaire Condé Nast, ainsi que des plates-formes remplies de contenu généré par les utilisateurs comme Reddit. (Automattic, le propriétaire de WordPress.com et Tumblr, aurait également été dans des pourparlers de licence plus tôt cette année.) Comme les détails de ces transactions n'ont pas été révélés, il n'est pas clair quelle est la taille de leurs corpus respectifs.

Lorsque Wired a posé des questions sur la taille des ensembles de données qu'il considérera pour les licences commerciales, OpenAI a refusé de partager ces informations. Mais la porte-parole Kayla Wood souligne que les partenariats de l'entreprise avec les éditeurs «se concentrent sur l'affichage de leur contenu dans nos produits et la conduite du trafic vers eux».