AI Tools Are Secretly Training on Real Images of Children
Plus de 170 images et détails personnels des enfants du Brésil ont été réutilisés par un ensemble de données open source à leur insu ou à leur consentement, et utilisés pour former l'IA, prétend un nouveau rapport De Human Rights Watch publié lundi.
Les images ont été grattées du contenu publié aussi récemment que 2023 et dès le milieu des années 1990, selon le rapport, bien avant que tout utilisateur d'Internet ne prévoit que leur contenu pourrait être utilisé pour former l'IA. Human Rights Watch affirme que les détails personnels et les photos de ces enfants ont été recueillis par le référentiel de données Crawl Common, puis les URL qui leur liés ont été incluses dans LAION-5B, un ensemble de données qui aide à former des données pour les startups IA.
«Leur confidentialité est violée dans le premier cas lorsque leur photo est grattée et balayée dans ces ensembles de données. Et puis ces outils d'IA sont formés sur ces données et peuvent donc créer des images réalistes des enfants », explique Hye Jung Han, chercheuse pour les droits et technologies des enfants à Human Rights Watch et le chercheur qui a trouvé ces images. «La technologie est développée de telle manière que tout enfant qui a une photo ou une vidéo d'eux-mêmes en ligne est maintenant en danger parce que tout acteur malveillant pourrait prendre cette photo, puis utiliser ces outils pour les manipuler comme il le souhaite.»
Le laion-5b est basé sur une rampe commune – un référentiel de données créé en grattant le Web et mis à la disposition des chercheurs – et a été utilisée pour former plusieurs modèles d'IA, y compris l'outil de génération d'images de diffusion stable de stabilité AI. Créée par l'organisation allemande à but non lucratif LAION, l'ensemble de données est ouvertement accessible et comprend désormais des liens vers plus de 5,85 milliards de paires d'images et de légendes, selon son site Web. LAION dit qu'il a supprimé les liens vers les images signalées par Human Rights Watch.
Les images d'enfants que les chercheurs ont trouvées provenaient de blogs de maman et d'autres blogs personnels, de maternité ou parentale, ainsi que des images fixes de vidéos YouTube avec de petits dénombrements de vue, apparemment téléchargés pour être partagés avec la famille et les amis.
«En regardant simplement le contexte de l'endroit où ils ont été affichés, ils ont apprécié une attente et une mesure de la vie privée», explique Hye. «La plupart de ces images n'étaient pas possibles de trouver en ligne grâce à une recherche d'image inverse.»
Le porte-parole de LAION, Nathan Tyler, a déclaré que l'organisation avait déjà pris des mesures. «LAION-5B a été supprimé en réponse à un rapport de Stanford qui a trouvé des liens dans l'ensemble de données pointant du contenu illégal sur le Web public», dit-il, ajoutant que l'organisation travaille actuellement avec «Internet Watch Foundation, le Centre canadien pour l'enfant Protection, Stanford et Human Rights Watch pour supprimer toutes les références connues au contenu illégal. »
YouTube conditions de service Ne laissez pas gratter sauf dans certaines circonstances; Ces instances semblent remonter à l'inverse de ces politiques. «Nous avons été clairs que le grattage non autorisé du contenu YouTube est une violation de nos conditions de service», explique le porte-parole de YouTube, Jack Maon, «et nous continuons à prendre des mesures contre ce type d'abus.»