Synthetic Data Is a Dangerous Teacher

En avril 2022, lorsque Dall-E, un modèle viso-linguistique de texte à l'image, a été publié, il a prétendument attiré un millions d'utilisateurs Au cours des trois premiers mois. Cela a été suivi par Chatgpt, en janvier 2023, qui a apparemment atteint 100 millions Utilisateurs actifs mensuels deux mois seulement après le lancement. Les deux marquent des moments notables dans le développement d'une IA générative, ce qui a à son tour fait une explosion de contenu généré par l'IA dans le Web. La mauvaise nouvelle est que, en 2024, cela signifie que nous verrons également une explosion d'informations fabriquées et absurdes, une mauvaise désinformation et l'exacerbation de stéréotypes négatifs sociaux codés dans ces modèles d'IA.

La révolution de l'IA n'a pas été stimulée par une percée théorique récente – en fait, la plupart des travaux fondamentaux sous-jacents aux réseaux de neurones artificiels existent depuis des décennies, mais par la «disponibilité» des ensembles de données massifs. Idéalement, un modèle d'IA capture un phénomène donné – que ce soit le langage humain, la cognition ou le monde visuel – d'une manière qui est représentative des phénomènes réels aussi étroitement que possible.

Par exemple, pour qu'un modèle grand langage (LLM) génére du texte de type humain, il est important que le modèle soit nourri d'énormes volumes de données qui représentent en quelque sorte le langage humain, l'interaction et la communication. La croyance est que plus l'ensemble de données est grand, mieux il capture les affaires humaines, dans toute leur beauté, leur laideur et même leur cruauté. Nous sommes à une époque qui est marquée par une obsession pour augmenter les modèles, les ensembles de données et les GPU. Les LLM actuelles, par exemple, ont maintenant saisi une époque de modèles d'apprentissage machine paramètre de milliards de milliards, ce qui signifie qu'ils nécessitent des ensembles de données de taille d'un milliard. Où pouvons-nous le trouver? Sur le Web.

Ces données sur le Web sont supposées capturer la «vérité du sol» pour la communication et l'interaction humaines, un proxy à partir de laquelle le langage peut être modélisé. Bien que divers chercheurs aient maintenant montré que les ensembles de données en ligne sont souvent de mauvaise qualitéa tendance à exacerber les stéréotypes négatifset contiennent un contenu problématique tel que insultes raciales et discours haineuxsouvent vers des groupes marginalisés, cela n'a pas empêché les grandes sociétés d'IA d'utiliser de telles données dans la course pour se développer.

Avec une IA générative, ce problème est sur le point de s'aggraver. Plutôt que de représenter le monde social à partir des données d'entrée de manière objective, ces modèles codent et amplifient les stéréotypes sociaux. En effet, récent travail spectacles que Encoder les modèles génératifs et reproduire des attitudes racistes et discriminatoires envers les identités, les cultures et les langues historiquement marginalisées.

Il est difficile, voire impossible – même avec des outils de détection de pointe – de savoir avec certitude combien de données de texte, d'image, d'audio et de vidéo sont générées actuellement et à quel rythme. Les chercheurs de l'Université de Stanford Hans Hanley et Zakir Durumeric Estimation A Augmentation de 68% Dans le nombre d'articles synthétiques publiés sur Reddit et une augmentation de 131% des articles de presse de désinformation entre le 1er janvier 2022 et le 31 mars 2023. Flétriune entreprise de générateurs de musique en ligne, prétend avoir généré 14,5 millions de chansons (ou 14% de la musique enregistrée) jusqu'à présent. En 2021Nvidia a prédit que, d'ici 2030, il y aura plus de données synthétiques que les données réelles dans les modèles d'IA. Une chose est sûre: le Web est enULÉ par des données générées par synthèse.

La chose inquiétante est que ces grandes quantités de sorties d'IA génératrices seront, à leur tour, utilisées comme matériel de formation pour les futurs modèles d'IA génératifs. En conséquence, en 2024, une partie très importante du matériel d'entraînement pour les modèles génératives sera les données synthétiques produites à partir de modèles génératifs. Bientôt, nous serons piégés dans une boucle récursive où nous allons former des modèles d'IA en utilisant uniquement des données synthétiques produites par les modèles d'IA. La plupart de cela sera contaminé par des stéréotypes qui continueront d'amplifier les inégalités historiques et sociétales. Malheureusement, ce seront également les données que nous utiliserons pour former des modèles génératifs appliqués à des secteurs à haut débit, notamment la médecine, la thérapie, l'éducation et le droit. Nous n'avons pas encore lutté avec les conséquences désastreuses de cela. D'ici 2024, l'explosion générative de l'IA de contenu que nous trouvons si fascinant deviendra à la place un dépotoir toxique massif qui reviendra pour nous mordre.