Large Language Models’ Emergent Abilities Are a Mirage
La version originale de cette histoire est apparu dans Combien de magazine.
Il y a deux ans, dans un projet appelé le Au-delà de la référence du jeu d'imitationou Big-Bench, 450 chercheurs ont compilé une liste de 204 tâches conçues pour tester les capacités des modèles de grands langues, qui alimentent les chatbots comme Chatgpt. Sur la plupart des tâches, les performances se sont améliorées de manière prévisible et en douceur à mesure que les modèles se sont étendus – plus le modèle est grand, mieux il est devenu. Mais avec d'autres tâches, le saut de capacité n'était pas fluide. Les performances sont restées proches de zéro pendant un certain temps, puis les performances ont sauté. D'autres études ont trouvé des sauts similaires en capacité.
Les auteurs ont décrit cela comme un comportement «révolutionnaire»; D'autres chercheurs l'ont comparé à une transition de phase en physique, comme lorsque l'eau liquide gèle dans la glace. Dans un papier Publiés en août 2022, les chercheurs ont noté que ces comportements sont non seulement surprenants mais imprévisibles, et qu'ils devraient éclairer les conversations en évolution de la sécurité, du potentiel et du risque de l'IA. Ils ont appelé les capacités “émergent», Un mot qui décrit les comportements collectifs qui n'apparaissent qu'une fois qu'un système atteint un niveau élevé de complexité.
Mais les choses peuvent ne pas être aussi simples. Un nouveau papier Par un trio de chercheurs de l'Université de Stanford, postule que l'apparence soudaine de ces capacités n'est qu'une conséquence de la façon dont les chercheurs mesurent la performance du LLM. Les capacités, selon eux, ne sont ni imprévisibles ni soudaines. “La transition est beaucoup plus prévisible que les gens en accordent le crédit”, a déclaré Sanmi Koyojoinformaticien de Stanford et auteur principal du journal. «Les fortes affirmations d'émergence ont autant à voir avec la façon dont nous choisissons de mesurer comme ils le font avec ce que font les modèles.»
Nous ne voyons que maintenant et étudions ce comportement en raison de la taille de ces modèles. Les modèles de grands langues s'entraînent en analysant Ensembles de données de texte– Les mots provenant de sources en ligne, notamment des livres, des recherches sur le Web et Wikipedia – et trouver des liens entre des mots qui apparaissent souvent ensemble. La taille est mesurée en termes de paramètres, à peu près analogues à toutes les façons dont les mots peuvent être connectés. Plus il y a de paramètres, plus un LLM peut trouver des connexions. GPT-2 avait 1,5 milliard de paramètres, tandis que GPT-3.5, le LLM qui alimente Chatgpt, utilise 350 milliards. GPT-4, qui a fait ses débuts en mars 2023 et sous-tend maintenant Microsoft Copilot, aurait utilisé 1,75 billion.
Cette croissance rapide a entraîné une augmentation étonnante des performances et de l'efficacité, et personne ne conteste que les LLM suffisamment grands peuvent effectuer des tâches que les petits modèles ne peuvent pas, y compris ceux pour lesquels ils n'ont pas été formés. Le trio de Stanford qui a jeté l'émergence comme un «mirage» reconnaît que les LLM deviennent plus efficaces à mesure qu'ils augmentent; En fait, la complexité supplémentaire De plus grands modèles devraient permettre de s'améliorer dans des problèmes plus difficiles et divers. Mais ils soutiennent que si cette amélioration semble fluide et prévisible ou déchiquetée et nette des résultats du choix de la métrique – ou même une rareté d'exemples de test – plutôt que le fonctionnement interne du modèle.