OpenAI Wants AI to Help Humans Train AI
L'un des ingrédients clés qui a fait de Chatgpt un succès de riposter a été une armée de formateurs humains qui ont donné le modèle d'intelligence artificielle derrière les conseils sur le bot sur ce qui constitue de bonnes et de mauvaises résultats. Openai maintenant dit Cela ajoutant encore plus d'IA dans le mélange – pour aider les entraîneurs humains – pourrait aider à rendre les aides IA plus intelligents et plus fiables.
En développant Chatgpt, Openai a été le pionnier de l'utilisation de l'apprentissage du renforcement avec les commentaires humains, ou RLHF. Cette technique utilise l'entrée des testeurs humains pour affiner un modèle d'IA afin que sa sortie soit jugée plus cohérente, moins répréhensible et plus précise. Les notes que les entraîneurs donnent un algorithme qui entraîne le comportement du modèle. La technique s'est avérée cruciale à la fois pour rendre les chatbots plus fiables et utiles et les empêcher de mal se comporter.
«Le RLHF fonctionne très bien, mais il a quelques limitations clés», explique Nat McAleese, chercheur d'Openai impliqué dans le nouveau travail. D'une part, la rétroaction humaine peut être incohérente. Pour une autre, il peut être difficile pour les humains même qualifiés d'évaluer les sorties extrêmement complexes, comme le code logiciel sophistiqué. Le processus peut également optimiser un modèle pour produire une sortie qui semble convaincante plutôt que réellement exact.
OpenAI a développé un nouveau modèle en affinant son offre la plus puissante, GPT-4, pour aider les formateurs humains chargés d'évaluer le code. La société a constaté que le nouveau modèle, surnommé Criticgpt, pourrait attraper des bugs que les humains manquaient et que les juges humains ont trouvé que ses critiques du code étaient mieux 63% du temps. OpenAI examinera l'étendue de l'approche aux zones au-delà du code à l'avenir.
«Nous commençons à travailler pour intégrer cette technique dans notre pile de discussion RLHF», explique McAleese. Il note que l'approche est imparfaite, car le critique peut également faire des erreurs en hallucinant, mais il ajoute que la technique pourrait aider à rendre les modèles d'Openai ainsi que des outils comme Chatgpt plus précis en réduisant les erreurs dans la formation humaine. Il ajoute que cela pourrait également s'avérer crucial pour aider les modèles d'IA à devenir beaucoup plus intelligents, car cela peut permettre aux humains d'aider à former une IA qui dépasse leurs propres capacités. «Et comme les modèles continuent de s'améliorer, nous soupçonnons que les gens auront besoin de plus d'aide», explique McAleese.
La nouvelle technique est l'une des nombreuses personnes développées pour améliorer les modèles de grands langues et en extraire plus de capacités. Cela fait également partie d'un effort pour s'assurer que l'IA se comporte de manière acceptable même si elle devient plus capable.
Plus tôt ce mois-ci, Anthropic, un rival d'Openai fondé par des ex-employés d'Openai, a annoncé une version plus performante de son propre chatbot, appelé Claude, grâce aux améliorations du régime de formation du modèle et aux données qu'elle est alimentées. Anthropic et OpenAI ont également récemment vanté de nouvelles façons d'inspecter les modèles d'IA pour comprendre comment ils arrivent à leur production afin de mieux empêcher les comportements indésirables tels que la tromperie.
La nouvelle technique pourrait aider à ouvrir les modèles d'IA de plus en plus puissants tout en veillant à ce que leur production soit plus fiable et alignée sur les valeurs humaines, surtout si l'entreprise la déploie avec succès dans plus de domaines que de code. Openai a déclaré qu'elle formait son prochain modèle d'IA majeur, et la société est évidemment désireuse de montrer qu'il est sérieux de s'assurer qu'il se comporte. Cela fait suite à la dissolution d'une équipe de premier plan dédiée à l'évaluation des risques à long terme posés par l'IA. L'équipe a été co-dirigée par Ilya Sutskever, cofondatrice de la société et ancien membre du conseil d'administration qui a brièvement poussé le PDG Sam Altman hors de l'entreprise avant de se rétracter et de l'aider à reprendre le contrôle. Plusieurs membres de cette équipe ont depuis critiqué l'entreprise pour se déplacer risquée alors qu'elle se précipite pour développer et commercialiser de puissants algorithmes d'IA.
Dylan Hadfield-Menellun professeur au MIT qui fait des recherches sur les moyens d'aligner l'IA, dit que l'idée d'avoir des modèles d'IA aide à s'entraîner plus puissantes a été lancée depuis un certain temps. «C'est un développement assez naturel», dit-il.
Hadfield-Menell note que les chercheurs qui ont initialement développé des techniques utilisées pour RLHF discuté idées connexes il y a plusieurs années. Il dit qu'il reste à voir à quel point il est généralement applicable et puissant. «Cela pourrait entraîner de grands sauts dans les capacités individuelles, et ce pourrait être un tremplin vers une sorte de rétroaction plus efficace à long terme», dit-il.