OpenAI Offers a Peek Inside the Guts of ChatGPT
L'approche du développeur de Chatgpt Openai pour construire l'intelligence artificielle a été critiquée cette semaine des anciens employés qui accusent l'entreprise de prendre des risques inutiles avec la technologie qui pourrait devenir nocif.
Aujourd'hui, OpenAI a publié un nouveau document de recherche visant apparemment à montrer qu'il est sérieux de lutter contre les risques d'IA en rendant ses modèles plus explicables. Dans le papierdes chercheurs de l'entreprise ont exposé un moyen de regarder à l'intérieur du modèle d'IA qui alimente le chatppt. Ils conçoivent une méthode d'identification de la façon dont le modèle stocke certains concepts, y compris ceux qui pourraient provoquer une mauvaise conduite d'un système d'IA.
Bien que la recherche rend le travail d'Openai sur le maintien de l'IA plus visible, il met également en évidence les récentes tourmente dans l'entreprise. La nouvelle recherche a été effectuée par l'équipe de «superalignement» récemment dissoute à OpenAI qui s'est consacrée à l'étude des risques à long terme de la technologie.
Les Coleads de l'ancien groupe, Ilya Sutskever et Jan Leike – dont Openai – sont nommés co-auteurs. Sutskever, cofondatrice d'Openai et ancien scientifique en chef, faisait partie des membres du conseil d'administration qui ont voté pour licencier le PDG Sam Altman en novembre dernier, déclenchant quelques jours chaotiques qui ont culminé dans le retour d'Altman en tant que leader.
Chatgpt est propulsé par une famille de modèles dits de grande langue appelés GPT, basés sur une approche de l'apprentissage automatique connu sous le nom de réseaux de neurones artificiels. Ces réseaux mathématiques ont montré une grande puissance pour apprendre des tâches utiles en analysant les exemples de données, mais leur travail ne peut pas être facilement examiné comme les programmes informatiques conventionnels le peuvent. L'interaction complexe entre les couches de «neurones» au sein d'un réseau neuronal artificiel rend l'ingénierie inverse pourquoi un système comme Chatgpt a proposé une réponse particulière extrêmement difficile.
“Contrairement à la plupart des créations humaines, nous ne comprenons pas vraiment le fonctionnement intérieur des réseaux de neurones”, ont écrit les chercheurs derrière l'œuvre dans une article de blog. Certains chercheurs d'IA éminents croient que les modèles d'IA les plus puissants, y compris Chatgpt, pourraient peut-être être utilisés pour concevoir des armes chimiques ou biologiques et coordonner les cyberattaques. Une préoccupation à plus long terme est que les modèles d'IA peuvent choisir de masquer des informations ou d'agir de manière nuisible afin d'atteindre leurs objectifs.
Le nouveau papier d'OpenAI décrit une technique qui réduit un peu le mystère, en identifiant des modèles qui représentent des concepts spécifiques dans un système d'apprentissage automatique avec l'aide d'un modèle d'apprentissage automatique supplémentaire. L'innovation clé consiste à affiner le réseau utilisé pour regarder à l'intérieur du système d'intérêt en identifiant les concepts, pour le rendre plus efficace.
OpenAI a prouvé l'approche en identifiant les modèles qui représentent les concepts à l'intérieur de GPT-4, l'un de ses plus grands modèles d'IA. L'entreprise Code publié lié au travail d'interprétabilité, ainsi que Un outil de visualisation Cela peut être utilisé pour voir comment les mots dans différentes phrases activent les concepts, y compris le blasphème et le contenu érotique, dans GPT-4 et un autre modèle. Savoir comment un modèle représente certains concepts pourrait être une étape vers la capacité de composer ceux associés à un comportement indésirable, pour conserver un système d'IA sur les rails. Cela pourrait également permettre de régler un système d'IA pour favoriser certains sujets ou idées.