OpenAI’s Ilya Sutskever Has a Plan for Keeping Super-Intelligent AI in Check
Aschenbrenner et deux autres membres de l'équipe de superintelligence qui ont parlé à Wired, Collin Burns et Pavel Izmailov, disent qu'ils sont encouragés par ce qu'ils considèrent comme un premier pas important vers l'apprivoisement des AIS surhumains potentiels. «Même si une élève de sixième année connaît moins de mathématiques qu'une majeure en mathématiques universitaires, il peut toujours transmettre ce qu'il veut réaliser à l'étudiant», explique Izmailov. “C'est un peu ce que nous essayons de réaliser ici.”
Le groupe de superalignement est co-dirigé par Ilya Sutskever, un cofondateur d'Openai, un scientifique en chef et l'un des membres du conseil d'administration qui a voté le mois dernier pour licencier le PDG Altman avant de se rétracter et de menacer de quitter s'il n'était pas rétabli. SUTSKEVER est co-auteur sur le journal publié aujourd'hui, mais Openai a refusé de le rendre disponible pour discuter du projet.
Après que Altman soit retourné à Openai le mois dernier dans un accord qui a vu la majeure partie du conseil de démission, l'avenir de Sutskever dans la société semblait incertain.
«Nous sommes très reconnaissants à Ilya», explique Aschenbrenner. «Il a été une énorme motivation et un moteur», sur le projet.
Les chercheurs d'Openai ne sont pas les premiers à tenter d'utiliser la technologie de l'IA d'aujourd'hui pour tester des techniques qui pourraient aider à apprivoiser les systèmes d'IA de demain. Comme les travaux antérieurs dans les laboratoires d'entreprise et universitaires, il est impossible de savoir si les idées qui fonctionnent dans une expérience soigneusement conçue seront pratiques à l'avenir. Les chercheurs décrivent la capacité d'avoir un modèle d'IA plus faible à former un modèle plus fort qu'ils essaient de perfectionner comme «un élément de construction clé pour le problème plus large du superalignement».
Les expériences dans l'alignement dite de l'IA soulèvent également des questions sur la confiance de tout système de contrôle. Le cœur des nouvelles techniques d'Openai dépend du système d'IA plus puissant qui décide de lui-même les conseils du système le plus faibles, un appel qui pourrait le voir régler des informations qui l'empêcheraient de se comporter d'une manière dangereuse à l'avenir. Pour qu'un tel système soit utile, des progrès seront nécessaires pour fournir des garanties sur l'alignement. «Vous aurez finalement besoin d'un degré de confiance très élevé», explique Burns, le troisième membre de l'équipe OpenAI.
Stuart Russell, professeur à l'UC Berkeley qui travaille sur la sécurité de l'IA, dit que l'idée d'utiliser un modèle d'IA moins puissant pour contrôler un modèle plus puissant depuis un certain temps. Il dit également qu'il n'est pas clair que les méthodes qui existent actuellement pour l'enseignement de l'IA à se comporter sont la voie à suivre, car ils n'ont jusqu'à présent pas fait que les modèles actuels se comportent de manière fiable.
Bien qu'Openai vante une première étape vers le contrôle de l'IA plus avancée, la société souhaite également s'enrôler à l'extérieur de l'aide. La société a annoncé aujourd'hui qu'elle offrira 10 millions de dollars en subventions en partenariat avec Eric Schmidt, l'investisseur influent et ancien PDG de Google, aux chercheurs externes qui proposeront d'autres progrès sur des sujets tels que la supervision faible à forte, l'interprétabilité des modèles avancés et le renforcement des modèles contre des invites conçues pour briser leurs restrictions. OpenAI tiendra également une conférence l'année prochaine sur le superalignement, selon les chercheurs impliqués dans le nouveau document.
SUTSKEVER, le cofondateur Openai et co-dirigeant de l'équipe de superalignement, a dirigé une grande partie des travaux techniques les plus importants de l'entreprise et fait partie des personnalités de l'IA éminentes de plus en plus inquiet sur la façon de contrôler l'IA car il devient plus puissant. La question de savoir comment contrôler la future technologie d'IA a attiré une nouvelle attention cette année, en grande partie grâce à Chatgpt. SUTSKEVER a étudié pour son doctorat sous Geoffrey Hinton, un pionnier des réseaux de neurones profonds qui ont quitté Google en mai de cette année afin d'avertir le rythme auquel l'IA semble maintenant aborder les niveaux humains dans certaines tâches.