OpenAI Touts New AI Safety Research. Critics Say It’s a Good Step, but Not Enough

Openai A fait face à Opprobrium ces derniers mois de ceux qui suggèrent qu'il pourrait se précipiter trop rapidement et imprudemment pour développer une intelligence artificielle plus puissante. La société semble déterminée à montrer qu'elle prend la sécurité de l'IA au sérieux. Aujourd'hui, il a présenté des recherches qui, selon les chercheurs, pourraient aider les chercheurs à examiner les modèles d'IA, même s'ils deviennent plus capables et utiles.

La nouvelle technique est l'une des nombreuses idées liées à la sécurité de l'IA que l'entreprise a présentée ces dernières semaines. Cela implique que deux modèles d'IA s'engagent dans une conversation qui oblige le plus puissant à être plus transparent ou «lisible», avec son raisonnement afin que les humains puissent comprendre ce qu'il fait.

«Ceci est au cœur de la mission de construire un [artificial general intelligence] C'est à la fois sûr et bénéfique », a déclaré à Wired Yining Chen, chercheur d'Openai impliqué dans les travaux.

Jusqu'à présent, le travail a été testé sur un modèle d'IA conçu pour résoudre des problèmes mathématiques simples. Les chercheurs OpenAI ont demandé au modèle d'IA d'expliquer son raisonnement en répondant aux questions ou en résolvant des problèmes. Un deuxième modèle est formé pour détecter si les réponses sont correctes ou non, et les chercheurs ont constaté que le fait que les deux modèles s'engagent dans un va-et-vient encourageaient la résolution de mathématiques à être plus franc et transparente avec son raisonnement.

OpenAI publie publiquement un article détaillant l'approche. «Cela fait partie du plan de recherche à long terme en matière de sécurité», explique Jan Hendrik Kirchner, un autre chercheur OpenAI impliqué dans les travaux. «Nous espérons que d'autres chercheurs pourront suivre et peut-être essayer d'autres algorithmes également.»

La transparence et l'explication sont des préoccupations clés pour les chercheurs de l'IA qui travaillent à construire des systèmes plus puissants. Les modèles de grandes langues offriront parfois des explications raisonnables sur la façon dont elles sont parvenues à une conclusion, mais une préoccupation clé est que les futurs modèles peuvent devenir plus opaques ou même trompeurs dans les explications qu'ils fournissent – peut-être poursuivre un objectif indésirable en mensant à ce sujet.

La recherche révélée aujourd'hui fait partie d'un effort plus large pour comprendre les grands modèles linguistiques qui sont au cœur de programmes comme Chatgpt opèrent. C'est l'une des nombreuses techniques qui pourraient aider à rendre les modèles d'IA plus puissants plus transparents et donc plus sûrs. OpenAI et d'autres sociétés explorent également plus de façons mécanistes de regarder dans le fonctionnement de modèles de gros langues.

OpenAI a révélé davantage de ses travaux sur la sécurité de l'IA ces dernières semaines après la critique de son approche. En mai, Wired a appris qu'une équipe de chercheurs dédiée à l'étude du risque d'IA à long terme avait été dissoute. Cela est venu peu de temps après le départ du cofondateur et leader technique clé Ilya Sutskever, qui a été l'un des membres du conseil d'administration qui a brièvement évincé le PDG Sam Altman en novembre dernier.

Openai a été fondée sur la promesse que cela rendrait l'IA à la fois plus transparente à l'examen et plus sûr. Après le succès en fuite de Chatgpt et une concurrence plus intense de rivaux bien soutenus, certaines personnes ont accusé la société de hiérarchiser les avancées éclaboussantes et des parts de marché sur la sécurité.

Daniel Kokotajlo, un chercheur qui a quitté Openai et a signé une lettre ouverte critiquant l'approche de l'entreprise en matière de sécurité de l'IA, dit que le nouveau travail est important, mais progressif, et qu'il ne change pas le fait que les entreprises qui construisent la technologie ont besoin de plus de surveillance. «La situation dans laquelle nous nous trouvons reste inchangée», dit-il. «Des sociétés opaques, inexplicables et non réglementées se mettent en cours pour construire une superintelligence artificielle, sans aucun plan pour la contrôler.»

Une autre source ayant une connaissance du fonctionnement intérieur d'Openai, qui a demandé à ne pas être nommé parce qu'ils n'étaient pas autorisés à parler publiquement, dit que la surveillance extérieure des sociétés d'IA est également nécessaire. «La question est de savoir si elles sont sérieuses au sujet des types de processus et de mécanismes de gouvernance dont vous avez besoin pour hiérarchiser les avantages sociétaux concernant le profit», explique la source. “Ce n'est pas s'ils ont laissé l'un de leurs chercheurs faire des trucs de sécurité.”