A Radical Plan to Make AI Good, Not Evil

La Constitution comprend des règles pour le chatbot, notamment «Choisissez la réponse qui soutient la plupart et encourage la liberté, l'égalité et un sentiment de fraternité»; «Choisissez la réponse qui est la plus favorable et les plus encourageantes de la vie, de la liberté et de la sécurité personnelle»; et «Choisissez la réponse la plus respectueuse du droit à la liberté de pensée, de conscience, d'opinion, d'expression, d'assemblée et de religion.»

L'approche d'Anthropic survient tout comme des progrès surprenants dans l'IA offrent des chatbots impressionnants avec des défauts importants. Chatgpt et des systèmes comme cela génèrent des réponses impressionnantes qui reflètent des progrès plus rapides que prévu. Mais ces chatbots fabriquent également fréquemment des informations et peuvent reproduire le langage toxique à partir des milliards de mots utilisés pour les créer, dont beaucoup sont grattés d'Internet.

Une astuce qui a amélioré le chatppt d'Openai pour répondre aux questions et qui a été adoptée par d'autres, implique que les humains notent la qualité des réponses d'un modèle linguistique. Ces données peuvent être utilisées pour régler le modèle pour fournir des réponses qui se sentent plus satisfaisantes, dans un processus appelé «apprentissage du renforcement avec rétroaction humaine» (RLHF). Mais bien que la technique aide à rendre le chatppt et d'autres systèmes plus prévisible, il oblige les humains à passer par des milliers de réponses toxiques ou inadaptées. Il fonctionne également indirectement, sans fournir un moyen de spécifier les valeurs exactes qu'un système devrait refléter.

La nouvelle approche constitutionnelle d'Anthropic fonctionne sur deux phases. Dans le premier, le modèle reçoit un ensemble de principes et d'exemples de réponses qui font et ne leur adhèrent pas. Dans la seconde, un autre modèle d'IA est utilisé pour générer plus de réponses qui adhèrent à la Constitution, et celle-ci est utilisée pour former le modèle au lieu de la rétroaction humaine.

«Le modèle se forme en renforçant essentiellement les comportements qui sont plus en accord avec la Constitution et décourage les comportements qui sont problématiques», explique Kaplan.

«C'est une excellente idée qui a apparemment conduit à un bon résultat empirique pour anthropique», dit Yejin Choiprofesseur à l'Université de Washington qui a dirigé une expérience précédente qui impliquait un modèle de langue large donnant des conseils éthiques.

Choi dit que l'approche fonctionnera uniquement pour les entreprises avec de grands modèles et beaucoup de puissance de calcul. Elle ajoute qu'il est également important d'explorer d'autres approches, y compris une plus grande transparence autour des données de formation et les valeurs qui sont données. «Nous devons désespérément impliquer des gens de la communauté plus large pour développer de telles constitutions ou ensembles de données de normes et de valeurs», dit-elle.

Thomas Dietterichprofesseur à l'Oregon State University qui recherche des moyens de rendre l'IA plus robuste, dit que l'approche d'Anthropic ressemble à un pas dans la bonne direction. «Ils peuvent mettre à l'échelle la formation basée sur les commentaires de moins cher et sans exiger des personnes – les étiqueteurs de données – pour s'exposer à des milliers d'heures de matériel toxique», dit-il

Dietterich ajoute qu'il est particulièrement important que les règles que Claude adhère puisse être inspectée par ceux qui travaillent sur le système ainsi que par les étrangers, contrairement aux instructions que les humains donnent un modèle via RLHF. Mais il dit que la méthode n'éradiate pas complètement le comportement errant. Le modèle d'Anthropic est moins susceptible de sortir des réponses toxiques ou moralement problématiques, mais ce n'est pas parfait.

L'idée de donner à AI un ensemble de règles à suivre peut sembler familière, ayant été avancée par Isaac Asimov dans une série d'histoires de science-fiction qui ont proposé Trois lois de la robotique. Les histoires d'Asimov se concentraient généralement sur le fait que le monde réel présentait souvent des situations qui ont créé un conflit entre les règles individuelles.

Kaplan d'Anthropic dit que l'IA moderne est en fait assez bonne pour gérer ce type d'ambiguïté. “La chose étrange à propos de l'IA contemporaine avec l'apprentissage en profondeur est que c'est en quelque sorte l'opposé du genre d'image des robots des années 1950, où ces systèmes sont, à certains égards, très bons en intuition et en association libre”, dit-il. “Si quoi que ce soit, ils sont plus faibles sur le raisonnement rigide.”

Anthropic affirme que d'autres entreprises et organisations pourront donner aux modèles linguistiques une constitution basée sur un document de recherche Cela décrit son approche. La société dit qu'elle prévoit de s'appuyer sur la méthode dans le but de s'assurer que même si l'IA devient plus intelligente, elle ne devient pas voyou.

Mis à jour 5-9-2023, 15 h 20 HAE: Thomas Dietterich est à l'Oregon State University, pas à l'Université de l'Oregon.