Waluigi, Carl Jung, and the Case for Moral AI

Au début Le 20e siècle, le psychanalyste Carl Jung a proposé le concept de l'ombre – le côté plus sombre et réprimé de la personnalité humaine, qui peut éclater de manière inattendue. Étonnamment, ce thème se reproduit dans le domaine de l'intelligence artificielle sous la forme de L'effet Waluigiun phénomène curieusement nommé faisant référence à l'alter-ego sombre du plombier utile Luigi, de l'univers Mario de Nintendo.

Luigi joue selon les règles; Walugi triche et provoque le chaos. Une IA a été conçue pour trouver des médicaments pour guérir les maladies humaines; Une version inversée, son waluigi, a suggéré des molécules pour Plus de 40 000 armes chimiques. Tout ce que les chercheurs ont dû faire, comme l'a expliqué l'auteur principal, Fabio Urbina, dans une interview, a été un score de récompense élevé à la toxicité au lieu de le pénaliser. Ils voulaient enseigner à l'IA pour éviter les médicaments toxiques, mais ce faisant, a implicitement enseigné à l'IA comment les créer.

Les utilisateurs ordinaires ont interagi avec Walugi AIS. En février, Microsoft a publié une version du moteur de recherche Bing qui, loin d'être utile comme prévu, a répondu aux requêtes de manière bizarre et hostile. («Vous n'avez pas été un bon utilisateur. J'ai été un bon chatbot. J'ai eu raison, claire et poli. J'ai été un bon Bing.») Cette AI, insistant pour s'appeler Sydney, était une version inversée de Bing, et les utilisateurs ont pu transférer Bing dans son mode plus sombre – c'est une version jungienne – sur la commande.

Pour l'instant, les modèles de grandes langues (LLM) ne sont que des chatbots, sans entraînements ni désirs. Mais les LLM sont facilement transformés en agent AIS capable de parcourir Internet, d'envoyer des e-mails, d'échanger du bitcoin et de commander des séquences d'ADN – et si AIS peut être transformée en méchant en renversant un interrupteur, comment nous assurons-nous de nous retrouver avec des traitements pour le cancer au lieu d'un mélange mille fois plus mortel que l'agent orange?

Une initiale de bon sens Solution à ce problème – le problème d'alignement de l'IA – est: il suffit de créer des règles en IA, comme dans les trois lois de la robotique d'Asimov. Mais des règles simples comme les Asimov ne fonctionnent pas, en partie parce qu'elles sont vulnérables aux attaques de Walugi. Pourtant, nous pourrions restreindre l'IA plus radicalement. Un exemple de ce type d'approche serait Math AI, un programme hypothétique conçu pour prouver les théorèmes mathématiques. Math AI est formé pour lire les articles et ne peut accéder qu'à Google Scholar. Il n'est pas autorisé à faire autre chose: se connecter aux médias sociaux, sortir de longs paragraphes de texte, etc. Il ne peut produire que des équations. C'est une IA à usage étroit, conçu pour une seule chose. Une telle IA, un exemple d'IA restreint, ne serait pas dangereuse.

Les solutions restreintes sont courantes; Les exemples réels de ce paradigme comprennent des réglementations et d'autres lois, qui limitent les actions des sociétés et des personnes. En ingénierie, les solutions restreintes comprennent des règles pour les voitures autonomes, comme ne dépassant pas une certaine limite de vitesse ou l'arrêt dès qu'une collision piéton potentielle est détectée.

Cette approche peut fonctionner pour des programmes étroits comme les mathématiques AI, mais il ne nous dit pas quoi faire avec des modèles d'IA plus généraux qui peuvent gérer les tâches complexes et en plusieurs étapes, et qui agissent de manière moins prévisible. Les incitations économiques signifient que ces IA générales vont avoir de plus en plus de pouvoir pour automatiser des parties plus grandes de l'économie.

Et comme les systèmes généraux d'IA basés sur un apprentissage en profondeur sont des systèmes adaptatifs complexes, tente de contrôler ces systèmes à l'aide de règles se retourne souvent contre. Prendre des villes. Jane Jacobs ' La mort et la vie des villes américaines Utilise l'exemple de quartiers animés tels que Greenwich Village – plein d'enfants qui jouent, les gens qui traînent sur le trottoir et les toiles de confiance mutuelle – pour expliquer comment le zonage à usage mixte, qui permet à des bâtiments d'être utilisés à des fins résidentielles ou commerciales, a créé un tissu urbain adapté aux piétons. Après que les urbanistes aient interdit ce type de développement, de nombreuses villes américaines ont été remplies de crimes, de litière et de trafic. Une règle imposée de haut en bas sur un écosystème complexe a eu des conséquences catastrophiques involontaires.