How Game Theory Can Make AI More Reliable

Le jeu de la diplomatie – un favori de politiciens comme John F. Kennedy et Henry Kissinger. Au lieu de seulement deux adversaires, le jeu présente sept joueurs dont les motivations peuvent être difficiles à lire. Pour gagner, un joueur doit négocier, forgeant des dispositions coopératives que n'importe qui pourraient violer à tout moment. La diplomatie est si complexe qu'un groupe de Meta a été heureux lorsque, en 2022, Vous avez un programme Cicero a développé un «jeu de niveau humain» au cours de 40 matchs. Bien qu'il n'ait pas vaincu le champion du monde, Cicéron a fait assez bien pour se placer dans les 10% parmi les participants humains.

Pendant le projet, Jacob – un membre de l'équipe Meta – a été frappé par le fait que Cicéron s'est appuyé sur un modèle de langue pour générer sa boîte de dialogue avec d'autres joueurs. Il ressentait un potentiel inexploité. Le but de l'équipe, a-t-il dit, “devait construire le meilleur modèle de langue que nous pouvions dans le but de jouer à ce jeu.” Mais que se passe-t-il si ils se concentraient à la place sur la construction du meilleur jeu possible pour améliorer les performances des modèles de grande langue?

Interactions consensuelles

En 2023, Jacob a commencé à poursuivre cette question au MIT, travaillant avec Yikang Shen, Gabriele Farinaet son conseiller, Jacob Andreassur ce qui allait devenir le jeu consensuel. L'idée principale est venue de l'imagination d'une conversation entre deux personnes comme un jeu coopératif, où le succès se produit lorsqu'un auditeur comprend ce qu'un orateur essaie de transmettre. En particulier, le jeu consensuel est conçu pour aligner les deux systèmes du modèle de langue – le générateur, qui gère les questions génératives, et le discriminateur, qui gère les questions discriminantes.

Après quelques mois d'arrêts et de départs, l'équipe a accumulé ce principe en un match complet. Tout d'abord, le générateur reçoit une question. Il peut provenir d'un humain ou d'une liste préexistante. Par exemple, «Où est né Barack Obama?» Le générateur obtient ensuite des réponses candidates, disons Honolulu, Chicago et Nairobi. Encore une fois, ces options peuvent provenir d'un humain, d'une liste ou d'une recherche effectuée par le modèle de langue lui-même.

Mais avant de répondre, le générateur est également informé s'il devrait répondre à la question correctement ou à tort, selon les résultats d'un tirage au sort équitable.

S'il s'agit de têtes, la machine tente de répondre correctement. Le générateur envoie la question initiale, ainsi que sa réponse choisie, au discriminatrice. Si le discriminateur détermine que le générateur a intentionnellement envoyé la réponse correcte, il obtient chacun un point, comme une sorte d'incitation.

Si la pièce atterrit sur la queue, le générateur envoie ce qu'il pense être la mauvaise réponse. Si le discriminateur décide qu'il a été délibérément donné la mauvaise réponse, ils obtiennent tous les deux un point. L'idée ici est d'inciter l'accord. “C'est comme enseigner à un chien un truc”, a expliqué Jacob. “Vous leur donnez un régal quand ils font la bonne chose.”

Le générateur et le discriminateur commencent également par quelques «croyances» initiales. Ceux-ci prennent la forme d'une distribution de probabilité liée aux différents choix. Par exemple, le générateur peut croire, sur la base des informations qu'elle a glanées sur Internet, qu'il y a 80% de chances qu'Obama est née à Honolulu, 10% de chances qu'il soit né à Chicago, 5% de chances de Nairobi et d'un 5% de chances d'autres endroits. Le discriminateur peut commencer par une distribution différente. Bien que les deux «joueurs» soient toujours récompensés pour avoir conclu un accord, ils obtiennent également des points ancrés pour s'écarter trop de leurs condamnations d'origine. Cet arrangement encourage les joueurs à incorporer leurs connaissances du monde – encore une fois sur Internet – dans leurs réponses, ce qui devrait rendre le modèle plus précis. Sans quelque chose comme ça, ils pourraient s'entendre sur une réponse totalement mauvaise comme Delhi, mais toujours accumuler des points.