Google’s Chess Experiments Reveal How to Boost the Power of AI

Son groupe a décidé de le découvrir. Ils ont construit la nouvelle version diversifiée d'Alphazero, qui comprend plusieurs systèmes d'IA qui se sont entraînés indépendamment et sur une variété de situations. L'algorithme qui régit le système global agit comme une sorte de entremetteur virtuel, a déclaré Zahavy: celui conçu pour identifier quel agent a les meilleures chances de réussir quand il est temps de faire un pas. Lui et ses collègues ont également codé dans un «bonus de diversité» – une récompense pour le système chaque fois qu'elle tira des stratégies d'une grande sélection de choix.

pièce d'échecs

Lorsque le nouveau système a été mis en liberté pour jouer ses propres jeux, l'équipe a observé beaucoup de variété. Le joueur d'IA diversifié a expérimenté de nouvelles ouvertures efficaces et de nouvelles – mais son – des décisions sur des stratégies spécifiques, comme quand et où le château. Dans la plupart des matchs, il a battu l'alphazer d'origine. L'équipe a également constaté que la version diversifiée pouvait résoudre deux fois plus de puzzles de défi que l'original et pourrait résoudre plus de la moitié du catalogue total des puzzles de Penrose.

«L'idée est qu'au lieu de trouver une solution, ou une seule politique, qui battrait n'importe quel joueur, ici [it uses] L'idée de la diversité créative », a déclaré Cully.

Avec l'accès à des jeux plus et différents, a déclaré Zahavy, l'alphazer diversifié avait plus d'options pour des situations collantes lorsqu'ils sont apparus. “Si vous pouvez contrôler le type de jeux qu'il voit, vous contrôlez essentiellement comment il va généraliser”, a-t-il déclaré. Ces récompenses intrinsèques étranges (et leurs mouvements associés) pourraient devenir des forces pour divers comportements. Ensuite, le système pourrait apprendre à évaluer et à valoriser les approches disparates et à voir quand ils ont le plus réussi. «Nous avons constaté que ce groupe d'agents peut réellement parvenir à un accord sur ces postes.»

Et, surtout, les implications s'étendent au-delà des échecs.

Créativité réelle

Cully a déclaré qu'une approche diversifiée peut aider n'importe quel système d'IA, pas seulement celles basées sur l'apprentissage du renforcement. Il a longtemps utilisé la diversité pour former des systèmes physiques, notamment un robot à six pattes Cela a été autorisé à explorer divers types de mouvements, avant de le «blessé» intentionnellement, lui permettant de continuer à se déplacer en utilisant certaines des techniques qu'il avait développées auparavant. “Nous essayions juste de trouver des solutions différentes de toutes les solutions précédentes que nous avons trouvées jusqu'à présent.” Récemment, il a également collaboré avec des chercheurs pour utiliser la diversité pour identifier des candidats prometteurs de nouveaux médicaments et développer des stratégies de trading de stock efficaces.

“L'objectif est de générer une grande collection de milliers de solutions différentes, où chaque solution est très différente de la suivante”, a déclaré Cully. Ainsi – tout comme le joueur d'échecs diversifié l'a appris à faire – pour chaque type de problème, le système global pourrait choisir la meilleure solution possible. Le système d'IA de Zahavy, a-t-il dit, montre clairement comment «la recherche de stratégies diverses aide à sortir des sentiers battus et à trouver des solutions».

Zahavy soupçonne que pour que les systèmes d'IA réfléchissent de manière créative, les chercheurs doivent simplement les amener à considérer plus d'options. Cette hypothèse suggère un lien curieux entre les humains et les machines: peut-être que l'intelligence n'est qu'une question de pouvoir de calcul. Pour un système d'IA, peut-être que la créativité se résume à la possibilité de considérer et de sélectionner parmi un buffet d'options suffisamment grand. Alors que le système gagne des récompenses pour sélectionner une variété de stratégies optimales, ce type de résolution créative de problèmes est renforcé et renforcé. En fin de compte, en théorie, il pourrait imiter tout type de stratégie de résolution de problèmes reconnue comme une stratégie créative chez l'homme. La créativité deviendrait un problème de calcul.

LiemHetcharat a noté qu'un système d'IA diversifié est peu susceptible de résoudre complètement le problème de généralisation plus large dans l'apprentissage automatique. Mais c'est un pas dans la bonne direction. «C'est atténuer l'une des lacunes», a-t-elle déclaré.

Plus pratiquement, les résultats de Zahavy résonnent avec les efforts récents qui montrent comment la coopération peut conduire à de meilleures performances sur les tâches dures chez les humains. La plupart des succès sur la liste Billboard 100 ont été écrits par des équipes d'auteurs-compositeurs, par exemple, pas des individus. Et il y a encore de la place à l'amélioration. L'approche diversifiée est actuellement coûteuse en calcul, car elle doit considérer tellement plus de possibilités qu'un système typique. Zahavy n'est pas non plus convaincu que même l'alphazer diversifié capture l'ensemble du spectre des possibilités.

«Je suis toujours [think] Il y a de la place pour trouver différentes solutions », a-t-il déclaré. «Il n'est pas clair pour moi que compte tenu de toutes les données du monde, il y a [only] Une réponse à chaque question.


Histoire originale réimprimé avec la permission de Combien de magazine, une publication éditoriale indépendante du Fondation Simons dont la mission est d'améliorer la compréhension du public de la science en couvrant les développements de la recherche et les tendances des mathématiques et des sciences physiques et de la vie.