New AI Model Can Simulate Super Mario Bros. After Watching Gameplay Footage

Le mois dernier, Google Le modèle GANENGEN AI a montré que techniques de diffusion d'image généralisées peut être utilisé pour générer une version passable et jouable de Perte. Maintenant, les chercheurs utilisent des techniques similaires avec un modèle appelé Mariovgg pour voir si l'IA peut générer une vidéo plausible de Super Mario Bros. en réponse aux entrées utilisateur.

Les résultats de Le modèle Mariovgg-disponible En tant que papier préparatif Publié par la Crypto-Adjacent IA Company Protocole virtuel– Affichez toujours beaucoup de problèmes apparents, et c'est trop lent pour tout ce qui approche du gameplay en temps réel. Mais les résultats montrent comment même un modèle limité peut déduire certaines dynamiques impressionnantes de physique et de gameplay juste en étudiant un peu de données vidéo et d'entrée.

Les chercheurs espèrent que cela représente une première étape vers «la production et la démonstration d'un générateur de jeux vidéo fiable et contrôlable» ou peut-être même «remplacer le développement de jeux et les moteurs de jeu entièrement en utilisant des modèles de génération de vidéos» à l'avenir.

Regarder 737 000 images de Mario

Pour former leur modèle, les chercheurs Mariovgg (utilisateurs de GitHub Erniechew et Brian Lim sont répertoriés comme contributeurs) a commencé par un ensemble de données publiques de Super Mario Bros. Le gameplay contenant 280 'niveaux “de données d'entrée et d'image disposés à des fins d'apprentissage automatique (le niveau 1-1 a été supprimé des données de formation afin que des images puissent être utilisées dans l'évaluation). Les plus de 737 000 cadres individuels dans ce jeu de données ont été “prétraités” en morceaux de 35 trames afin que le modèle puisse commencer à apprendre à quoi ressemblaient les résultats immédiats de diverses entrées.

Pour «simplifier la situation de gameplay», les chercheurs ont décidé de se concentrer uniquement sur deux entrées potentielles dans l'ensemble de données: «Exécutez à droite» et «Exécuter à droite et à sauter». Même cet ensemble de mouvements limité a présenté quelques difficultés pour le système d'apprentissage automatique, car le préprocesseur a dû regarder en arrière pendant quelques images avant un saut pour déterminer si et quand la “course” a commencé. Tous les sauts qui comprenaient des ajustements en l'air (c'est-à-dire le bouton “gauche”) ont également dû être jetés parce que “cela introduirait le bruit à l'ensemble de données de formation”, écrivent les chercheurs.

Après le prétraitement (et environ 48 heures de formation sur une seule carte graphique RTX 4090), les chercheurs ont utilisé une norme convolution et émoi Processus pour générer de nouvelles cadres de vidéo à partir d'une image de jeu de départ statique et une entrée de texte («exécuter» ou «sauter» dans ce cas limité). Bien que ces séquences générées ne durent que quelques images, le dernier cadre d'une séquence peut être utilisé comme le premier d'une nouvelle séquence, créant des vidéos de jeu de toute longueur qui montrent toujours “un gameplay cohérent et cohérent”, selon les chercheurs.

Super Mario 0.5

Même avec toute cette configuration, Mariovgg ne génère pas exactement une vidéo lisse et soyeuse qui ne se distingue d'un vrai jeu NES. Pour plus d'efficacité, les chercheurs ont dépassé les cadres de sortie de la résolution NES 256 × 240 à un 64 × 48 beaucoup plus boueux. Ils condensent également la valeur de 35 images de temps vidéo en sept images générées qui sont distribuées “à des intervalles uniformes”, créant une vidéo “gameplay” qui est beaucoup plus rugueuse que la vraie sortie de jeu.

Malgré ces limites, le modèle Mariovgg a encore du mal à aborder la génération de vidéos en temps réel, à ce stade. Le seul RTX 4090 utilisé par les chercheurs a pris six secondes entières pour générer une séquence vidéo de six trames, représentant un peu plus d'une demi-seconde de vidéo, même à une fréquence d'images extrêmement limitée. Les chercheurs admettent que ce n'est “pas pratique et convivial pour les jeux vidéo interactifs”, mais espèrent que les futures optimisations de la quantification du poids (et peut-être l'utilisation de plus de ressources informatiques) pourraient améliorer ce taux.

Avec ces limites à l'esprit, cependant, Mariovgg peut créer une vidéo passablement crédible de Mario courir et sauter à partir d'une image de départ statique, semblable à Genie Genie Maker de Google. Le modèle a même été capable de “apprendre la physique du jeu uniquement à partir de cadres vidéo dans les données de formation sans règles explicites à code dur”, écrivent les chercheurs. Cela comprend des comportements inférieurs comme Mario qui tombe lorsqu'il sort du bord d'une falaise (avec une gravité crédible) et (généralement) interrompant le mouvement vers l'avant de Mario lorsqu'il est adjacent à un obstacle, écrivent les chercheurs.

Alors que Mariovgg était concentré sur la simulation des mouvements de Mario, les chercheurs ont constaté que le système pouvait efficacement halluciner de nouveaux obstacles pour Mario lorsque la vidéo défile à un niveau imaginé. Ces obstacles “sont cohérents avec le langage graphique du jeu”, écrivent les chercheurs, mais ne peuvent pas être actuellement influencés par les invites d'utilisateurs (par exemple, mettre une fosse devant Mario et le faire sauter par-dessus).

Rassemblez-vous

Comme tous les modèles d'IA probabilistes, Mariovgg a une tendance frustrante à donner parfois des résultats complètement inutilisants. Parfois, cela signifie simplement ignorer les invites d'entrée des utilisateurs (“Nous observons que le texte d'action d'entrée n'est pas obéi tout le temps”, écrivent les chercheurs). D'autres fois, cela signifie hallucinant Des problèmes visuels évidents: Mario atterrit parfois à l'intérieur des obstacles, traverse des obstacles et des ennemis, clignote des couleurs différentes, rétrécit / pousse d'un cadre à l'autre, ou disparaît complètement pour plusieurs cadres avant de réapparaître.

Une vidéo particulièrement absurde partagée par les chercheurs montre que Mario tombe à travers le pont, devenant un Cheep-Cheep, puis remonte à travers les ponts et se transformant en Mario. C'est le genre de chose que nous nous attendons à voir d'un Wonder Flower, pas d'une vidéo IA de l'original Super Mario Bros.

Les chercheurs supposent que la formation plus longtemps sur “des données de gameplay plus diverses” pourrait aider à ces problèmes importants et aider leur modèle à simuler plus que la simple course et sauter inexorablement vers la droite. Pourtant, Mariovgg est une preuve amusante de concept que même des données de formation et des algorithmes de formation limités peuvent créer des modèles de départ décents de jeux de base.

Cette histoire est apparue à l'origine sur ARS TECHNICA.