Google DeepMind’s Chatbot-Powered Robot Is Part of a Bigger Revolution
Dans un bureau de plan ouvert encombré à Mountain View, en Californie, un robot à roues hauts et minces a été occupé révélé aujourd'hui. Le robot utilise la dernière version du modèle GEMINI Langage Gemini de Google pour analyser les commandes et trouver son chemin.
Lorsqu'on lui a dit un humain «Trouvez-moi un endroit pour écrire», par exemple, le robot se détruit consciencieusement, conduisant la personne à un tableau blanc immaculé situé quelque part dans le bâtiment.
La capacité de Gemini à gérer la vidéo et le texte – en plus de sa capacité à ingérer de grandes quantités d'informations sous la forme de visites vidéo précédemment enregistrées du bureau – permet au robot “Google Helper” pour donner un sens à son environnement et naviguer correctement lorsqu'on lui donne des commandes qui nécessitent un raisonnement de bon sens. Le robot combine des Gémeaux avec un algorithme qui génère des actions spécifiques pour le robot à prendre, comme le tournant, en réponse aux commandes et à ce qu'elle voit devant elle.
Lorsque Gemini a été introduit en décembre, Demis Hassabis, PDG de Google Deepmind, a déclaré à Wired que ses capacités multimodales débloqueraient probablement de nouvelles capacités de robot. Il a ajouté que les chercheurs de l'entreprise étaient difficiles à tester le potentiel robotique du modèle.
Dans Un nouveau papier Décrivant le projet, les chercheurs derrière l'œuvre indiquent que leur robot s'est avéré jusqu'à 90% fiable à naviguer, même lorsqu'on lui a donné des commandes délicates telles que «où ai-je quitté mon caboteur?» Le système de Deepmind «a considérablement amélioré le naturel de l'interaction humaine-robot et a considérablement augmenté la convivialité du robot», écrit l'équipe.
Avec l'aimable autorisation de Google Deepmind
Photographie: Muinat Abdul; Google Deepmind
La démo illustre parfaitement le potentiel pour que de grands modèles de langage atteignent le monde physique et effectuent un travail utile. Les Gémeaux et d'autres chatbots fonctionnent principalement dans les limites d'un navigateur ou d'une application Web, bien qu'ils soient de plus en plus capables de gérer les entrées visuelles et auditives, comme Google et Openai l'ont démontré récemment. En mai, Hassabis a montré une version améliorée de Gemini capable de donner un sens à une disposition de bureau comme le montre une caméra pour smartphone.
Les laboratoires de recherche académique et de l'industrie sont en cours pour voir comment les modèles linguistiques pourraient être utilisés pour améliorer les capacités des robots. Le mai programme Pour la Conférence internationale sur la robotique et l'automatisation, un événement populaire pour les chercheurs en robotique, énumère près de deux douzaines d'articles qui impliquent l'utilisation de modèles de langage de vision.
Les investisseurs sont verser de l'argent dans les startups visant à appliquer les progrès de l'IA à la robotique. Plusieurs des chercheurs impliqués dans le projet Google ont depuis quitté l'entreprise pour trouver une startup appelée Intelligence physiquequi a reçu un financement initial de 70 millions de dollars; Il s'efforce de combiner de grands modèles de langue avec une formation réelle pour donner aux robots des capacités générales de résolution de problèmes. Skild Aifondée par des robotiques à l'Université Carnegie Mellon, a un objectif similaire. Ce mois-ci, il a annoncé un financement de 300 millions de dollars.
Il y a quelques années à peine, un robot aurait besoin d'une carte de son environnement et de commandes soigneusement choisies pour naviguer avec succès. Les modèles de grandes langues contiennent des informations utiles sur le monde physique, et des versions plus récentes formées sur les images et la vidéo ainsi que le texte, appelées modèles de langage de vision, peuvent répondre à des questions qui nécessitent une perception. Gemini permet au robot de Google d'analyser les instructions visuelles ainsi que celles parlées, suivant un croquis sur un tableau blanc qui montre une route vers une nouvelle destination.
Dans leur article, les chercheurs disent qu'ils prévoient de tester le système sur différents types de robots. Ils ajoutent que les Gémeaux devraient être capables de comprendre des questions plus complexes, telles que “ont-ils ma boisson préférée aujourd'hui?” d'un utilisateur avec beaucoup de canettes de coke vides sur son bureau.