The Quest to Give AI Chatbots a Hand—and an Arm
Peter Chen, PDG de la société de logiciels de robot Covariant, se trouve devant une interface chatbot ressemblant à celle utilisée pour communiquer avec Chatgpt. «Montrez-moi le fourre-tout devant vous», tape-t-il. En réponse, un flux vidéo apparaît, révélant un bras de robot sur un bac contenant divers articles – une paire de chaussettes, un tube de puces et une pomme parmi eux.
Le chatbot peut discuter des éléments qu'il voit, mais les manipule également. Lorsque câblé suggère que Chen lui demande de prendre un morceau de fruit, le bras se détache, saisit doucement la pomme, puis le déplace vers une autre poubelle à proximité.
Ce chatbot pratique est une étape vers le fait de donner aux robots le type de capacités générales et flexibles présentées par des programmes comme Chatgpt. Il y a de l'espoir que l'IA pourrait enfin résoudre la difficulté de longue date de la programmation des robots et les faire faire plus qu'un ensemble étroit de tâches.
«Ce n'est pas du tout controversé à ce stade de dire que les modèles de fondation sont l'avenir de la robotique», explique Chen, en utilisant un terme pour les modèles d'apprentissage machine à usage général à grande échelle développés pour un domaine particulier. Le chatbot pratique qu'il m'a montré est alimenté par un modèle développé par Covariant appelé RFM-1, pour le modèle de fondation robot. Comme ceux qui sont derrière Chatgpt, les Gémeaux de Google et d'autres chatbots, il a été formé avec de grandes quantités de texte, mais elle a également été nourrie monde.
Y compris que les données supplémentaires produisent un modèle non seulement couramment le langage mais aussi en action et que cela est capable de relier les deux. RFM-1 peut non seulement discuter et contrôler un bras de robot, mais aussi générer des vidéos montrant des robots faisant des tâches différentes. Lorsqu'il est invité, RFM-1 montrera comment un robot devrait saisir un objet dans un bac encombré. «Il peut absorber toutes ces différentes modalités qui comptent pour la robotique, et il peut également en sortir n'importe lequel», explique Chen. “C'est un peu époustouflant.”
Vidéo générée par le modèle RFM-1 AI.Gracieuseté de Covariant
Vidéo générée par le modèle RFM-1 AI.Gracieuseté de Covariant
Le modèle a également montré qu'il peut apprendre à contrôler le matériel similaire et non dans ses données de formation. Avec une formation plus approfondie, cela pourrait même signifier que le même modèle général pourrait exploiter un robot humanoïde, explique Pieter Abbeel, cofondateur et scientifique en chef de Covariant, qui a lancé l'apprentissage du robot. En 2010, il a dirigé un projet qui a formé un robot Pour plier les serviettes– Quoi qu'il en soit lentement – et il a également travaillé à Openai avant qu'il ne cesse de faire des recherches de robots.
Covariant, fondée en 2017, vend actuellement des logiciels qui utilisent l'apprentissage automatique pour permettre aux armes de robot de choisir des articles dans des bacs dans des entrepôts, mais ils sont généralement limités à la tâche pour laquelle ils se sont entraînés. Abbeel dit que des modèles comme RFM-1 pourraient permettre aux robots de transformer leurs pinces en nouvelles tâches beaucoup plus couramment. Il compare la stratégie de Covariant à la façon dont Tesla utilise les données des voitures qu'il a vendues pour former ses algorithmes autonomes. «C'est en quelque sorte la même chose ici que nous jouons», dit-il.
Abbeel et ses collègues covariants sont loin d'être les seuls robotistes en espérant que les capacités des modèles de grande langue derrière le chatppt et les programmes similaires pourraient entraîner une révolution de la robotique. Des projets comme RFM-1 ont montré des résultats précoces prometteurs. Mais la quantité de données peut être nécessaire pour former des modèles qui font des robots qui ont des capacités beaucoup plus générales – et comment les rassembler – est une question ouverte.