Project Astra Is Google’s ‘Multimodal’ Answer to the New ChatGPT
Pulkit Agrawalprofesseur adjoint au MIT qui travaille sur l'IA et la robotique, affirme que les dernières démos de Google et Openai sont impressionnantes et montrent à quelle vitesse les modèles d'IA multimodaux ont progressé. OpenAI a lancé GPT-4V, un système capable d'analyser les images en septembre 2023. Il a été impressionné que les Gémeaux soient capables de donner un sens à la vidéo en direct – par exemple, interprétant correctement les modifications apportées à un diagramme sur un tableau blanc en temps réel. La nouvelle version d'Openai de Chatgpt semble capable de la même chose.
Agrawal affirme que les assistants démo par Google et OpenAI pourraient fournir de nouvelles données de formation aux entreprises alors que les utilisateurs interagissent avec les modèles du monde réel. “Mais ils doivent être utiles”, ajoute-t-il. «La grande question est de savoir pourquoi les gens les utiliseront – ce n'est pas très clair.»
Google dit que Project Astra sera disponible via une nouvelle interface appelée Gemini Live plus tard cette année. Hassabis a déclaré que la société teste toujours plusieurs prototypes de lunettes intelligentes et n'avait pas encore pris de décision sur l'opportunité de lancer aucune.
Les capacités d'Astra pourraient fournir à Google une chance de redémarrer une version de ses lunettes intelligentes en verre malheureuses, bien que les efforts pour créer du matériel adapté à l'IA génératrice aient trébuché jusqu'à présent. Malgré les démos impressionnantes d'Openai et Google, les modaux multimodaux ne peuvent pas comprendre pleinement le monde physique et les objets en son sein, en plaçant des limites à ce qu'ils pourront faire.
«Être capable de construire un modèle mental du monde physique qui vous entoure est absolument essentiel pour construire une intelligence plus humaine», dit Brenden Lakeprofesseur agrégé à l'Université de New York qui utilise l'IA pour explorer l'intelligence humaine.
Lake note que les meilleurs modèles d'IA d'aujourd'hui sont toujours très axés sur le langage car la majeure partie de leur apprentissage provient du texte étendu des livres et du Web. Ceci est fondamentalement différent de la façon dont la langue est apprise par les humains, qui le ramassent tout en interagissant avec le monde physique. «C'est en arrière par rapport au développement de l'enfant», dit-il à propos du processus de création de modèles multimodaux.
Hassabis estime que les modèles d'IA imprécise avec une compréhension plus approfondie du monde physique seront essentiels pour progresser dans l'IA et pour rendre les systèmes comme Project Astra plus robustes. D'autres frontières de l'IA, y compris le travail de Google Deepmind sur les programmes d'IA, pourraient aider, dit-il. Hassabis et d'autres espèrent que ce travail pourrait être révolutionnaire pour la robotique, un domaine dans lequel Google investit également.
“Un assistant d'agent universel multimodal est sur le genre de piste de l'intelligence générale artificielle”, a déclaré Hassabis en référence à un point futur espéré mais largement indéfini où les machines peuvent faire tout et tout ce qu'un esprit humain peut. “Ce n'est pas Agi ou quoi que ce soit, mais c'est le début de quelque chose.”
Mise à jour du 5-14-2024, 16 h 15 EDT: Cet article a été mis à jour pour clarifier le nom complet du projet de Google.