Google Reveals Gemini 2, AI Agents, and a Prototype Personal Assistant
Google une seule fois voulait organiser l’information mondiale. Aujourd’hui, il semble plus déterminé à intégrer ces informations dans des algorithmes d’intelligence artificielle qui deviennent des assistants virtuels dévoués, omniprésents et de plus en plus puissants.
Google a annoncé aujourd'hui Gemini 2, une nouvelle version de son modèle phare d'IA qui a été formé pour planifier et exécuter des tâches sur les ordinateurs d'un utilisateur et sur le Web, et qui peut discuter comme une personne et donner un sens au monde physique en tant que majordome virtuel.
“Je rêve depuis très, très longtemps d'un assistant numérique universel comme tremplin vers l'intelligence artificielle générale”, a déclaré Demis Hassabis, PDG de Google DeepMind, à WIRED avant l'annonce d'aujourd'hui, faisant allusion à l'idée de Une IA qui peut éventuellement faire tout ce qu'un cerveau humain peut faire.
Gemini 2 est avant tout une nouvelle avancée dans l'intelligence de l'IA, telle que mesurée par les critères utilisés pour évaluer de telles choses. Le modèle a également des capacités « multimodales » améliorées, ce qui signifie qu’il est plus compétent dans l’analyse vidéo et audio et dans la conversation vocale. Le modèle a également été formé pour planifier et exécuter des actions sur des ordinateurs.
“Au cours de la dernière année, nous avons investi dans le développement de modèles plus agents”, a déclaré aujourd'hui le PDG de Google, Sundar Pichai, dans un communiqué. Ces modèles, a ajouté Pichai, « peuvent mieux comprendre le monde qui vous entoure, penser à plusieurs étapes à l’avance et agir en votre nom, sous votre supervision ».
Les entreprises technologiques estiment que les agents dits IA pourraient constituer le prochain grand pas en avant pour la technologie, les chatbots se chargeant de plus en plus des tâches pour les utilisateurs. En cas de succès, les agents IA pourraient révolutionner l’informatique personnelle en réservant régulièrement des vols, en organisant des réunions, ainsi qu’en analysant et en organisant des documents. Mais faire en sorte que la technologie suive de manière fiable des commandes ouvertes reste un défi, avec le risque que des erreurs se traduisent par des erreurs coûteuses et difficiles à annuler.
Néanmoins, Google pense aller dans la bonne direction et introduit deux agents d'IA spécialisés pour démontrer le potentiel agent de Gemini 2 : un pour le codage et un autre pour la science des données. Plutôt que de simplement compléter automatiquement des sections de code, comme le font les outils d'IA actuels, ces agents peuvent effectuer des tâches plus complexes, telles que vérifier le code dans des référentiels ou combiner des données pour permettre une analyse.
La société présente également Project Mariner, une extension Chrome expérimentale capable de prendre en charge la navigation Web pour effectuer des tâches utiles aux utilisateurs. WIRED a eu droit à une démonstration en direct au siège de Google DeepMind à Londres. L'agent a été invité à l'aider à planifier un repas, ce qui l'a amené à naviguer sur le site Web de la chaîne de supermarchés Sainsbury's, à se connecter au compte d'un utilisateur, puis à ajouter les articles pertinents à son panier. Lorsque certains articles n'étaient pas disponibles, le modèle choisissait des remplacements appropriés en fonction de ses propres connaissances en cuisine. Google a refusé d'effectuer d'autres tâches, suggérant que cela reste un travail en cours.
“Mariner est notre exploration, pour le moment un prototype de recherche, sur la façon dont on réinvente l'interface utilisateur avec l'IA”, explique Hassabis.
Google a lancé Gemini en décembre 2023 dans le cadre d'un effort pour rattraper OpenAI, la startup derrière le très populaire chatbot ChatGPT. Bien qu'il ait investi massivement dans l'IA et contribué à des avancées clés en matière de recherche, Google a vu OpenAI salué comme le nouveau leader de l'IA et son chatbot a même été présenté comme peut-être un meilleur moyen de rechercher sur le Web. Avec ses modèles Gemini, Google propose désormais un chatbot aussi performant que ChatGPT. Il a également ajouté l’IA générative à la recherche et à d’autres produits.