Google DeepMind’s Demis Hassabis Says Gemini Is a New Breed of AI

Demi Hassabis a Je n'ai jamais été timide de proclamer de grands sauts dans l'intelligence artificielle. Plus particulièrement, il est devenu célèbre en 2016 après qu'un bot appelé Alphago s'est appris à jouer au jeu de société complexe et subtil avec les compétences et l'ingéniosité surhumaines.

Aujourd'hui, Hassabis dit que son équipe de Google a fait un plus grand pas en avant – pour lui, l'entreprise et, espérons-le, le champ plus large de l'IA. Gemini, le modèle d'IA annoncé par Google Today, dit-il, ouvre un chemin non déformé dans l'IA qui pourrait conduire à de nouvelles percées majeures.

“En tant que neuroscientifique et informaticien, je voulais depuis des années pour essayer de créer une sorte de nouvelle génération de modèles d'IA qui sont inspirés par la façon dont nous interagissons et comprenons le monde, à travers tous nos sens”, a déclaré Hassabis à Wired avant l'annonce aujourd'hui. Les Gémeaux sont «un grand pas vers ce type de modèle», dit-il. Google décrit les Gémeaux comme «multimodaux» car ils peuvent traiter les informations sous forme de texte, d'audio, d'images et de vidéo.

Une version initiale de Gemini sera disponible via Chatbot Bard de Google à partir d'aujourd'hui. La société affirme que la version la plus puissante du modèle, Gemini Ultra, sera publiée l'année prochaine et surpassera GPT-4, le modèle derrière Chatgpt, sur plusieurs repères communs. Les vidéos publiées par Google montrent des tâches de résolution de Gemini qui impliquent un raisonnement complexe, ainsi que des exemples du modèle combinant des informations à partir d'images de texte, d'audio et de vidéo.

“Jusqu'à présent, la plupart des modèles ont en quelque sorte une multimodalité approximée en formant des modules séparés, puis en les cousant ensemble”, dit Hassabis, dans ce qui semblait être une référence voilée à la technologie d'Openai. “C'est OK pour certaines tâches, mais vous ne pouvez pas avoir ce genre de raisonnement complexe profond dans l'espace multimodal.”

OpenAI a lancé une mise à niveau vers Chatgpt en septembre qui a donné au chatbot la possibilité de prendre des images et de l'audio en entrée en plus du texte. OpenAI n'a pas divulgué de détails techniques sur la façon dont GPT-4 fait ceci ou la base technique de ses capacités multimodales.

Jouer au rattrapage

Google a développé et lancé des Gémeaux à une vitesse frappante par rapport aux projets d'IA précédents dans l'entreprise, motivé par la récent préoccupation concernant la menace que les développements d'Openai et d'autres pourraient poser à l'avenir de Google.

À la fin de 2022, Google a été considéré comme le leader de l'IA parmi les grandes entreprises technologiques, les rangs de chercheurs d'IA apportant des contributions majeures au domaine. Le PDG Sundar Pichai avait déclaré sa stratégie pour l'entreprise comme étant «IA d'abord», et Google avait réussi à ajouter l'IA à bon nombre de ses produits, de la recherche aux smartphones.

Peu de temps après le lancement de Chatgpt par Openai, une startup originale avec moins de 800 employés, Google n'était plus considéré comme le premier dans l'IA. La capacité de Chatgpt à répondre à toutes sortes de questions avec une intelligence qui pourrait sembler surhumaine a soulevé la perspective que le moteur de recherche précieux de Google soit non tué, en particulier lorsque Microsoft, un investisseur à Openai, a poussé la technologie sous-jacente dans son propre moteur de recherche Bing.

Stuffiond en action, Google a bousculé pour lancer Bard, un concurrent de Chatgpt, a réorganisé son moteur de recherche et a précipité un nouveau modèle, Palmier 2pour rivaliser avec celui derrière Chatgpt. Hassabis a été promu de diriger le laboratoire d'IA basé à Londres créé lorsque Google a acquis sa startup DeepMind à la tête d'une nouvelle division AI combinant cette équipe avec le principal groupe de recherche sur l'IA de Google, Google Brain. En mai, lors de la conférence des développeurs de Google, E / S, Pichai a annoncé qu'il formait un nouveau successeur plus puissant à Palm appelé Gemini. Il ne l'a pas dit à l'époque, mais le projet a été nommé pour marquer le jumelage des deux principaux laboratoires AI de Google, et en clin d'œil au projet Gemini de la NASA, qui a ouvert la voie aux débarquements d'Apollo Moon.