Google’s Flagship AI Model Gets a Mighty Fast Upgrade
Le modèle GEMINI AI d'Alphabet est public depuis seulement deux mois, mais la société publie déjà une mise à niveau. Gemini Pro 1.5, lancé avec une disponibilité limitée aujourd'hui, est plus puissant que son prédécesseur et peut gérer d'énormes quantités de texte, de vidéo ou de contribution audio à la fois.
Demis Hassabis, PDG de Google Deepmind, qui a développé le nouveau modèle, compare sa vaste capacité de contribution à la mémoire de travail d'une personne, ce qu'il a exploré il y a des années en tant que neuroscientifique. «La grande chose à propos de ces capacités fondamentales est qu'elles débloquent une sorte de choses auxiliaires que le modèle peut faire», dit-il.
Dans une démo, Google Deepmind a montré Gemini Pro 1.5 analysant un PDF de 402 pages de la transcription des communications Apollo 11. Le modèle a été invité à trouver des portions humoristiques et a souligné plusieurs instants, comme lorsque les astronautes ont déclaré qu'un retard de communication était dû à une pause sandwich. Une autre démo a montré le modèle répondant aux questions sur des actions spécifiques dans un film de Buster Keaton. La version précédente de Gemini n'aurait pu répondre à ces questions que pour des quantités beaucoup plus courtes de texte ou de vidéo. Google espère que les nouvelles capacités permettra aux développeurs de créer de nouveaux types d'applications en plus du modèle.
“Il est vraiment très magique de voir comment le modèle effectue ce type de raisonnement sur chaque page, chaque mot”, explique Oriol Vinyals, chercheur chez Google Deepmind.
Google dit que Gemini Pro 1.5 peut ingérer et donner un sens à une heure de vidéo, 11 heures d'audio, 700 000 mots ou 30 000 lignes de code à la fois – des moments de plus que les autres modèles d'IA, y compris le GPT-4 d'OpenAI, qui alimente Chatgpt. La société n'a pas divulgué les détails techniques derrière cet exploit. Hassabis dit qu'une utilisation pour des modèles qui peuvent gérer de grandes quantités de texte, testées par des chercheurs de Google Deepmind, identifie les plats à emporter importants dans les discussions de discorde avec des milliers de messages.
Gemini Pro 1.5 est également plus capable – du moins pour sa taille – comme mesuré par le score du modèle sur plusieurs repères populaires. Le nouveau modèle exploite une technique précédemment inventée par les chercheurs de Google pour extraire plus de performances sans nécessiter plus de puissance de calcul. La technique, appelée mélange d'experts, active sélectivement des parties de l'architecture d'un modèle qui conviennent le mieux à la résolution d'une tâche donnée, ce qui le rend plus efficace pour s'entraîner et fonctionner.
Google dit que Gemini Pro 1.5 est aussi capable que son offre la plus puissante, Gemini Ultra, dans de nombreuses tâches, bien qu'elle soit un modèle beaucoup plus petit. Hassabis dit qu'il n'y a aucune raison pour que la même technique utilisée pour améliorer Gemini Pro ne peut pas être appliquée pour booster les Gémeaux Ultra.
La version améliorée de Gemini Pro sera mise à la disposition des développeurs via AI Studio, un bac à sable pour tester les capacités du modèle et à un nombre limité de développeurs à travers l'API de plate-forme Cloud Vertex AI de Google. Il n'y a pas encore de date pour une version générale.
Google lance également de nouveaux outils pour aider les développeurs à utiliser les Gémeaux dans leurs applications, y compris de nouvelles façons de puiser dans la capacité des modèles à analyser la vidéo et l'audio. La société a également déclaré qu'elle ajoute de nouvelles fonctionnalités alimentées par Gemini à son outil de codage Web, Project IDX, y compris les moyens de déboguer et de tester le code.
La vitesse de la mise à niveau de Gemini est le signe d'une race furieuse en IA lancée par le succès de Chatgpt. Plus tôt cette semaine, OpenAI a annoncé qu'il donnait à Chatgpt la possibilité de se souvenir des informations utiles des conversations sur de longues périodes. La semaine dernière, Google a rebaptisé son chatbot Bard et a annoncé que Gemini Ultra serait disponible avec un abonnement payant.
Le rythme frénétique du progrès dans l'IA génératif est en contradiction avec les inquiétudes quant aux risques que la technologie pourrait poser. Google dit qu'il a mis Gemini Pro 1.5 à des tests approfondis et que la fourniture d'un accès limité offre un moyen de recueillir des commentaires sur les risques potentiels. La société affirme qu'elle a également fourni aux chercheurs de l'Institut britannique de la sécurité AI avec accès à ses modèles les plus puissants afin qu'ils puissent les tester.
Hassabis dit s'attendre à plus d'avancées dans les mois à venir. “C'est une nouvelle cadence”, dit-il, “j'essaie de passer d'une sorte de mentalité de démarrage.”