The Most Capable Open Source AI Model Yet Could Supercharge AI Agents

Le plus capable modèle d'IA open source doté de capacités visuelles, mais pourrait voir davantage de développeurs, de chercheurs et de startups développer des agents d'IA capables d'effectuer des tâches utiles sur vos ordinateurs pour vous.

Publié aujourd'hui par l'Allen Institute for AI (Ai2), le Modèle de langage ouvert multimodalou Molmo, peut interpréter des images ainsi que converser via une interface de chat. Cela signifie qu'il peut donner un sens à un écran d'ordinateur, aidant potentiellement un agent IA à effectuer des tâches telles que naviguer sur le Web, naviguer dans des répertoires de fichiers et rédiger des documents.

« Avec cette version, beaucoup plus de personnes peuvent déployer un modèle multimodal », déclare Ali FarhadiPDG d'Ai2, un organisme de recherche basé à Seattle, Washington, et informaticien à l'Université de Washington. “Cela devrait être un catalyseur pour les applications de nouvelle génération.”

Les soi-disant agents IA sont largement présentés comme la prochaine grande nouveauté en matière d’IA, OpenAI, Google et d’autres se précipitant pour les développer. Les agents sont devenus un mot à la mode ces derniers temps, mais la grande vision est que l’IA aille bien au-delà du chat pour effectuer de manière fiable des actions complexes et sophistiquées sur les ordinateurs lorsqu’une commande leur est donnée. Cette capacité doit encore se matérialiser à quelque échelle que ce soit.

Certains modèles d'IA puissants possèdent déjà des capacités visuelles, notamment GPT-4 d'OpenAI, Claude d'Anthropic et Gemini de Google DeepMind. Ces modèles peuvent être utilisés pour alimenter certains agents d'IA expérimentaux, mais ils sont cachés et accessibles uniquement via une interface de programmation d'application payante, ou API.

Meta a publié une famille de modèles d'IA appelée Llama sous une licence qui limite leur utilisation commerciale, mais n'a pas encore fourni aux développeurs une version multimodale. Meta devrait annoncer plusieurs nouveaux produits, y compris peut-être de nouveaux modèles Llama AI, lors de son événement Connect aujourd'hui.

« Disposer d'un modèle multimodal open source signifie que toute startup ou chercheur ayant une idée peut essayer de la mettre en œuvre », déclare À propos de la pressepostdoctorant à l'Université de Princeton qui travaille sur les agents d'IA.

Press affirme que le fait que Molmo soit open source signifie que les développeurs seront plus facilement en mesure d'affiner leurs agents pour des tâches spécifiques, telles que l'utilisation de feuilles de calcul, en fournissant des données de formation supplémentaires. Des modèles comme GPT-4 ne peuvent être ajustés que dans une mesure limitée via leurs API, alors qu'un modèle entièrement ouvert peut être considérablement modifié. “Lorsque vous disposez d'un modèle open source comme celui-ci, vous disposez de beaucoup plus d'options”, explique Press.

Ai2 publie aujourd'hui plusieurs tailles de Molmo, dont un modèle de 70 milliards de paramètres et un modèle de 1 milliard de paramètres suffisamment petit pour fonctionner sur un appareil mobile. Le nombre de paramètres d'un modèle fait référence au nombre d'unités qu'il contient pour stocker et manipuler les données et correspond à peu près à ses capacités.

Ai2 affirme que Molmo est aussi performant que des modèles commerciaux considérablement plus grands malgré sa taille relativement petite, car il a été soigneusement formé sur des données de haute qualité. Le nouveau modèle est également entièrement open source dans la mesure où, contrairement au Meta's Llama, il n'y a aucune restriction sur son utilisation. Ai2 publie également les données de formation utilisées pour créer le modèle, fournissant ainsi aux chercheurs plus de détails sur son fonctionnement.

Sortir des modèles puissants n’est pas sans risque. De tels modèles peuvent plus facilement être adaptés à des fins néfastes ; nous pourrions par exemple assister un jour à l’émergence d’agents d’IA malveillants conçus pour automatiser le piratage des systèmes informatiques.

Farhadi d'Ai2 affirme que l'efficacité et la portabilité de Molmo permettront aux développeurs de créer des agents logiciels plus puissants qui s'exécutent de manière native sur les smartphones et autres appareils portables. “Le modèle à milliards de paramètres fonctionne désormais au niveau ou dans la catégorie des modèles qui sont au moins 10 fois plus grands”, dit-il.

Cependant, la création d’agents d’IA utiles peut dépendre de bien plus que de simples modèles multimodaux plus efficaces. L’un des principaux défis consiste à rendre les modèles plus fiables. Cela pourrait bien nécessiter de nouvelles avancées dans les capacités de raisonnement de l'IA, ce qu'OpenAI a cherché à résoudre avec son dernier modèle o1, qui démontre des capacités de raisonnement étape par étape. La prochaine étape pourrait bien consister à doter les modèles multimodaux de telles capacités de raisonnement.

Pour l’instant, la sortie de Molmo signifie que les agents d’IA sont plus proches que jamais et pourraient bientôt être utiles même en dehors des géants qui dirigent le monde de l’IA.