Meta Releases Llama 3.2—and Gives Its AI a Voice

Powering Meta Ai's New Capacities est une version améliorée de LLAMA, le premier modèle de langue de grande envergure de Meta. Le modèle gratuit annoncé aujourd'hui peut également avoir un large impact, étant donné la largeur de la famille LLAMA adoptée par les développeurs et les startups.

Contrairement aux modèles d'Openai, LLAMA peut être téléchargé et exécuté localement sans frais, bien qu'il y ait certaines restrictions sur l'utilisation commerciale à grande échelle. Llama peut également être plus facilement affiné ou modifié avec une formation supplémentaire, pour des tâches spécifiques.

Patrick Wendell, cofondateur et vice-président de l'ingénierie chez Databricks, une entreprise qui héberge des modèles d'IA, notamment LLAMA, dit que de nombreuses entreprises sont attirées par des modèles d'ouverture car ils leur permettent de mieux protéger leurs propres données.

Les modèles de grands langues deviennent de plus en plus «multimodaux», ce qui signifie qu'ils sont formés pour gérer l'audio et les images en entrée ainsi que le texte. Cela étend les capacités d'un modèle et permet aux développeurs de construire de nouveaux types d'applications d'IA en plus, y compris des agents dits d'IA capables d'effectuer des tâches utiles sur les ordinateurs en leur nom. LLAMA 3.2 devrait faciliter la création d'agents d'IA qui peuvent, par exemple, parcourir le Web, peut-être à la recherche d'offres sur un type particulier de produit lorsqu'il est donné une brève description.

“Les modèles multimodaux sont un gros problème car les données que les gens et les entreprises utilisent ne sont pas seulement du texte, il peut être disponible dans de nombreux formats différents, y compris des images et des formats audio ou plus spécialisés comme les séquences de protéines ou les livres financiers”, explique Phillip Isolaprofesseur au MIT. «Au cours des dernières années, nous sommes passés de modèles linguistiques forts à des modèles qui fonctionnent également bien sur les images et les voix. Chaque année, nous constatons que plus de modalités de données deviennent accessibles à ces systèmes. “

«Avec Llama 3.1, Meta a montré que les modèles ouverts pouvaient enfin combler l'écart avec leurs homologues propriétaires», explique Nathan Benaich, fondateur et partenaire général de Air Street Capital, et l'auteur d'un influent Rapport annuel sur l'IA. Benaich ajoute que les modèles multimodaux ont tendance à surpasser les modèles plus grands en texte uniquement. «Je suis ravi de voir comment 3,2 s'accompagne», dit-il.

Plus tôt dans la journée, l'Allen Institute for AI (AI2), un institut de recherche de Seattle, a publié un modèle multimodal open source avancé appelé Molmo. Molmo a été libéré sous une licence moins restrictive que LLAMA, et AI2 publie également des détails de ses données de formation, ce qui peut aider les chercheurs et les développeurs à expérimenter et à modifier le modèle.

Meta a déclaré aujourd'hui qu'il libérerait plusieurs tailles de Llama 3.2 avec des capacités correspondantes. Outre deux instanciations plus puissantes avec 11 milliards et 90 milliards de paramètres – une mesure de la complexité d'un modèle ainsi que de sa taille – Meta publie moins de 1 milliard et 3 milliards de versions de paramètres conçues pour bien fonctionner sur les appareils portables. Meta dit que ces versions ont été optimisées pour les puces mobiles basées sur ARM de Qualcomm et Mediatek.

La refonte de l'IA de Meta arrive à un moment grisant, avec des géants de la technologie qui courent pour offrir l'IA la plus avancée. La décision de l'entreprise de publier ses modèles les plus précieux gratuitement pourrait lui donner un avantage pour fournir les bases de nombreux outils et services d'IA, en particulier alors que les entreprises commencent à explorer le potentiel des agents de l'IA.