Meta’s Open Source Llama 3 Is Already Nipping at OpenAI’s Heels
Jerome Pesenti a plusieurs raisons de célébrer la décision de Meta la semaine dernière de publier Llama 3, un puissant modèle de grande langue open source que tout le monde peut télécharger, exécuter et construire.
Pesenti était vice-président de l'intelligence artificielle à Meta et dit qu'il a souvent poussé l'entreprise à envisager de libérer sa technologie pour que d'autres puissent utiliser et s'appuyer. Mais sa principale raison de se réjouir est que sa nouvelle startup aura accès à un modèle d'IA qui, selon lui, est très proche du générateur de texte d'Openai, mais beaucoup moins cher à exécuter et plus ouvert à l'examen extérieur et à la modification .
“La sortie vendredi dernier ressemble vraiment à un changement de jeu”, explique Pesenti. Sa nouvelle entreprise, Grésillerun tuteur AI, utilise actuellement GPT-4 et d'autres modèles d'IA, à la fois fermés et ouverts, pour élaborer des ensembles de problèmes et des programmes pour les étudiants. Ses ingénieurs évaluent si Llama 3 pourrait remplacer le modèle d'Openai dans de nombreux cas.
L'histoire de Sizzle peut augmenter un changement plus large de l'équilibre des pouvoirs en IA. Openai a changé le monde avec Chatgpt, déclenchant une vague d'investissement en IA et en dessinant plus de 2 millions de développeurs dans ses API cloud. Mais si les modèles open source se révèlent compétitifs, les développeurs et les entrepreneurs peuvent décider de cesser de payer pour accéder au dernier modèle d'Openai ou Google et d'utiliser Llama 3 ou l'un des autres modèles open source de plus en plus puissants qui apparaissent.
“Ce sera une course de chevaux intéressante”, explique Pesenti à propos de la concurrence entre des modèles ouverts comme Llama 3 et ceux fermés tels que GPT-4 et Google's Gemini.
Le modèle précédent de META, Llama 2, était déjà influent, mais la société affirme qu'elle a rendu la dernière version plus puissante en lui nourrissant de plus grandes quantités de données de formation de meilleure qualité, avec de nouvelles techniques développées pour filtrer le contenu redondant ou brouillé et pour sélectionner le meilleur Mélange des ensembles de données à utiliser.
Pesenti dit Running Llama 3 sur une plate-forme cloud telle que Feux d'artifice.ai ne coûte que le 20e coût de l'accès au GPT-4 via une API. Il ajoute que Llama 3 peut être configuré pour répondre aux questions extrêmement rapidement, une considération clé pour les développeurs de sociétés comme la sienne qui comptent sur les modèles de différents fournisseurs. «C'est une équation entre latence, le coût et la précision», dit-il.
Les modèles ouverts semblent tomber sur un clip impressionnant. Il y a quelques semaines, je suis entré à l'intérieur des startups Databricks pour assister aux dernières étapes d'un effort pour construire DBRX, un modèle de langue construit qui était brièvement le meilleur ouvert. Cette couronne est maintenant Llama 3. Ali Ghodsi, PDG de Databricks, décrit également Llama 3 comme «révolutionnaire» et dit que le modèle plus large «aborde la qualité de GPT 4 – qui nivelle le terrain de jeu entre les LLM à source ouverte et fermée».
LLAMA 3 présente également le potentiel de fabrication de modèles d'IA plus petits, afin qu'ils puissent être exécutés sur du matériel moins puissant. Meta a publié deux versions de son dernier modèle, l'une avec 70 milliards de paramètres – une mesure des variables qu'il utilise pour apprendre des données de formation – et une autre avec 8 milliards. Le modèle plus petit est suffisamment compact pour fonctionner sur un ordinateur portable mais est remarquablement capable, du moins dans les tests de Wired.
Deux jours avant la sortie de Meta, Mistralune société française d'IA fondée par les anciens de l'équipe de Pesenti à Meta, ouvert Mixtral 8x22b. Il compte 141 milliards de paramètres mais n'en utilise que 39 milliards à tout moment, un design connu sous le nom de mélange d'experts. Grâce à cette astuce, le modèle est considérablement plus capable que certains modèles beaucoup plus grands.
Meta n'est pas le seul géant de la technologie qui publie une IA open source. Cette semaine, Microsoft a sorti Phi-3 minutes et Apple sorti Ouvrirdeux modèles de langage gratuits minuscules mais compétents qui peuvent fonctionner sur un smartphone.
Les mois à venir montreront si LLAMA 3 et d'autres modèles ouverts peuvent vraiment déplacer des modèles d'IA premium comme GPT-4 pour certains développeurs. Et une IA open source encore plus puissante arrive. La société travaille sur une énorme version de 400 milliards de dollars de Llama 3 qui, selon le scientifique en chef de l'IA, Yann Lecun devrait être l'une des plus capables du monde.
Bien sûr, toute cette ouverture n'est pas purement altruiste. Meta PDG Mark Zuckerberg dit d'ouvrir ses modèles AI devrait finalement bénéficier à l'entreprise En abaissant le coût des technologies sur lesquels il s'appuie, par exemple en reproduisant des outils et services compatibles que Meta peut utiliser pour lui-même. Il n'est pas dit qu'il peut également s'agir de la méta-avantage de Meta pour empêcher Openai, Microsoft ou Google de dominer le domaine.