Inside the Creation of the World’s Most Powerful Open Source AI Model
Lundi dernier, une douzaine d'ingénieurs et de dirigeants de Data Science and IA Company Databricks Rassemblé dans des salles de conférence connectées via Zoom pour savoir s'ils avaient réussi à construire un modèle de langue d'intelligence artificielle. L'équipe avait passé des mois et environ 10 millions de dollars, formant DBRX, un modèle grand langage similaire en conception à celui derrière le chatppt d'Openai. Mais ils ne sauraient pas à quel point leur création était puissante jusqu'à ce que les résultats reviennent des tests finaux de ses capacités.
“Nous avons tout dépassé”, a déclaré Jonathan Frankle, architecte en chef du réseau neural chez Databricks et leader de l'équipe qui a construit DBRX, a finalement déclaré à l'équipe, qui a répondu par des cris, des applaudissements et des emojis. Frankle évite généralement la caféine, mais prenait des gorgées de latte glacé après avoir tiré une nuittte pour rédiger les résultats.
Databricks publiera DBRX sous une licence open source, permettant aux autres de s'appuyer sur ses travaux. Frankle a partagé des données montrant qu'à peu près d'une douzaine de références mesurant la capacité du modèle d'IA à répondre aux questions générales des connaissances, à effectuer la compréhension de la lecture, à résoudre des énigmes logiques vexantes et à générer du code de haute qualité, DBRX était meilleur que tous les autres modèles open source disponibles.
Makers de l'IA: Jonathan Frankle, Naveen Rao, Ali Ghodsi et Hanlin Tang.Photographie: Gabriela Hasbun
Il a surpassé Meta's Llama 2 et Mixtral de Mistral, deux des modèles d'IA open source les plus populaires disponibles aujourd'hui. “Oui!” Cria Ali Ghodsi, PDG de Databricks, lorsque les scores sont apparus. «Attends, avons-nous battu le truc d'Elon?» Frankle a répondu qu'ils avaient effectivement dépassé le modèle Grok AI récemment open à l'ouverture par le XAI de Musk, ajoutant: “Je considérerai que cela est un succès si nous obtenons un tweet moyen de lui.”
À la surprise de l'équipe, sur plusieurs scores, DBRX était également étonnamment près de GPT-4, le modèle fermé d'Openai qui alimente le chatppt et est largement considéré comme le summum de l'intelligence machine. “Nous avons établi une nouvelle état de l'art pour les LLM open source”, a déclaré Frankle avec un sourire de grande taille.
Blocs de construction
En Open-Sourcing, DBRX Databricks ajoute un élan supplémentaire à un mouvement qui remet en question l'approche secrète des entreprises les plus importantes dans le boom de l'IA génératif actuel. Openai et Google gardent le code de leurs modèles GPT-4 et Gemini en grande langue, mais certains rivaux, notamment Meta, ont publié leurs modèles pour que d'autres puissent utiliser, arguant qu'il stimulerait l'innovation en mettant la technologie entre les mains de plus Des chercheurs, des entrepreneurs, des startups et des entreprises établies.
Databricks dit qu'il souhaite également s'ouvrir sur le travail impliqué dans la création de son modèle open source, ce que Meta n'a pas fait pour certains détails clés sur la création de son modèle LLAMA 2. La société publiera un article de blog détaillant les travaux impliqués pour créer le modèle, et invitera également Wired à passer du temps avec les ingénieurs de Databricks car ils ont pris des décisions clés au cours des étapes finales du processus de plusieurs millions de dollars de formation DBRX. Cela a donné un aperçu de la complexité et du difficile de construire un modèle d'IA leader, mais aussi comment les innovations récentes sur le terrain promettent de réduire les coûts. Cela, combiné à la disponibilité de modèles open source comme DBRX, suggère que le développement de l'IA n'est pas sur le point de ralentir de sitôt.
Ali Farhadi, PDG du Institut Allen pour l'IAdit qu'une plus grande transparence autour du bâtiment et la formation des modèles d'IA est gravement nécessaire. Le domaine est devenu de plus en plus secret ces dernières années, les entreprises, les entreprises ont cherché un avantage sur les concurrents. L'opacité est particulièrement importante lorsqu'il y a des inquiétudes quant aux risques que les modèles AI avancés pourraient poser, dit-il. «Je suis très heureux de voir tout effort d'ouverture», explique Farhadi. «Je crois qu'une partie importante du marché évoluera vers des modèles ouverts. Nous en avons besoin de plus.