How Do You Get to Artificial General Intelligence? Think Lighter
En 2025, les entrepreneurs déclenchera un flot d’applications basées sur l’IA. Enfin, l’IA générative répondra au battage médiatique avec une nouvelle génération d’applications grand public et professionnelles abordables. Ce n’est pas l’opinion consensuelle aujourd’hui. OpenAI, Google et xAI sont engagés dans une course aux armements pour former le modèle de langage étendu (LLM) le plus puissant à la recherche de l'intelligence artificielle générale, connue sous le nom d'AGI, et leur bataille de gladiateurs domine la part d'esprit et la part des revenus du tout nouveau écosystème Gen AI. .
Par exemple, Elon Musk a levé 6 milliards de dollars pour lancer le nouveau venu xAI et a acheté 100 000 GPU Nvidia H100, les puces coûteuses utilisées pour traiter l’IA, coûtant plus de 3 milliards de dollars pour entraîner son modèle, Grok. À ces prix-là, seuls les magnats de la technologie peuvent se permettre de construire ces LLM géants.
Les dépenses incroyables d'entreprises telles qu'OpenAI, Google et xAI ont créé un écosystème déséquilibré, lourd en bas et léger en haut. Les LLM formés par ces énormes fermes de GPU sont également généralement très coûteux pour l'inférence, le processus de saisie d'une invite et de génération d'une réponse à partir de grands modèles de langage intégrés dans chaque application utilisant l'IA. C'est comme si tout le monde possédait des smartphones 5G, mais l'utilisation des données était trop coûteuse pour que quiconque puisse regarder une vidéo TikTok ou surfer sur les réseaux sociaux. En conséquence, d’excellents LLM avec des coûts d’inférence élevés ont rendu inabordable la prolifération d’applications tueuses.
Cet écosystème déséquilibré de magnats de la technologie ultra-riches qui se battent les uns contre les autres a enrichi Nvidia tout en obligeant les développeurs d'applications à se retrouver dans une situation difficile : soit utiliser un modèle peu coûteux et peu performant, voué à décevoir les utilisateurs, soit devoir payer des coûts d'inférence exorbitants et prendre des risques. en faillite.
En 2025, une nouvelle approche émergera et pourrait changer tout cela. Cela reviendra à ce que nous avons appris des révolutions technologiques précédentes, comme l'ère PC d'Intel et Windows ou l'ère mobile de Qualcomm et Android, où la loi de Moore a amélioré les PC et les applications, et la réduction du coût de la bande passante a amélioré les téléphones mobiles et les applications. après année.
Mais qu’en est-il du coût d’inférence élevé ? Une nouvelle loi sur l’inférence de l’IA approche à grands pas. Le coût de l’inférence a été divisé par 10 par an, grâce aux nouveaux algorithmes d’IA, aux technologies d’inférence et à de meilleures puces à des prix inférieurs.
À titre de référence, si un développeur tiers utilisait les modèles haut de gamme d'OpenAI pour créer une recherche IA, en mai 2023, le coût serait d'environ 0,75 $ par requête, tandis que la recherche non-Gen-AI de Google coûte bien en dessous de 0,01 $. , une différence de 75x. Mais en mai 2024, le prix du modèle haut de gamme d'OpenAI était tombé à environ 0,04 $ par requête. Avec cette baisse de prix sans précédent de 10 fois par an, les développeurs d'applications pourront utiliser des modèles de meilleure qualité et à moindre coût, ce qui entraînera une prolifération d'applications d'IA au cours des deux prochaines années.
Je pense que cela permettra de créer une manière différente de créer une entreprise LLM. Plutôt que de se concentrer sur la course aux armements AGI, les fondateurs commenceront à se concentrer sur la construction de modèles presque aussi bons que les meilleurs LLM, mais légers et donc ultra-rapides et ultra bon marché. Ces modèles et applications, spécialement conçus pour les applications commerciales utilisant des modèles plus légers et une architecture innovante, coûteront une fraction du prix à former et atteindront des niveaux de performances suffisamment bons pour les consommateurs et les entreprises. Cette approche ne mènera pas à une IA lauréate du prix Nobel, mais sera le catalyseur de la prolifération des applications d’IA, conduisant à un écosystème d’IA sain.
Par exemple, je soutiens une équipe qui construit conjointement un modèle, un moteur d'inférence et une application en même temps. Rhymes.ai, une startup d'IA basée dans la Silicon Valley, a formé un modèle presque aussi performant que le meilleur d'OpenAI pour 3 millions de dollars, contre plus de 100 millions de dollars que Sam Altman a déclaré avoir coûté pour former le GPT-4 d'OpenAI. Le coût d'inférence de ce modèle appliqué à une application de recherche d'IA telle que BeaGo n'est que de 0,001 $ par requête, soit seulement 3 % du prix de GPT-4. Et l’équipe a également créé et lancé une application de recherche d’IA avec seulement cinq ingénieurs travaillant pendant deux mois.
Comment cela a-t-il été réalisé ? Intégration verticale et profonde qui optimise le développement d'inférences, de modèles et d'applications de manière holistique.
Sur le chemin de la progression de l’IA, nous avons tous été témoins de la puissance du LLM en tant que technologie révolutionnaire. Je suis fermement convaincu que l’IA générative va bouleverser notre façon d’apprendre, de travailler, de vivre et de faire des affaires. L’écosystème doit travailler ensemble pour surmonter l’obstacle des coûts et ajuster la formule, atteignant l’équilibre pour que l’IA fonctionne réellement pour notre société.