The Godmother of AI Wants Everyone to Be a World Builder

Selon le marché fixé Experts technologiques et sceptiques professionnels, la bulle de l'intelligence artificielle a éclaté et le dos de l'hiver. Fei-Fei Li n'achète pas cela. En fait, Li – qui a gagné le sobriquet la «marraine de l'IA» – parie le contraire. Elle est en congé à temps partiel de l'Université de Stanford pour cofond une entreprise appelée Laboratoires du monde. Bien que l'IA générative actuelle soit basée sur le langage, elle voit une frontière où les systèmes construisent des mondes complets avec la physique, la logique et les détails riches de notre réalité physique. C'est un objectif ambitieux, et malgré les Nabobs mornes qui disent que les progrès dans l'IA ont frappé un sombre plateau, World Labs est sur la voie rapide de financement. La startup est peut-être à un an d'un produit – et il n'est pas clair du tout comment cela fonctionnera quand et s'il arrive – mais les investisseurs ont placé 230 millions de dollars et sont aurait évalué La startup naissante à un milliard de dollars.

Il y a environ une décennie, Li a aidé l'IA à tourner un coin en créant ImageNet, une base de données sur mesure d'images numériques qui permettaient aux réseaux neuronaux de devenir beaucoup plus intelligents. Elle estime que les modèles d'apprentissage en profondeur d'aujourd'hui ont besoin d'un coup de pouce similaire si l'IA veut créer des mondes réels, qu'il s'agisse de simulations réalistes ou d'univers totalement imaginés. Le futur George RR Martins pourrait composer leurs mondes rêvés comme des invites au lieu de la prose, que vous pourriez ensuite rendre et vous promener. “Le monde physique des ordinateurs est vu à travers les caméras, et le cerveau d'ordinateur derrière les caméras”, dit Li. «Transformer cette vision en raisonnement, génération et interaction éventuelle consiste à comprendre la structure physique, la dynamique physique du monde physique. Et cette technologie est appelée intelligence spatiale. » World Labs s'appelle une société de renseignement spatial, et son sort aidera à déterminer si ce terme devient une révolution ou une ligne de punch.

Li est obsédé par l'intelligence spatiale depuis des années. Pendant que tout le monde allait Gaga sur Chatgpt, elle et une ancienne étudiante, Justin Johnson, étaient avec enthousiasme dans les appels téléphoniques concernant la prochaine itération de l'IA. «La prochaine décennie sera de générer de nouveaux contenus qui prennent une vision informatique, un apprentissage en profondeur et une IA du monde de l'Internet, et les introduisent dans l'espace et le temps», explique Johnson, qui est maintenant professeur adjoint à l'Université du Michigan .

Li a décidé de créer une entreprise au début de 2023, après un dîner avec Martin Casado, un pionnier de la réseautage virtuel qui est maintenant partenaire d'Andreessen Horowitz. C'est le VC Firm Notorious pour son étreinte quasi messagerie de l'IA. Casado considère l'IA comme étant sur un chemin similaire à celle des jeux informatiques, qui a commencé avec du texte, passé à des graphismes 2D et a maintenant des images 3D éblouissantes. L'intelligence spatiale entraînera le changement. Finalement, il dit: «Vous pourriez prendre votre livre préféré, le jeter dans un modèle, puis vous y entrez littéralement et le regardez en temps réel, de manière immersive», dit-il. La première étape pour y arriver, Casado et Li ont convenu, passe de grands modèles de langue à gros monde modèles.

Li a commencé à assembler une équipe, avec Johnson comme cofondateur. Casado a suggéré deux autres personnes – l'une était Christoph Lassner, qui avait travaillé sur Amazon, les laboratoires de réalité de Meta et les jeux Epic. Il est l'inventeur de Pulsarun programme de rendu qui a conduit à une technique célèbre appelée Splatting gaussien 3D. Cela ressemble à un groupe indépendant lors d'une fête du MIT Toga, mais c'est en fait un moyen de synthétiser des scènes, par opposition aux objets ponctuels. L'autre suggestion de Casado était Ben Mildenhall, qui avait créé une technique puissante appelée Nerf – champs de radiance en naissance – qui transmogrifient des images de pixels 2D en graphiques 3D. «Nous avons pris des objets du monde réel en VR et les avons rendus parfaitement réels», dit-il. Il a quitté son poste en tant que chercheur principal chez Google pour rejoindre l'équipe de Li.

Un objectif évident d'un grand modèle mondial serait d'imprégner, enfin, de sens du monde en robots. C'est en effet dans le plan de World Labs, mais pas pendant un certain temps. La première phase consiste à construire un modèle avec une compréhension approfondie de la trois dimensionnalité, de la physicalité et des notions d'espace et de temps. Vient ensuite une phase où les modèles soutiendront la réalité augmentée. Après cela, l'entreprise peut affronter la robotique. Si cette vision est remplie, les grands modèles mondiaux amélioreront les voitures autonomes, les usines automatisées et peut-être même les robots humanoïdes.