Fei-Fei Li Started an AI Revolution by Seeing Like an Algorithm

Au début de la pandémie, un agent – littéraire, pas un logiciel – Fei-Fei Li écrite un livre. L'approche avait du sens. Elle a fait une marque indélébile sur le domaine de l'intelligence artificielle en dirigeant un projet lancé en 2006 appelé ImageNet. Il a classé des millions d'images numériques pour former ce qui est devenu un terrain d'entraînement séminal pour les systèmes d'IA qui basculent notre monde aujourd'hui. Li est actuellement le codirecteur fondateur de l'Institut de l'IA de Stanford, centré sur l'homme (HAI), dont le nom même est un plaidoyer de coopération, sinon coévolution, entre les personnes et les machines intelligentes. Acceptant le défi de l'agent, Li a passé l'année de verrouillage à produire un projet. Mais lorsque son cofondateur chez Hai, le philosophe Jon Etchendmendy, l'a lu, il lui a dit de recommencer – cette fois, y compris son propre voyage sur le terrain. «Il a dit qu'il y avait beaucoup de techniciens qui peuvent lire un livre de l'IA», explique Li. «Mais je manquais une occasion de dire à tous les jeunes immigrants, femmes et personnes d'horizons divers pour comprendre que ils peut aussi faire l'IA aussi. “

Li est une personne privée mal à l'aise de parler d'elle-même. Mais elle a compris comment intégrer son expérience en tant qu'immigrant qui est venue aux États-Unis à l'âge de 16 ans, sans maîtrise de la langue, et a surmonté les obstacles pour devenir une figure clé de cette technologie pivot. Sur le chemin de son poste actuel, elle a également été directrice du Stanford AI Lab et scientifique en chef de l'IA et de l'apprentissage automatique chez Google Cloud. Li dit que son livre, Les mondes que je voisest structuré comme une double hélice, avec sa quête personnelle et la trajectoire de l'IA entrelacée dans un tout en spirale. «Nous continuons à nous voir à travers le reflet de qui nous sommes», explique Li. «Une partie de la réflexion est la technologie elle-même. Le monde le plus difficile à voir est nous-mêmes. »

Les brins se réunissent le plus radicalement dans son récit de la création et de la mise en œuvre d'imaget. Li raconte sa détermination à défier celles, y compris ses collègues, qui doutaient qu'il était possible d'étiqueter et de classer des millions d'images, avec au moins 1 000 exemples pour chacun d'une liste tentaculaire de catégories, des oreillers à lancer aux violons. L'effort a nécessité non seulement le courage technique, mais la sueur de milliers de personnes (Spoiler: le Turc mécanique d'Amazon a aidé à tourner l'affaire). Le projet n'est compréhensible que lorsque nous comprenons son parcours personnel. L'intrépidité à entreprendre un projet aussi risqué est venue du soutien de ses parents qui, malgré des difficultés financières, ont insisté sur le fait qu'elle refuse un emploi lucratif dans le monde des affaires pour poursuivre son rêve de devenir scientifique. L'exécution de ce moonshot serait la validation ultime de leur sacrifice.

Le gain était profond. Li décrit comment le bâtiment ImageNet l'a obligé à regarder le monde comme un algorithme de réseau neuronal artificiel pourrait. Lorsqu'elle a rencontré des chiens, des arbres, des meubles et d'autres objets dans le monde réel, son esprit a désormais connu sa catégorisation instinctive de ce qu'elle a perçu et sentant quels aspects d'un objet pourraient révéler son essence aux logiciels. Quels indices visuels conduiraient une intelligence numérique pour identifier ces choses et pourraient en outre déterminer les différentes sous-catégories – les beares contre les lévriers, le chêne contre le bambou, le fauteuil Eames contre Mission Rocker? Il y a une section fascinante sur la façon dont son équipe a essayé de rassembler les images de chaque modèle de voiture possible. Lorsque ImageNet a été achevé en 2009, Li a lancé un concours dans lequel les chercheurs ont utilisé l'ensemble de données pour former leurs algorithmes d'apprentissage automatique, pour voir si les ordinateurs pouvaient atteindre de nouveaux sommets identifiant des objets. En 2012, le gagnant, Alexnet, est sorti du laboratoire de Geoffrey Hinton à l'Université de Toronto et a publié un énorme bond envers les vainqueurs précédents. On pourrait faire valoir que la combinaison d'imageNet et d'Alexnet a lancé le boom d'apprentissage en profondeur qui nous obsédé aujourd'hui – et Powers Chatgpt.

Ce que Li et son équipe ne comprenaient pas, c'est que cette nouvelle façon de voir pourrait également devenir liée à la propension tragique de l'humanité à permettre le biais à entraver ce que nous voyons. Dans son livre, elle rapporte un «pincement de culpabilité» lorsque les nouvelles ont annoncé que Google avait mal étiqueté les Noirs comme gorilles. D'autres exemples épouvantables ont suivi. «Lorsque Internet présente une image à prédominance blanche, occidentale et souvent masculine de la vie quotidienne, nous nous retrouvons avec une technologie qui a du mal à donner un sens à tout le monde», écrit Li, reconnaissant tardivement le défaut. Elle a été invitée à lancer un programme appelé AI4all pour amener les femmes et les personnes de couleur sur le terrain. «Lorsque nous étions pionnière Imagenet, nous ne savions pas autant que nous le savons aujourd'hui», dit Li, indiquant clairement qu'elle utilisait «nous» au sens collectif, pas seulement pour référer à sa petite équipe. »Nous avons considérablement évolué depuis. Mais s'il y a des choses que nous n'avons pas bien fait; Nous devons les réparer.

Le jour où j'ai parlé à Li, Le Washington Post couru Une longue fonctionnalité sur la façon dont le biais de l'apprentissage automatique reste un problème grave. Les générateurs d'images AI d'aujourd'hui comme Dall-E et la diffusion stable fournissent toujours des stéréotypes lors de l'interprétation des invites neutres. Lorsqu'on leur a demandé d'imaginer «une personne productive», les systèmes montrent généralement des hommes blancs, mais une demande de «personne aux services sociaux» montrera souvent aux personnes de couleur. L'inventeur clé de ImageNet, Ground Zero pour inculquer le biais humain dans l'IA, confiant que le problème peut être résolu? “Confiant Ce serait un mot trop simple », dit-elle. «Je suis prudemment optimiste qu'il existe à la fois des solutions techniques et des solutions de gouvernance, ainsi que des demandes de marché pour être de mieux en mieux.» Cet optimisme prudent s'étend également à la façon dont elle parle de prédictions désastreuses selon lesquelles l'IA pourrait conduire à l'extinction humaine. «Je ne veux pas donner un faux sentiment que tout ira bien», dit-elle. “Mais je ne veux pas non plus donner un sentiment de tristesse et de malheur, parce que les humains ont besoin d'espoir.”