Forget Chatbots. AI Agents Are the Future
Cette semaine, une startup appelée Cognition ai a causé un peu de remue en libérant Une démo Montrant un programme d'intelligence artificielle appelée Devin Performing Work généralement effectuée par des ingénieurs logiciels bien payés. Les chatbots comme Chatgpt et Gemini peuvent générer du code, mais Devin est allé plus loin, planifiant comment résoudre un problème, écrire le code, puis les tester et l'implémenter.
Les créateurs de Devin le marquent comme un «développeur de logiciels AI». Lorsqu'on lui a demandé de tester comment le modèle de langue open source de META, Llama 2, a été effectué lorsqu'il a été consulté via différentes entreprises l'hébergeant, Devin a généré un plan étape par étape pour le projet, généré du code nécessaire pour accéder aux API et exécuter des tests d'analyse comparative et a créé un site Web résumé les résultats.
Il est toujours difficile de juger des démos en scène, mais la cognition a montré que Devin s'occupant d'un large éventail de tâches impressionnantes. Il Investisseurs et ingénieurs séduits sur x, recevant beaucoup de avenantset même inspiré quelques mèmes– y compris certains prédire Devin sera bientôt responsable Pour une vague de licenciements de l'industrie technologique.
Devin est juste l'exemple le plus récent et le plus poli d'une tendance que je suive depuis un certain temps – l'émergence d'agents d'IA qui au lieu de simplement fournir des réponses ou des conseils sur un problème présenté par un humain peut agir pour le résoudre. Il y a quelques mois, je le test a conduit Auto-GPTun programme open source qui tente de faire des tâches utiles en prenant des mesures sur l'ordinateur d'une personne et sur le Web. Récemment, j'ai testé un autre programme appelé VIMGPT pour voir comment les compétences visuelles des nouveaux modèles d'IA peuvent aider ces agents à parcourir le Web plus efficacement.
J'ai été impressionné par mes expériences avec ces agents. Pourtant, pour l'instant, tout comme les modèles de langue qui les alimentent, ils font pas mal d'erreurs. Et lorsqu'un logiciel prend des mesures, pas seulement de générer du texte, une erreur peut signifier une défaillance totale et des conséquences potentiellement coûteuses ou dangereuses. Le rétrécissement de la gamme des tâches qu'un agent peut faire, par exemple, un ensemble spécifique de tâches d'ingénierie logicielle semble être un moyen intelligent de réduire le taux d'erreur, mais il existe encore de nombreux moyens potentiels d'échouer.
Non seulement les startups construisent des agents d'IA. Plus tôt cette semaine, j'ai écrit sur un agent appelé Sima, développé par Google Deepmind, qui joue des jeux vidéo, notamment le titre vraiment bonkers Simulateur de chèvre 3. Sima a appris en regardant les joueurs humains comment effectuer plus de 600 tâches assez compliquées telles que couper un arbre ou tirer un astéroïde. Plus important encore, il peut faire beaucoup de ces actions avec succès, même dans un jeu inconnu. Google Deepmind l'appelle un «généraliste».
Je soupçonne que Google espère que ces agents finiront par aller travailler en dehors des jeux vidéo, ce qui contribue peut-être à utiliser le Web au nom d'un utilisateur ou à exploiter un logiciel pour eux. Mais les jeux vidéo font un bon bac à sable pour les agents de développement et de test, en fournissant des environnements complexes dans lesquels ils peuvent être testés et améliorés. “Les rendre plus précis est quelque chose sur lequel nous travaillons activement”, m'a expliqué Tim Harley, un chercheur de Google Deepmind. «Nous avons diverses idées.»
Vous pouvez vous attendre à beaucoup plus de nouvelles sur les agents de l'IA dans les prochains mois. Demis Hassabis, le PDG de Google Deepmind, m'a récemment dit qu'il prévoyait de combiner des modèles de grandes langues avec le travail que son entreprise avait précédemment effectué des programmes d'IA pour jouer à des jeux vidéo pour développer des agents plus compétents et fiables. «C'est définitivement un domaine énorme. Nous investissons massivement dans cette direction, et j'imagine que les autres le sont aussi. » Dit Hassabis. «Ce sera un changement de pas dans les capacités de ces types de systèmes – lorsqu'ils commencent à devenir plus d'agent.»