Anthropic Wants Its AI Agent to Control Your Computer

Il a fallu un tandis que les gens doivent s'adapter à l'idée de chatbots qui semblent avoir leur propre esprit. Le prochain saut vers l’inconnu pourrait impliquer de faire confiance à l’intelligence artificielle pour prendre également le contrôle de nos ordinateurs.

Anthropiqueun concurrent de haut vol d'OpenAI, a annoncé aujourd'hui avoir appris à son modèle d'IA Claude à effectuer diverses tâches sur un ordinateur, notamment rechercher sur le Web, ouvrir des applications et saisir du texte à l'aide de la souris et du clavier.

“Je pense que nous allons entrer dans une nouvelle ère où un mannequin peut utiliser tous les outils que vous utilisez en tant que personne pour accomplir vos tâches”, déclare Jared Kaplandirecteur scientifique d'Anthropic et professeur agrégé à l'Université Johns Hopkins.

Kaplan a montré à WIRED une démo préenregistrée dans laquelle une version « agentique » – ou utilisant un outil – de Claude avait été invitée à l'aider à planifier une sortie pour voir le lever du soleil sur le Golden Gate Bridge avec un ami. En réponse à l'invite, Claude a ouvert le navigateur Web Chrome, recherché des informations pertinentes sur Google, notamment le lieu de visionnage idéal et l'heure optimale pour y être, puis a utilisé une application de calendrier pour créer un événement à partager avec un ami. (Il n'incluait pas d'instructions supplémentaires, telles que l'itinéraire à suivre pour y arriver dans le moins de temps possible.)

Dans une deuxième démo, on a demandé à Claude de créer un site Web simple pour se promouvoir. Dans un moment surréaliste, le modèle a saisi une invite de texte dans sa propre interface Web pour générer le code nécessaire. Il a ensuite utilisé Visual Studio Code, un éditeur de code populaire développé par Microsoft, pour écrire un site Web simple, et a ouvert un terminal de texte pour lancer un simple serveur Web afin de tester le site. Le site Web proposait une page de destination décente sur le thème des années 1990 pour le modèle d'IA. Lorsque l'utilisateur lui demandait de résoudre un problème sur le site Web résultant, le modèle revenait à l'éditeur, identifiait l'extrait de code incriminé et le supprimait.

Mike Krieger, directeur des produits chez Anthropic, affirme que la société espère que les soi-disant agents IA automatiseront les tâches de bureau courantes et permettront aux gens d'être plus productifs dans d'autres domaines. « Que feriez-vous si vous vous débarrassiez de plusieurs heures de copier-coller ou de quoi que ce soit d'autre ? » dit-il. “J'irais jouer plus de guitare.”

Anthropic met désormais à disposition les capacités agentiques via son interface de programmation d'application (API) pour son modèle de grand langage multimodal le plus puissant, Claude 3.5 Sonnet, à partir d'aujourd'hui. La société a également annoncé aujourd'hui une nouvelle version améliorée d'un modèle plus petit, Claude 3.5 Haiku.

Les démos d’agents IA peuvent sembler époustouflantes, mais faire en sorte que la technologie fonctionne de manière fiable et sans erreurs gênantes (ou coûteuses) dans la vie réelle peut être un défi. Les modèles actuels peuvent répondre aux questions et converser avec une compétence presque humaine, et constituent l'épine dorsale des chatbots tels que ChatGPT d'OpenAI et Gemini de Google. Ils peuvent également effectuer des tâches sur des ordinateurs lorsqu'on leur donne une simple commande en accédant à l'écran de l'ordinateur ainsi qu'à des périphériques d'entrée comme un clavier et un trackpad, ou via des interfaces logicielles de bas niveau.