Nervous About ChatGPT? Try ChatGPT With a Hammer

En mars dernier, juste Deux semaines après la sortie de GPT-4, les chercheurs de Microsoft annoncé Un plan pour compiler des millions d'API – Tools qui peuvent tout faire, de la commande d'une pizza à la résolution d'équations de physique au contrôle du téléviseur dans votre salon – dans un recueil qui serait rendu accessible aux modèles de grande langue (LLM). Ce n'était qu'une étape importante dans la course à travers l'industrie et le monde universitaire pour trouver le meilleur manières à enseigner LLMS Comment manipuler des outils, qui suralimenteraient le potentiel de l'IA plus que toutes les progrès impressionnants que nous avons vus à ce jour.

Le projet Microsoft vise à enseigner à l'IA comment utiliser tous les outils numériques en un seul Swoop, une approche intelligente et efficace. Aujourd'hui, les LLM peuvent faire un joli bon travail de recommander des garnitures de pizza à vous si vous décrivez vos préférences alimentaires et que vous pouvez rédiger dialogue que vous pouvez utiliser lorsque vous appelez le restaurant. Mais la plupart des outils d'IA ne peuvent pas passer la commande, pas même en ligne. En revanche, l'âge de Google de sept Assistant L'outil peut synthétiser une voix au téléphone et remplir un formulaire de commande en ligne, mais il ne peut pas choisir un restaurant ou deviner votre commande. En combinant ces capacités, cependant, une IA utilisant des outils pourrait tout faire. Un LLM avec accès à vos conversations et outils passés comme les calculatrices caloriques, une base de données de menu de restaurants et votre portefeuille de paiement numérique pourraient juger que vous essayez de perdre du poids et que vous souhaitez une option peu calories, trouvez le restaurant le plus proche avec des garnitures que vous aimez et passez la commande de livraison. S'il a accès à votre historique de paiement, il pourrait même deviner à quel point vous faites un pourboire généreusement. S'il a accès aux capteurs de votre smartwatch ou de votre tracker de fitness, il pourrait être en mesure de sentir quand votre glycémie est faible et commander la tarte avant même de réaliser que vous avez faim.

Les applications potentielles les plus convaincantes de l'utilisation des outils sont peut-être celles qui donnent à l'AIS la capacité de s'améliorer. Supposons, par exemple, vous avez demandé de l'aide à un chatbot pour interpréter une facette de la loi romaine ancienne que personne n'avait pensé inclure des exemples de la formation originale du modèle. Une LLM habilitée à rechercher des bases de données académiques et à déclencher son propre processus de formation pourrait affiner sa compréhension du droit romain avant de répondre. L'accès à des outils spécialisés pourrait même aider un modèle comme celui-ci à mieux s'expliquer. Alors que les LLM comme GPT-4 font déjà un assez bon travail pour expliquer leur raisonnement lorsqu'on leur a demandé, ces explications émergent d'une «boîte noire» et sont vulnérables aux erreurs et hallucinations. Mais un LLM à usage d'outils pourrait disséquer Ses propres internes, offrant des évaluations empiriques de son propre raisonnement et des explications déterministes des raisons pour lesquelles il a produit la réponse qu'elle a faite.

S'il est accès à des outils pour solliciter les commentaires humains, un LLM à usage d'outils pourrait même générer des connaissances spécialisées qui ne sont pas encore capturées sur le Web. Il pourrait publier une question à Reddit ou Quora ou déléguer une tâche à un humain sur le turc mécanique d'Amazon. Il pourrait même rechercher des données sur les préférences humaines en effectuant des recherches sur le sondage, soit pour vous fournir une réponse directement, soit pour affiner sa propre formation pour mieux répondre aux questions à l'avenir. Au fil du temps, les AIS utilisant des outils pourraient commencer à ressembler beaucoup à des humains à l'outil. Un LLM peut générer du code beaucoup plus rapidement que n'importe quel programmeur humain, il peut donc manipuler facilement les systèmes et services de votre ordinateur. Il pourrait également utiliser le clavier et le curseur de votre ordinateur comme une personne le ferait, ce qui lui permet d'utiliser tout programme que vous faites. Et cela pourrait améliorer ses propres capacités, en utilisant des outils pour poser des questions, mener des recherches et écrire du code pour intégrer en lui-même.

Il est facile de voir comment ce type d'utilisation d'outils comporte d'énormes risques. Imaginez qu'un LLM puisse trouver le numéro de téléphone de quelqu'un, l'appeler et enregistrer subrepticement sa voix, devinez quelle banque il utilise en fonction des plus grands fournisseurs de leur région, usurpés à l'identité d'un appel téléphonique avec le service client pour réinitialiser leur mot de passe et liquider son compte pour faire un don à un parti politique. Chacune de ces tâches invoque un outil simple – une recherche sur Internet, un synthétiseur vocal, une application bancaire – et le LLM scripte la séquence des actions à l'aide des outils.

Nous ne savons pas encore à quel point ces tentatives seront réussies. Aussi remarquablement couramment que les LLM, ils n'étaient pas construits spécifiquement dans le but d'exploiter des outils, et il reste à voir comment leurs premiers succès dans l'utilisation des outils se traduiront par de futurs cas d'utilisation comme ceux décrits ici. En tant que tel, donnant à l'accès subitement actuel de l'IA génératif à des millions d'API – comme Microsoft prévoit – pourrait être un peu comme laisser un tout-petit se détacher dans un dépôt d'armes.