The AI-Powered Future of Coding Is Near
Je suis par Pas de moyen un codeur qualifié, mais grâce à un programme gratuit appelé Swe-agent, j'étais juste capable de déboguer et de résoudre un problème noueux impliquant un fichier mal nommé dans différents référentiels de code sur le site d'hébergement du logiciel GitHub.
J'ai pointé du Swe-Agent à un problème sur Github et j'ai regardé le code et j'ai raisonné ce qui pourrait être mal. Il a déterminé correctement que la cause profonde du bogue était une ligne qui indiquait le mauvais emplacement pour un fichier, puis naviguait dans le projet, a localisé le fichier et a modifié le code pour que tout soit correctement fonctionné. C'est le genre de chose qu'un développeur inexpérimenté (comme moi) pourrait passer des heures à essayer de déboguer.
De nombreux codeurs utilisent déjà l'intelligence artificielle pour écrire des logiciels plus rapidement. GitHub Copilot a été le premier environnement de développeur intégré à exploiter AI, mais de nombreux IDE complèteront désormais automatiquement des morceaux de code lorsqu'un développeur commencera à taper. Vous pouvez également poser des questions sur l'IA sur le code ou faire des suggestions sur la façon d'améliorer ce sur quoi vous travaillez.
L'été dernier, John Yang et Carlos Jimenez, deux doctorants de Princeton, ont commencé à discuter de ce qu'il faudrait pour que l'IA devienne un ingénieur logiciel réel. Cela les a conduits ainsi qu'à d'autres à Princeton pour trouver Banc de sweun ensemble de repères pour tester les outils d'IA sur une gamme de tâches de codage. Après avoir publié l'indice de référence en octobre, l'équipe a développé son propre outil – Went-Agent – pour maîtriser ces tâches.
Swe-Agent («SWE» est un raccourci pour «l'ingénierie logicielle») est l'un des nombreux programmes de codage d'IA considérablement plus puissants qui vont au-delà de l'écriture de lignes de code et agissent en tant qu'agents logiciels dits, exploitant les outils nécessaires pour s'efforcer , Debug et organisent des logiciels. La startup Devin est devenue virale avec Une démo vidéo d'un de ces outils en mars.
OFir Press, membre de l'équipe de Princeton, a déclaré que Swe-Bench pourrait aider à ouvrir la performance et la fiabilité des agents logiciels. «C'est juste mon avis, mais je pense qu'ils publieront un agent logiciel très bientôt», explique Press.
Openai a refusé de commenter, mais une autre source connaissant les activités de l'entreprise, qui a demandé à ne pas être nommé, a déclaré à Wired qu '«Openai travaille définitivement sur des agents de codage».
Tout comme GitHub Copilot a montré que les modèles de grands langues peuvent écrire du code et stimuler la productivité des programmeurs, des outils comme Swe-Agent peuvent prouver que les agents de l'IA peuvent fonctionner de manière fiable, en commençant par la construction et le maintien du code.
Un certain nombre d'entreprises testent des agents de développement de logiciels. Au sommet du classement Swe-Bench, qui mesure le score de différents agents de codage à travers une variété de tâches, est celui de Usine AIune startup, suivie de Autocoderoverune entrée open source d'une équipe de l'Université nationale de Singapour.
Les grands joueurs pataugent également. Un outil d'écriture de logiciels appelé Amazon Q est un autre top interprète sur Swe-Bench. «Le développement de logiciels est bien plus que de simplement taper», explique Deepak Singh, vice-président du développement logiciel chez Amazon Web Services.
Il ajoute qu'AWS a utilisé l'agent pour traduire des piles de logiciels entières d'un langage de programmation à un autre. «C'est comme avoir un ingénieur vraiment intelligent assis à côté de vous, écrire et construire une application avec vous», explique Singh. «Je pense que c'est assez transformateur.»
Une équipe d'Openai a récemment aidé l'équipage de Princeton à améliorer une référence pour mesurer la fiabilité et l'efficacité d'outils comme Swe-Agent, suggérant que la société pourrait également perfectionner des agents pour écrire du code ou effectuer d'autres tâches sur un ordinateur.
Singh dit qu'un certain nombre de clients construisent déjà des applications backend complexes utilisant Q. Mes propres expériences avec SWE-Bench suggèrent que toute personne qui code voudra bientôt utiliser des agents pour améliorer leurs prouesses de programmation ou risquer d'être laissé.