GPT-4 Will Make ChatGPT Smarter but Won’t Fix Its Flaws

Avec son étrangeté Capacité à tenir une conversation, à répondre à des questions et à écrire de la prose, de la poésie et du code cohérents, le chatbot ChatGPT a obligé de nombreuses personnes à repenser le potentiel de l’intelligence artificielle.

La startup à l’origine de ChatGPT, OpenAI, a annoncé aujourd’hui une nouvelle version très attendue du modèle d’IA fondamental.

Le nouvel algorithme, appelé GPT-4fait suite à GPT-3, un modèle de génération de texte révolutionnaire annoncé par OpenAI en 2020, qui a ensuite été adapté pour créer ChatGPT l’année dernière.

Le nouveau modèle obtient de meilleurs résultats dans une série de tests conçus pour mesurer l’intelligence et les connaissances des humains et des machines, selon OpenAI. Il fait également moins d’erreurs et peut répondre aussi bien aux images qu’au texte.

Cependant, GPT-4 souffre des mêmes problèmes qui ont tourmenté ChatGPT et amènent certains experts en IA à être sceptiques quant à son utilité, notamment des tendances à « halluciner » des informations incorrectes, à présenter des préjugés sociaux problématiques et à se comporter mal ou à adopter des personnages dérangeants lorsqu’on leur donne une invite « contradictoire ».

“Bien qu’ils aient fait beaucoup de progrès, ce n’est clairement pas digne de confiance”, déclare Oren Etzioni, professeur émérite à l’Université de Washington et PDG fondateur de l’Université de Washington. Institut Allen pour l’IA. “Il faudra beaucoup de temps avant que vous souhaitiez qu’un GPT fasse fonctionner votre centrale nucléaire.”

OpenAI fourni plusieurs démos et données de tests de benchmarking pour montrer les capacités de GPT-4. Le nouveau modèle peut non seulement battre la note de passage de l’examen uniforme du barreau, qui est utilisé pour qualifier les avocats dans de nombreux États américains, mais il a également obtenu un score parmi les 10 % supérieurs de ceux des humains.

Il obtient également de meilleurs résultats que GPT-3 dans d’autres examens conçus pour tester les connaissances et le raisonnement, dans des matières telles que la biologie, l’histoire de l’art et le calcul. Et il obtient de meilleures notes que tout autre modèle de langage d’IA aux tests conçus par des informaticiens pour évaluer les progrès de ces algorithmes. « D’une certaine manière, c’est un peu la même chose », dit Etzioni. “Mais c’est à peu près la même chose dans une série d’avancées absolument époustouflantes.”

GPT-4 peut également exécuter des astuces intéressantes vues auparavant avec GPT-3 et ChatGPT, comme résumer et suggérer des modifications à des morceaux de texte. Il peut également faire des choses que ses prédécesseurs ne pouvaient pas faire, notamment agir en tant que tuteur socratique qui aide les étudiants à trouver des réponses correctes et à discuter du contenu des photographies. Par exemple, si on lui fournit une photo d’ingrédients sur un comptoir de cuisine, GPT-4 peut suggérer une recette appropriée. S’il est accompagné d’un tableau, il peut expliquer les conclusions qui peuvent en être tirées.

“Il semble définitivement avoir acquis certaines capacités”, déclare Vincent Conitzerprofesseur à la CMU spécialisé en IA et qui a commencé à expérimenter le nouveau modèle de langage. Mais il dit qu’il commet encore des erreurs, comme suggérer des directions absurdes ou présenter de fausses preuves mathématiques.