OpenAI Announces a New AI Model, Code-Named Strawberry, That Solves Difficult Problems Step by Step

Openai fait la dernière grande percée de l'intelligence artificielle en augmentant la taille de ses modèles aux proportions vertigineuses, lorsqu'elle a introduit le GPT-4 l'année dernière. La société a annoncé aujourd'hui une nouvelle avancée qui signale un changement d'approche – un modèle qui peut «raisonner» logiquement à travers de nombreux problèmes difficiles et est considérablement plus intelligent que l'IA existant sans une mise à l'échelle majeure.

Le nouveau modèle, surnommé Openai O1, peut résoudre des problèmes qui indiquent que les modèles d'IA existants, y compris le modèle existant le plus puissant d'OpenAI, GPT-4O. Plutôt que d'invoquer une réponse en une seule étape, comme le fait normalement un modèle de langue large, il raisonne par le problème, en pensant efficacement à haute voix comme une personne pourrait, avant d'arriver au bon résultat.

“C'est ce que nous considérons le nouveau paradigme dans ces modèles”, a déclaré Mira Murati, directrice de la technologie d'Openai, à Wired. «Il vaut bien mieux s'attaquer aux tâches de raisonnement très complexes.»

Le nouveau modèle était nommé Strawberry au sein d'Openai, et ce n'est pas un successeur de GPT-4O mais plutôt un complément, selon la société.

Murati dit qu'Openai construit actuellement son prochain modèle maître, GPT-5, qui sera considérablement plus grand que son prédécesseur. Mais alors que l'entreprise estime toujours que l'échelle aidera à essuyer de nouvelles capacités à partir de l'IA, GPT-5 est susceptible d'inclure également la technologie de raisonnement introduite aujourd'hui. «Il y a deux paradigmes», explique Murati. «Le paradigme de mise à l'échelle et ce nouveau paradigme. Nous nous attendons à ce que nous les réunirons.

Les LLM évoquent généralement leurs réponses à partir d'énormes réseaux de neurones nourris avec de grandes quantités de données de formation. Ils peuvent présenter des capacités linguistiques et logiques remarquables, mais luttent traditionnellement avec des problèmes étonnamment simples tels que des questions mathématiques rudimentaires qui impliquent le raisonnement.

Murati dit que Openai O1 utilise l'apprentissage du renforcement, ce qui implique de donner un modèle de rétroaction positive lorsqu'il obtient des réponses correctes et des commentaires négatifs lorsqu'il ne le fait pas, afin d'améliorer son processus de raisonnement. «Le modèle aiguise sa réflexion et ses motifs fins les stratégies qu'il utilise pour obtenir la réponse», dit-elle. L'apprentissage par renforcement a permis aux ordinateurs de jouer à des jeux avec des compétences surhumaines et de faire des tâches utiles comme la conception de puces informatiques. La technique est également un ingrédient clé pour transformer un LLM en un chatbot utile et bien élevé.

Mark Chen, vice-président de la recherche à Openai, a démontré le nouveau modèle à câble, l'utilisant pour résoudre plusieurs problèmes que son modèle précédent, GPT-4O, ne peut pas. Ceux-ci comprenaient une question de chimie avancée et le puzzle mathématique qui a plié d'esprit suivant: «Une princesse est aussi vieille que le prince le sera lorsque la princesse est deux fois plus âgée que le prince lorsque l'âge de la princesse était la moitié de la somme de leur âge actuel. Quel est l'âge du prince et de la princesse? (La bonne réponse est que le prince a 30 ans et la princesse a 40 ans).

“Le [new] Le modèle apprend à penser par lui-même, plutôt que d'essayer d'imiter la façon dont les humains le pensaient », comme le fait un LLM conventionnel, dit Chen.

Openai affirme que son nouveau modèle fonctionne largement mieux sur un certain nombre d'ensembles de problèmes, y compris ceux axés sur le codage, les mathématiques, la physique, la biologie et la chimie. Lors de l'American Invitational Mathematics Examination (AIME), un test pour les étudiants en mathématiques, le GPT-4O a résolu en moyenne 12% des problèmes tandis que O1 a obtenu 83%, selon la société.