Apple’s MM1 AI Model Shows a Sleeping Giant Is Waking Up

Alors que l'industrie de la technologie est devenue Gaga pour l'intelligence artificielle générative, un géant a retenu: Apple. L'entreprise n'a pas encore présenté autant d'emoji générés par l'IA et, selon un New York Times Rapport aujourd'hui et Rapports antérieurs De Bloomberg, c'est en pourparlers préliminaires avec Google sur l'ajout du modèle Gemini AI de la société de recherche aux iPhones.

Pourtant un document de recherche Vendredi dernier en ligne vendredi dernier, les ingénieurs d'Apple suggèrent que l'entreprise fait de nouveaux investissements importants en IA qui portent déjà des fruits. Il détaille le développement d'un nouveau modèle d'IA génératif appelé MM1 capable de travailler avec du texte et des images. Les chercheurs le montrent en répondant aux questions sur les photos et en affichant le type de compétences générales de connaissances montrées par des chatbots comme Chatgpt. Le nom du modèle n'est pas expliqué mais pourrait représenter le multimodal 1.

MM1 semble être similaire dans la conception et la sophistication à une variété de modèles d'IA récents d'autres géants de la technologie, notamment l'open source de Meta et les Gémeaux de Google. Les travaux par les rivaux et les universitaires d'Apple montrent que les modèles de ce type peuvent être utilisés pour alimenter les chatbots capables ou créer des «agents» qui peuvent résoudre des tâches en écrivant du code et en prenant des actions telles que l'utilisation d'interfaces informatiques ou de sites Web. Cela suggère que MM1 pourrait encore trouver son chemin dans les produits d'Apple.

«Le fait qu'ils font cela, cela montre qu'ils ont la capacité de comprendre comment s'entraîner et comment construire ces modèles», dit Ruslan Salakhutdinovprofesseur à Carnegie Mellon qui a dirigé des recherches sur l'IA à Apple il y a plusieurs années. «Cela nécessite une certaine expertise.»

MM1 est un modèle multimodal de grande langue, ou MLLM, ce qui signifie qu'il est formé sur des images ainsi que du texte. Cela permet au modèle de répondre aux invites de texte et de répondre également à des questions complexes sur des images particulières.

Un exemple dans le journal de recherche Apple montre ce qui s'est passé lorsque MM1 a reçu une photo d'une table de restaurant à soleil avec quelques bouteilles de bière et également une image du menu. Lorsqu'on lui a demandé combien quelqu'un s'attendrait à payer pour «toute la bière sur la table», le modèle lit à juste titre le prix correct et maîtrise le coût.

Lorsque Chatgpt a été lancé en novembre 2022, il ne pouvait qu'ingérer et générer du texte, mais plus récemment, son créateur Openai et d'autres ont travaillé pour étendre la technologie de modèle de grande langue sous-jacente pour travailler avec d'autres types de données. Lorsque Google a lancé Gemini (le modèle qui alimente désormais sa réponse à Chatgpt) en décembre dernier, la société a vanté sa nature multimodale comme commençant une nouvelle direction importante dans l'IA. «Après la montée en puissance des LLM, les MLLM émergent comme la prochaine frontière des modèles de fondation», explique le journal d'Apple.

MM1 est un modèle relativement petit tel que mesuré par son nombre de «paramètres» ou les variables internes qui sont ajustées en tant que modèle formées. Kate Saenkoprofesseur à l'Université de Boston qui se spécialise dans la vision par ordinateur et l'apprentissage automatique, dit que cela pourrait faciliter que les ingénieurs d'Apple expérimentent différentes méthodes de formation et raffinements avant de s'allonger lorsqu'ils frappent quelque chose de prometteur.

Saenko dit que le document MM1 fournit une quantité surprenante de détails sur la façon dont le modèle a été formé pour une publication d'entreprise. Par exemple, les ingénieurs derrière MM1 décrivent des astuces pour améliorer les performances du modèle, y compris l'augmentation de la résolution des images et le mélange de données de texte et d'image. Apple est célèbre pour son secret, mais il a précédemment montré une ouverture inhabituelle sur la recherche sur l'IA car elle a cherché à attirer le talent nécessaire pour rivaliser dans la technologie cruciale.