Google’s Gemini Is the Real Start of the Generative AI Boom

L'histoire de L'intelligence artificielle a été ponctuée par des périodes de soi-disant «hiver de l'IA», lorsque la technologie semblait respecter une impasse et un financement asséché. Chacun a été accompagné de proclamations selon lesquelles rendre les machines vraiment intelligentes est trop difficile à comprendre pour les humains.

La sortie de Google de Gemini, affirmée être un type fondamentalement nouveau de modèle d'IA et le plus puissant de l'entreprise à ce jour, suggère qu'un nouvel hiver d'IA n'arrive pas de sitôt. En fait, bien que les 12 mois depuis le lancement de Chatgpt ont été une année record pour l'IA, il y a de bonnes raisons de penser que le boom de l'IA actuel ne fait que commencer.

OpenAI n'avait pas de grandes attentes lorsqu'elle a lancé «l'aperçu de la recherche à faible clé» appelé Chatgpt en novembre 2022. C'était simplement un test d'une nouvelle interface pour ses modèles de langage de grand texte (LLM). Mais la capacité du chatbot à faire un si large éventail de choses, de la synthèse des essais et de la poésie à la réponse aux problèmes de codage, a impressionné et énervé de nombreuses personnes et a mis l'industrie technologique. Lorsque OpenAI a ajouté son nouveau GPT-4 LLM à Chatgpt, certains experts ont été tellement paniqués qu'ils ont supplié l'entreprise de ralentir.

Les preuves étaient déjà rares que quiconque ait tenu compte de cet appel d'alarme. Il est inconcevable maintenant que Google a augmenté la mise – et a peut-être également changé les règles du jeu – en annonçant des Gémeaux.

Google avait déjà précipité une réponse directe à Chatgpt sous la forme de Bard plus tôt cette année, lançant enfin la technologie LLM Chatbot qu'elle avait développée plus tôt qu'Openai mais a choisi de garder privé. Avec Gemini, il prétend avoir ouvert une nouvelle ère qui va au-delà des LLM principalement ancrés en texte – préparant le terrain pour une nouvelle série de produits AI significativement différents de ceux rendus par Chatgpt.

Google appelle Gemini un modèle «multimodal» nativement », ce qui signifie qu'il peut apprendre des données au-delà du texte, en précipitant également les informations de l'audio, de la vidéo et des images. Chatgpt montre comment les modèles d'IA peuvent apprendre une quantité impressionnante sur le monde si elles sont fournies suffisamment de texte. Et certains chercheurs d'IA ont soutenu que Rendre les modèles de langue plus grands augmenterait leurs capacités au point de rivaliser avec les humains.

Mais il n'y a que beaucoup de choses que vous pouvez en apprendre davantage sur la réalité physique à travers le filtre du texte que les humains ont écrit à ce sujet, et les limites difficiles à éradiquer des LLM comme GPT-4 – comme des informations hallucinantes, un mauvais raisonnement et leurs défauts de sécurité étranges – de suggérer que la mise à l'échelle de la technologie existante a ses limites.