OpenAI’s Sora Turns AI Prompts Into Photorealistic Videos
Nous savons déjà que les chatbots d'Openai peuvent passer l'examen du barre sans aller à la faculté de droit. Maintenant, juste à temps pour les Oscars, une nouvelle application Openai appelée Sora espère Master Cinema sans aller à l'école de cinéma. Pour l'instant, un produit de recherche, Sora va à quelques créateurs sélectionnés et à un certain nombre d'experts en sécurité qui l'élèvera pour les vulnérabilités de sécurité. OpenAI prévoit de le mettre à la disposition de tous les auteurs en herbe à une date non spécifiée, mais il a décidé de le prévisualiser à l'avance.
D'autres entreprises, de géants comme Google aux startups comme Pisteont déjà révélé des projets de texte à video IA. Mais Openai dit que Sora se distingue par son photoréalisme frappant – quelque chose que je n'ai pas vu dans ses concurrents – et sa capacité à produire des clips plus longs que les brefs extraits que d'autres modèles font généralement, jusqu'à une minute. Les chercheurs à qui j'ai parlé ne diront pas combien de temps il faut pour rendre toute cette vidéo, mais lorsqu'il a appuyé, ils l'ont décrit comme plus dans le stade «sortir pour un burrito» que «prendre quelques jours de congé». Si l'on a vu les exemples sélectionnés à la main, on en croit, l'effort en vaut la peine.
Openai ne m'a pas laissé entrer mes propres invites, mais il a partagé quatre instances de la puissance de Sora. (Aucun n'a approché la prétendue limite d'une minute; la plus longue était de 17 secondes.) La première provenait d'une invite détaillée qui ressemblait à la configuration d'un scénariste obsessionnel: «La belle ville de Tokyo neigeuse est animée. La caméra se déplace à travers la rue animée de la ville, suivant plusieurs personnes en profitant du beau temps enneigé et en faisant du shopping dans les stands à proximité. De magnifiques pétales de Sakura volent à travers le vent avec des flocons de neige. »
Le résultat est une vision convaincante de ce qui est incontestablement Tokyo, dans ce moment magique où les flocons de neige et les fleurs de cerisier coexistent. La caméra virtuelle, comme apposée sur un drone, suit un couple alors qu'ils se promènent lentement à travers un paysage de rue. L'un des passants porte un masque. Les voitures grondent sur une chaussée de la rivière vers leur gauche, et vers les acheteurs droits, tournent dans et hors d'une rangée de minuscules magasins.
Ce n'est pas parfait. Ce n'est que lorsque vous regardez le clip plusieurs fois que vous réalisez que les personnages principaux – un couple se promenant sur le trottoir enneigé – aurait fait face à un dilemme si la caméra virtuelle avait continué à fonctionner. Le trottoir qu'ils occupent semble être impassible; Ils auraient dû passer au-dessus d'un petit garde-corps vers une entrée parallèle étrange à leur droite. Malgré ce doux problème, l'exemple de Tokyo est un exercice époustouflant dans la construction du monde. En bas de la route, les concepteurs de production débattent s'il s'agit d'un puissant collaborateur ou d'un tueur d'emploi. En outre, les gens de cette vidéo – qui sont entièrement générés par un réseau neuronal numérique – ne sont pas montrés en gros plan, et ils ne font aucune émotion. Mais l'équipe Sora dit que dans d'autres cas, ils ont eu de faux acteurs montrant de vraies émotions.
Les autres clips sont également impressionnants, notamment l'un demandant «une scène animée d'un court monstre moelleux à genoux à côté d'une bougie rouge», ainsi que des directions de scène détaillées («Eyes larges et bouche ouverte») et une description de l'ambiance souhaitée de le clip. Sora produit une créature pixar qui semble avoir de l'ADN d'un furby, d'un gremlin et de sully Monsters, Inc. Je me souviens quand ce dernier film est sorti, Pixar a fait une grande partie de la difficulté de créer le Texture ultra-complexe d'une fourrure d'un monstre Alors que la créature se déplaçait. Il a fallu tous les mois des sorciers de Pixar pour bien faire les choses. La nouvelle machine de texte à vidéo d'Openai… vient de le faire.
«Il apprend sur la géométrie et la cohérence 3D», explique Tim Brooks, chercheur sur le projet, de cette réalisation. «Nous n'avons pas cuit cela – il est tout simplement sorti de la vue de beaucoup de données.»
Bien que les scènes soient certainement impressionnantes, les capacités les plus surprenantes de Sora sont celles pour lesquelles elle n'a pas été formée. Alimenté par une version du modèle de diffusion Utilisé par le générateur d'images Dalle-3 d'OpenAI ainsi que par le moteur à base de transformateur de GPT-4, Sora ne fait pas simplement produire des vidéos qui répondent aux exigences des invites, mais le font d'une manière qui montre une compréhension émergente de la grammaire cinématographique .
Cela se traduit par un flair pour la narration. Dans une autre vidéo qui a été créée à propos d'une invite pour «un monde de papier magnifiquement rendu d'un récif corallien, rempli de poissons colorés et de créatures marines». Bill Peebles, un autre chercheur du projet, note que Sora a créé une poussée narrative par ses angles de caméra et son timing. «Il y a en fait plusieurs changements de tir – ils ne sont pas cousus ensemble, mais générés par le modèle en une seule fois», dit-il. «Nous ne l'avons pas dit de le faire, il l'a fait automatiquement.»
Vidéo générée par l'AI-AI avec l'invite «Un monde de papier magnifiquement rendu d'un récif corallien, rempli de poissons colorés et de créatures marines».Avec l'aimable autorisation d'Openai
Dans un autre exemple que je n'ai pas vu, Sora a été invité à faire une visite d'un zoo. «Cela a commencé avec le nom du zoo sur un grand panneau, s'est progressivement tourné, puis a eu un certain nombre de changements de tir pour montrer les différents animaux qui vivent au zoo», dit Peebles, «il l'a fait dans une belle et belle et belle La manière cinématographique qu'il n'avait pas été explicitement chargée de faire. »
Une fonctionnalité de Sora que l'équipe OpenAI n'a pas montrée et peut ne pas sortir pendant un certain temps, est la possibilité de générer des vidéos à partir d'une seule image ou d'une séquence de cadres. «Ce sera une autre façon vraiment cool d'améliorer les capacités de narration», explique Brooks. «Vous pouvez dessiner exactement ce que vous avez dans votre esprit, puis l'animer à la vie.» OpenAI est conscient que cette fonctionnalité a également le potentiel de produire des fesses profondes et une désinformation. «Nous allons faire très attention à toutes les implications de sécurité pour cela», ajoute Peebles.