OpenAI a dévoilé Sora, un modèle de conversion de texte en vidéo (TTV) de pointe qui génère des vidéos réalistes d'une durée maximale de 60 secondes à partir d'une invite textuelle de l'utilisateur.
Ces derniers temps, nous avons assisté à de grandes avancées en matière de génération de vidéos par l'IA. Le mois dernier, nous avons été ravis que Google nous fasse une démonstration de l'IA. LumièreL'entreprise a également développé le modèle TTV, qui génère des clips vidéo de 5 secondes avec une cohérence et un mouvement excellents.
Quelques semaines plus tard, les impressionnantes vidéos de démonstration générées par Sora font déjà paraître Lumiere de Google comme un objet bien modeste.
Sora génère des vidéos de haute fidélité qui peuvent inclure plusieurs scènes avec des panoramiques de caméra simulés, tout en respectant scrupuleusement des messages-guides complexes. Il peut également générer des images, étendre les vidéos vers l'arrière et vers l'avant, et générer une vidéo en utilisant une image comme invite.
Les performances impressionnantes de Sora résident en partie dans des éléments que nous considérons comme acquis lorsque nous regardons une vidéo, mais qui sont difficiles à produire pour l'IA.
Voici un exemple de vidéo générée par Sora à partir de l'invitation : "Une bande-annonce de film présentant les aventures d'un homme de l'espace de 30 ans portant un casque de moto en laine tricotée rouge, ciel bleu, désert de sel, style cinématographique, filmé sur pellicule 35 mm, couleurs vives.
https://youtu.be/twyhYQM9254
Ce court clip présente quelques caractéristiques clés de Sora qui le rendent vraiment spécial.
- Le sujet était assez complexe et la vidéo générée s'y est conformée de près.
- Sora maintient la cohérence de son personnage. Même lorsque le personnage disparaît d'une image et réapparaît, son apparence reste cohérente.
- Sora conserve la permanence de l'image. Un objet dans une scène est conservé dans les images ultérieures lors d'un panoramique ou d'un changement de scène.
- La vidéo générée révèle une compréhension précise de la physique et des modifications de l'environnement. L'éclairage, les ombres et les empreintes de pas dans le marais salant en sont de bons exemples.
Sora ne se contente pas de comprendre la signification des mots de l'invite, il comprend comment ces objets interagissent les uns avec les autres dans le monde physique.
Voici un autre exemple de l'impressionnante vidéo que Sora peut générer.
https://youtu.be/g0jt6goVz04
L'idée de cette vidéo était la suivante : "Une femme élégante marche dans une rue de Tokyo remplie de néons lumineux et de panneaux de signalisation animés. Elle porte une veste en cuir noir, une longue robe rouge, des bottes noires et un sac à main noir. Elle porte des lunettes de soleil et du rouge à lèvres rouge. Elle marche avec assurance et décontraction. La rue est humide et réfléchissante, créant un effet miroir des lumières colorées. De nombreux piétons se promènent.
Un pas de plus vers l'AGI
Nous pouvons être époustouflés par les vidéos, mais c'est cette compréhension du monde physique qui enthousiasme particulièrement l'OpenAI.
Dans le cadre de la Sora blog postSora sert de base à des modèles capables de comprendre et de simuler le monde réel, une capacité dont nous pensons qu'elle constituera une étape importante dans la réalisation de l'AGI".
Plusieurs chercheurs estiment que l'intelligence artificielle incarnée est nécessaire pour parvenir à l'intelligence générale artificielle (AGI). Intégrer l'IA dans un robot capable de percevoir et d'explorer un environnement physique est un moyen d'y parvenir, mais cela s'accompagne d'une série de défis pratiques.
Sora a été entraîné à partir d'une grande quantité de données vidéo et d'images, ce qui, selon OpenAI, est à l'origine des capacités émergentes dont le modèle fait preuve en simulant des aspects des personnes, des animaux et des environnements du monde physique.
OpenAI affirme que Sora n'a pas été explicitement formé à la physique des objets en 3D, mais que les capacités émergentes sont "purement des phénomènes d'échelle".
Cela signifie que Sora pourrait éventuellement être utilisé pour simuler avec précision un monde numérique avec lequel une IA pourrait interagir sans qu'il soit nécessaire de l'incarner dans un dispositif physique tel qu'un robot.
D'une manière plus simpliste, c'est ce que les chercheurs chinois tentent de réaliser avec leur Robot d'IA pour enfants en bas âge appelé Tong Tong.
Pour l'instant, nous devons nous contenter des vidéos de démonstration fournies par OpenAI. Sora n'est accessible qu'aux membres de l'équipe rouge et à certains artistes visuels, concepteurs et cinéastes, afin de recueillir leurs commentaires et de vérifier l'alignement du modèle.
Une fois Sora rendu public, les travailleurs de l'industrie cinématographique de la SAG-AFTRA pourraient-ils ressusciter leurs piquets de grève ?