OpenAI, l’éditeur de ChatGPT et du générateur d’images DALL-E, a dévoilé un nouvel outil, baptisé « Sora », capable de créer sur simple saisie de texte des vidéos réalistes pouvant durer jusqu’à une minute, une innovation majeure dans le domaine de l’intelligence artificielle.
Basée sur les recherches antérieures menées sur les programmes DALL-E et GPT, cette nouvelle plateforme est encore en cours de test, a précisé la start-up californienne alliée à Microsoft, qui a toutefois présenté quelques vidéos et leur genèse.
Le programme peut générer des vidéos d’une durée maximale d’une minute « tout en maintenant une qualité visuelle et respectant la demande de l’utilisateur », a indiqué OpenAI sur son site internet.
Sora peut « générer des scènes complexes avec plusieurs personnages, des types de mouvements spécifiques et des détails précis », détaille la start-up sur son site.
Sora permet aussi de créer une vidéo à partir d’une image fixe, assure le géant de l’intelligence artificielle, ou d’allonger des vidéos existantes.
Sam Altman, le patron d’OpenAI, a déclaré sur le réseau social X que sa société allait « offrir à un nombre limité de créateurs l’accès » à ce nouvel outil, dans le cadre d’une phase expérimentale.
Il a également invité les utilisateurs à faire des propositions pour générer des vidéos, dont il a quelques instants plus tard diffusé les plus pertinentes sur la plateforme.
Parmi ces vidéos, on peut voir deux chiens en train de s’ébattre dans la neige à la montagne. Une autre vidéo montre l’envol d’un animal imaginaire, moitié canard, moitié dragon, devant un magnifique coucher de soleil, avec sur le dos un hamster vêtu d’une tenue sportive.
Sora sert de base à « des programmes capables de comprendre et de simuler le monde réel », explique la start-up, qui espère qu’elle « constituera une étape importante dans la réalisation de l’AGI » : l’Intelligence artificielle générale, un système hautement autonome qui surpasserait les humains dans la plupart des tâches économiquement rentables.
OpenAI a prévenu que le « modèle actuel » de la plateforme présentait « des défauts » avec une confusion entre la gauche et la droite ou l’incapacité à maintenir une continuité visuelle durant toute la vidéo.
« Par exemple, une personne peut prendre une bouchée d’un biscuit, mais après, le biscuit peut ne pas avoir de trace de morsure », explique l’éditeur.
En dévoilant ce nouvel outil, la compagnie a affirmé que la question de la sécurité constituait un enjeu essentiel et que des simulations seraient organisées avec des utilisateurs mis au défi de produire des dysfonctionnements ou de créer des contenus inappropriés, afin de mieux définir les limites de la plateforme.
« Nous allons engager des décideurs politiques, des éducateurs et des artistes à travers le monde pour comprendre leurs préoccupations et identifier les cas positifs d’utilisation de cette nouvelle technologie », a indiqué OpenAI.
Meta, Google et Runway AI, qui travaillent sur des applications similaires dites « text-to-video », ont déjà aussi présenté des échantillons.
© Agence France-Presse
Suivez-nous via notre canal Telegram pour ne rien rater de l’actualité.