OpenAI Sora, il nuovo modello IA realizza video credibili partendo ...
OpenAI ha svelato al pubblico Sora, il suo nuovo modello di IA text-to-video. La nuova tecnologia permette di trasformare un prompt testuale con descrizioni in linguaggio naturale in video della durata massima di 1 minuto, con un elevato realismo sia visivo che contenutistico. Non è una novità assoluta, ma gli esempi pubblicati da OpenAI sono nettamente più realistici rispetto alle altre tecnologie text-to-video diffuse fino ad oggi.
Stando a quanto dichiarato da OpenAI nel sito ufficiale, Sora è in grado di generare "scene complesse con più personaggi, tipi di movimento specifici e dettagli accurati del soggetto e dello sfondo". Ciò significa che l’utente può inserire prompt testuali dettagliati e il sistema sarà capace di convertirli in clip video che rispecchiano fedelmente quanto descritto.
Sora promette video realistici partendo da prompt testuali e immagini fisse
Ad esempio, se si chiede a Sora di generare un video ambientato nella California dell’epoca della corsa all'oro, la tecnologia produrrà una scena aerea realistica di un paesaggio tipico di quel periodo storico, completa di personaggi, azioni e dettagli coerenti. Analogamente, se si chiede di ricreare situazioni fantasiose o con stili cinematorafici ben precisi, Sora genererà un video credibile partendo dalla richiesta dell'utente.
Il sistema si basa su sofisticate reti neurali che gli consentono di comprendere le leggi della fisica e come gli oggetti esistono e interagiscono nel mondo reale (al netto di qualche imprecisione, come la stessa azienda ammette). È quindi in grado di posizionare i soggetti nelle scene e farli muovere in modo naturale e convincente. Inoltre, Sora sa ricreare con precisione sia gli oggetti che i personaggi, senza tralasciare emozioni e tratti somatici. Oltre a riconoscere il testo testo, Sora può anche generare clip video a partire da immagini fisse, oppure completare spezzoni video esistenti, ad esempio aggiungendo fotogrammi mancanti o prolungando la durata del filmato.
Al momento Sora è disponibile soltanto ad un ristretto gruppo di "red teamer", cioè ricercatori che ne valutano rischi e potenziali implicazioni negative, e ad alcuni artisti per ottenere feedback. Non è quindi accessibile al grande pubblico, anche se OpenAI non ha escluso un possibile futuro rilascio più ampio. Il lancio di Sora segue quello di DALL-E 3, la tecnologia proprietaria per la generazione di immagini a partire da testo. Entrambi gli strumenti promettono di rivoluzionare il modo in cui si creano e consumano contenuti digitali, anche se destano forti preoccupazioni rispetto ai possibili utilizzi dannosi e alle sfide etiche sollevate dalla creazione di materiale digitale sempre più credibile e sofisticato. Proprio per questo OpenAI sta procedendo con cautela, limitando l’accesso a pochi esperti selezionati.