OpenAI ha presentato Sora, un modello IA in grado di generare video realistici e fantasiosi a partire da semplici istruzioni testuali. Al momento il sistema è capace di creare scene complesse della durata massima di 1 minuto.

OpenAI ha svelato al pubblico Sora, il suo nuovo modello di IA text-to-video. La nuova tecnologia permette di trasformare un prompt testuale con descrizioni in linguaggio naturale in video della durata massima di 1 minuto, con un elevato realismo sia visivo che contenutistico. Non è una novità assoluta, ma gli esempi pubblicati da OpenAI sono nettamente più realistici rispetto alle altre tecnologie text-to-video diffuse fino ad oggi.

Il tuo browser non supporta il tag video. Prompt: A cat waking up its sleeping owner demanding breakfast. The owner tries to ignore the cat, but the cat tries new tactics and finally the owner pulls out a secret stash of treats from under the pillow to hold the cat off a little longer.

Stando a quanto dichiarato da OpenAI nel sito ufficiale, Sora è in grado di generare "scene complesse con più personaggi, tipi di movimento specifici e dettagli accurati del soggetto e dello sfondo". Ciò significa che l’utente può inserire prompt testuali dettagliati e il sistema sarà capace di convertirli in clip video che rispecchiano fedelmente quanto descritto.

Sora promette video realistici partendo da prompt testuali e immagini fisse

Il tuo browser non supporta il tag video. Prompt: Historical footage of California during the gold rush

Ad esempio, se si chiede a Sora di generare un video ambientato nella California dell’epoca della corsa all'oro, la tecnologia produrrà una scena aerea realistica di un paesaggio tipico di quel periodo storico, completa di personaggi, azioni e dettagli coerenti. Analogamente, se si chiede di ricreare situazioni fantasiose o con stili cinematorafici ben precisi, Sora genererà un video credibile partendo dalla richiesta dell'utente.

Il tuo browser non supporta il tag video. Prompt: The camera directly faces colorful buildings in burano italy. An adorable dalmation looks through a window on a building on the ground floor. Many people are walking and cycling along the canal streets in front of the buildings.
Il tuo browser non supporta il tag video. Prompt: An extreme close-up of an gray-haired man with a beard in his 60s, he is deep in thought pondering the history of the universe as he sits at a cafe in Paris, his eyes focus on people offscreen as they walk as he sits mostly motionless, he is dressed in a wool coat suit coat with a button-down shirt , he wears a brown beret and glasses and has a very professorial appearance, and the end he offers a subtle closed-mouth smile as if he found the answer to the mystery of life, the lighting is very cinematic with the golden light and the Parisian streets and city in the background, depth of field, cinematic 35mm film.
Il tuo browser non supporta il tag video. Prompt: A white and orange tabby cat is seen happily darting through a dense garden, as if chasing something. Its eyes are wide and happy as it jogs forward, scanning the branches, flowers, and leaves as it walks. The path is narrow as it makes its way between all the plants. the scene is captured from a ground-level angle, following the cat closely, giving a low and intimate perspective. The image is cinematic with warm tones and a grainy texture. The scattered daylight between the leaves and plants above creates a warm contrast, accentuating the cat’s orange fur. The shot is clear and sharp, with a shallow depth of field.

Il sistema si basa su sofisticate reti neurali che gli consentono di comprendere le leggi della fisica e come gli oggetti esistono e interagiscono nel mondo reale (al netto di qualche imprecisione, come la stessa azienda ammette). È quindi in grado di posizionare i soggetti nelle scene e farli muovere in modo naturale e convincente. Inoltre, Sora sa ricreare con precisione sia gli oggetti che i personaggi, senza tralasciare emozioni e tratti somatici. Oltre a riconoscere il testo testo, Sora può anche generare clip video a partire da immagini fisse, oppure completare spezzoni video esistenti, ad esempio aggiungendo fotogrammi mancanti o prolungando la durata del filmato.

Il tuo browser non supporta il tag video. Prompt: Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.
Il tuo browser non supporta il tag video. Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

Al momento Sora è disponibile soltanto ad un ristretto gruppo di "red teamer", cioè ricercatori che ne valutano rischi e potenziali implicazioni negative, e ad alcuni artisti per ottenere feedback. Non è quindi accessibile al grande pubblico, anche se OpenAI non ha escluso un possibile futuro rilascio più ampio. Il lancio di Sora segue quello di DALL-E 3, la tecnologia proprietaria per la generazione di immagini a partire da testo. Entrambi gli strumenti promettono di rivoluzionare il modo in cui si creano e consumano contenuti digitali, anche se destano forti preoccupazioni rispetto ai possibili utilizzi dannosi e alle sfide etiche sollevate dalla creazione di materiale digitale sempre più credibile e sofisticato. Proprio per questo OpenAI sta procedendo con cautela, limitando l’accesso a pochi esperti selezionati.

