IA generativa, ecco “Sora” di OpenAI: trasforma parole in immagini in movimento (video)

Flavio Fabbri

1 anno fa

Trasformare comandi di testo in video iper-realistici

Dare alcune indicazioni di testo, con parole chiave precise e orientate ad un progetto, ed ottenere dei video realistici della durata di un minuto, o iper-realistici, con tanto di personaggi e oggetti in movimento. Così nasce “Sora”, modello di intelligenza artificiale (IA) generativa di OpenAI.

Un nuovo salto in avanti nella generazione di contenuti digitali multimediali, sempre più in grado di riprodurre realtà virtuali copia di quelle fisiche, con tanto di scene complesse e sfondi ben curati, in cui interagiscono tra loro più livelli di esperienza del quotidiano.

Non è un’IA al momento ancora disponibile al pubblico, spiegano da OpenAI (casa madre della celebre ChatGPT), perché ci sono ancora molti aspetti da valutare e su cui intervenire, ad esempio c’è da comprenderne rischi e pericoli, secondo quanto riportato dal New York Times.

Un team di ricercatori, sviluppatori e professionisti per capire i pericoli insiti in questa IA

A lavorare su “Sora” c’è un team di accademici e ricercatori esterni alla Fondazione, proprio per capire ed individuare tutti i possibili scenari di utilizzo, fino a quelli più dannosi per la sicurezza dei Paesi, delle imprese e dei cittadini.

Nel team ci sono anche artisti, registi e designer, per lavorare su un avanzamento del modello verso l’impiego in ambiti professionali e creativi.

Nella pagina di presentazione del progetto, si legge: “Stiamo insegnando all’intelligenza artificiale a comprendere e simulare il mondo fisico in movimento, con l’obiettivo di formare modelli che aiutino le persone a risolvere problemi che richiedono l’interazione nel mondo reale”.

Un aiuto dovrebbe arrivare dalle etichette a cui sta lavorando il consorzio C2pa, di cui fanno parte OpenAI ma anche la Bbc e il New York Times. L’idea è inserire dati aggiuntivi che evidenzino l’eventuale creazione di un file tramite IA e bloccarne la diffusione online, qualora vengano violate le norme condivise. A sollevare un’ulteriore polemica è la stessa OpenAI, affermando che “nonostante ricerche e test approfonditi non è possibile prevedere tutti i modi positivi in ;;cui le persone utilizzeranno la nostra tecnologia, né come ne abuseranno”.

I limiti attuali di “Sora”

La caratteristica di base del modello di IA generativa in questione è la sua capacità non solo di comprendere gli oggetti che il creatore chiede di inserire, ma di conoscerne anche l’esatta ubicazione nello spazio. Se gli chiediamo di inserire un albero, non solo sa cos’è un albero, ma ne comprende anche l’esistenza nel mondo.

Come spiegato dalla stessa OpenAI, c’è ancora molto lavoro da fare, non sempre la precisione di un movimento o di un’azione viene integrata definitivamente nel progetto (si dà un morso ad una mela e la si poggia sul tavolo, ma nella scena la mela rimane poi intatta).

Il modello, inoltre, può anche confondere i dettagli spaziali di un comando, ad esempio confondendo sinistra e destra, e può avere difficoltà con descrizioni precise di eventi che si verificano nel tempo, o seguire il movimento di una telecamera sulla scena.

Timori e dubbi da sciogliere

Ma non è solo un problema di limiti tecnici e tecnologici da superare. Il modello “Sora” pone domande molto serie sul suo impatto a livello sociale, politico, di sicurezza nazionale. Quando tra qualche mese, probabilmente, si inizieranno a trovare in rete un gran numero di video generati in questo moto, così aderenti alla realtà (almeno come l’abbiamo conosciuta e vissuta finora), così profondamente reali, che effetto avranno sul comportamento del pubblico di rete? Chi controllerà che questi contenuti non siano pericolosi per la sicurezza pubblica?

La propaganda governativa o di gruppi armati di stampo terroristico/milizie varie (magari sponsorizzati da entità statali), il complottismo, il marketing aggressivo, sono solo alcuni esempi di come l’IA generativa avanzata possa creare problemi di sicurezza nazionale e pubblica.
Presto, se non c’è qualcuno che lavora appositamente su questo, non saremo più in grado di distinguere tra il vero e il falso, con possibili gravi conseguenze a livello sociale, economico e politico, sia interno, sia globale.

E poi, in che modo questa IA si è addestrata, su quali record di dati? I video generati in questo modo sono stati frutto di un saccheggio in rete o di regolari licenze di copyright?