Come funziona Vasa-1, la nuova AI di Microsoft che sfida Sora di OpenAI

Piermario Boccellato

11 mesi fa

La divisione di Microsoft in Asia ha presentato un nuovo progetto di intelligenza artificiale, chiamato Vasa-1, che può realizzare video di persone partendo solo da una loro foto.

La piattaforma, concorrente di Sora, il software sviluppato dal creatore di ChatGpt, OpenAI, può anche replicare la voce di un individuo, con solo pochi secondi di esempi campionati. L’intento è, per i ricercatori, “aprire la strada a interazioni con avatar realistici che emulano comportamenti umani”. Il risultato finale apre a ulteriori domande sulle capacità di distinguere un contenuto generato dall’IA da uno reale.

Al momento, Vasa-1 è solo un esperimento dei laboratori di Microsoft Research e non un programma pensato per un utilizzo ampio. Il colosso americano ha pubblicato diversi esempi in cui si vedono volti, ad un primo sguardo verosimili, pronunciare varie frasi. Anche se i movimenti delle labbra e della testa potrebbero sembrare artefatti, il potenziale rischio di uso della tecnologia per diffondere deepfake, filmati fasulli, è alto. I ricercatori stessi ne sono consapevoli e per questo hanno deciso di non rilasciare “una demo, un prodotto e ulteriori dettagli di implementazione o qualsiasi offerta correlata” finché non saranno sicuri che la loro tecnologia “sarà utilizzata in modo responsabile e in conformità con le corrette procedure”.

Secondo il documento di Microsoft, Vasa-1 è stato addestrato sul set di dati VoxCeleb2, che contiene “oltre 1 milione di espressioni di 6.112 individui celebri” estratte dai video di YouTube. Anche se lo strumento è stato addestrato su volti reali, Microsoft dimostra che Vasa-1 può funzionare anche su disegni e opere. Gli esperti hanno combinato la Mona Lisa con un file audio dell’attrice Anne Hathaway. “Pur riconoscendo la possibilità di un uso improprio, i vantaggi dell’IA per video vanno dall’equità educativa al miglioramento dell’accessibilità per le persone con difficoltà di comunicazione, fino alla compagnia o il supporto terapeutico a chi ne ha bisogno” spiega Microsoft.

2. Realism and liveliness – example 1 pic.twitter.com/Kz0Bm2NRNy
— Min Choi (@minchoi) April 18, 2024

Niente demo pubblica per evitare abusi

Nonostante le sue potenzialità, il team di Microsoft è consapevole che VASA-1 potrebbe essere utilizzato in modo improprio, ad esempio per creare contenuti fuorvianti o ingannevoli. Pertanto, i ricercatori hanno deciso di non rilasciare una demo online, un’API o un prodotto fino a quando non saranno certi che la tecnologia sarà utilizzata in modo responsabile e in conformità con le normative appropriate.

L’intelligenza artificiale sta facendo passi da gigante nel ricreare le espressioni umane, ma la strada è ancora lunga. Inoltre, sarà fondamentale garantire che sistemi di questo tipo siano utilizzati in modo etico e responsabile, per evitare possibili abusi e inganni.