Ecco i “digital human” di Nvidia, una nuova buzz word per vendere l’AI

Antonino Caffo

10 mesi fa

Di Digital Human si parla da anni, probabilmente decenni. Ma quando a farlo è una realtà specializzata, il termine resta noto solo agli addetti ai lavori. Un po’ come successo con l’intelligenza artificiale, che ancora oggi molti confondono con l’AI generativa, i digital human sono pronti a invadere il mercato, almeno dal punto di vista commerciale. Merito stavolta di Nvidia, che nella prima giornata del Computex 2024 di Taipei ha svelato ACE.

L’acronimo sta per Avatar Cloud Engine, ossia nient’altro che una piattaforma dedicata alla realizzazione di chatbot non più solo testuali ma dotati di volto e voce. Il plus? ACE è un toolbox per sviluppatori partner, che potranno implementare i loro digital human dove meglio vorranno, dalle app b2b ai videogame. Qui è il primo, (unico?), elemento di interesse: la tecnologia non resta appannaggio del singolo fornitore ma diventa mezzo di innovazione democratico, solo dal punto di vista concettuale, difficilmente dei costi.

Ecosistema completo

Nvidia ACE è disponibile a livello generale per il cloud, in accesso anticipato per Pc RTX AI, utilizzato daper l’assistenza clienti, giochi e sanità, tra cui Dell Technologies, ServiceNow, Aww Inc., Inventec, Perfect World Games. All’interno del pacchetto ci sono diversi moduli. Da Riva ASR, TTSeNMT, per il riconoscimento vocale automatico, la conversione da testo a voce e la traduzione, a Nemotron LLM, per la comprensione del linguaggio e la generazione di risposte contestuali. E poi Audio2Face, per animazioni facciali realistiche basate su tracce audio e Omniverse RTX, per ricreare pelle e capelli realistici e tracciati in tempo reale.

E non è tutto: con Audio2Gesture si generano gesti del corpo basati su tracce audio, mentre Nemotron-3 4.5B è un nuovo Small Language Model (SLM) creato appositamente per l’inferenza Pc AI RTX sul dispositivo a bassa latenza. “Gli esseri umani digitali rivoluzioneranno le industrie”, ha affermato Jensen Huang, fondatore e CEO di NVIDIA. “Le scoperte rivoluzionarie nei modelli linguistici multimodali e nella grafica neurale, forniti da NVIDIA ACE al nostro ecosistema di sviluppatori, ci stanno avvicinando a un futuro di elaborazione basata sugli intenti, in cui interagire con i computer è naturale quanto interagire con gli esseri umani”.

Gli umani digitali arrivano a 100 milioni di Pc

Ad oggi, Nvidia dice di aver fornito ACE come microservizi agli sviluppatori per operare nei data center, implementando la base installata di 100 milioni di Pc e laptop con schede RTX AI. Questi includono il già citato Nemotron-3 4.5B, il primo SLM dell’azienda, che è stato creato appositamente per funzionare su dispositivi con livelli di precisione e accuratezza simili a quelli dei modelli LLM (Large Language Model) in esecuzione nel cloud.

Nvidia vuole puntare sulla potenza in ambito AI delle GeForce RTX. Ed è per perseguire tale obiettivo che sta collaborando con Microsoft per creare un’API, in arrivo entro fine anno, con cui integrare l’accelerazione GPU in Windows Copilot Runtime. Una volta raggiunto il traguardo, i modelli linguistici sviluppati per girare in locale, come quello di Copilot+, potranno utilizzare le capacità di accelerazione AI delle GeForce RTX, maggiori rispetto a quelle delle NPU.

Il video della demo del videogame

Al Computex, l’azienda ha mostrato una versione aggiornata della demo del videogame Covert Protocol, sviluppato in collaborazione con Inworld AI. Utilizzando Audio2Face e Riva ASR in esecuzione localmente su Pc GeForce RTX , la demo consente ai giocatori di interagire e influenzare personaggi (NPC) digitali-umani con un linguaggio cosiddetto “colloquiale”.