Solo qualche settimana fa, Nvidia è divenuta la prima azienda per capitalizzazione di mercato. Adesso però, un’inchiesta di 404 Media svela una pratica controversa messa in atto dal colosso. Nvidia avrebbe utilizzato su larga scala tecniche di data scraping per estrarre milioni di video da piattaforme come YouTube e Netflix, impiegandoli per addestrare il suo nuovo modello di intelligenza artificiale, Cosmos. Un modus operandi con cui l’organizzazione si sarebbe assicurata un consolidamento ulteriore nel settore così sfidante dell’intelligenza artificiale.
Cosmos è presentato da Nvidia come un modello di base che integra diverse discipline, dalla fisica all’intelligenza artificiale, con l’obiettivo di alimentare una vasta gamma di applicazioni, dai mondi virtuali ai sistemi di guida autonoma. Il metodo utilizzato per far crescere l’AI pare piuttosto aggressivo: i dipendenti sono stati incaricati di scaricare massivamente video da YouTube, impiegando strumenti automatizzati e aggirando i blocchi della piattaforma.
L’obiettivo di Nvidia
L’obiettivo era ambizioso: raccogliere l’equivalente di 80 anni di video ogni giorno. Le implicazioni legali e etiche di questa pratica sono evidenti. Sia Google (proprietaria di YouTube) che Netflix hanno condannato fermamente l’operato di Nvidia, sottolineando come lo scraping dei loro contenuti violi chiaramente i termini di servizio. Nvidia, dal canto suo, si difende sostenendo di agire nel rispetto della legge sul copyright. L’azienda argomenta che l’estrazione di dati e informazioni da una fonte per creare nuove espressioni è una pratica lecita, protetta dal principio del “fair use“. Tuttavia, le dichiarazioni di alcuni dipendenti interni, che hanno espresso dubbi sull’eticità del progetto, mettono in discussione questa versione. I dirigenti di Nvidia avrebbero rassicurato i lavoratori, affermando di avere le autorizzazioni necessarie.
Un mercato da far west
Questo caso solleva importanti interrogativi: fino a che punto è lecito utilizzare dati estratti da altre fonti per addestrare modelli di intelligenza artificiale? L’uso massiccio di dati preesistenti rischia di limitare la creatività e l’originalità nell’ambito dell’intelligenza artificiale? Chi è responsabile delle conseguenze dell’uso improprio dei dati?
L’azienda avrebbe anche chiesto ai dipendenti di scaricare film, trailer, gameplay e altri contenuti, violando le licenze d’uso che limitavano il download a scopi accademici o comunque non commerciali. Per evitare di essere scoperta, Nvidia permetteva agli utenti di affidarsi a macchine virtuali, randomizzando gli indirizzi IP ad ogni accesso.