dati e ai

La corsa ai dati per allenare le AI: nella lotta tra Reddit e Microsoft chi ci guadagna è Google

di |

Secondo il CEO di Reddit, chi vuole usare i dati della piattaforma per addestrare i suoi modelli di AI deve pagare. Microsoft non lo ha fatto (a differenza di Google) e dunque si è vista bloccare l'accesso al sito.

Dopo aver stretto accordi con Google e OpenAI , il CEO di Reddit, Steve Huffman, chiede a Microsoft di pagare se il colosso vuole continuare a raccogliere dati dal sito. In un’intervista a The Verge, il manager ha affermato: “Senza questi accordi, non abbiamo voce in capitolo o conoscenza su come vengono visualizzati i nostri dati e a cosa servono, il che ci ha messo nella posizione di bloccare le persone che non sono state disposte a scendere a patti su come vorremmo che le informazioni venissero utilizzate”. Huffman ha chiaramente parlato di Microsoft, Anthropic e Perplexity per essersi rifiutati di negoziare, affermando che è stato “un vero dolore il dover bloccare queste aziende”.

La presa di posizione arriva ad una settimana dalla diffusione dei report secondo cui i post di Reddit apparivano solo sul motore di ricerca di Google, non su Bing, DuckDuckGo o altre alternative di Microsoft. A febbraio, Reddit ha stretto un accordo di licenza da 60 milioni di dollari all’anno con Google, che consente al gigante della tecnologia di addestrare la sua IA sui post degli utenti della piattaforma. The Verge ha riferito a giugno che Reddit ha aggiornato il suo sito per impedire alle aziende che non hanno stipulato tali accordi di scansionare i post. Reddit non ha partnership con Microsoft o con le startup di IA Anthropic e Perplexity. Secondo quanto riferito, i dipendenti di entrambe hanno confermato di essere stati bloccati dall’accesso ai dati su Reddit.

Cresce lo scraping dei dati su Reddit

Gli sviluppatori di chatbot cercano negli spazi più reconditi di internet tutti i contenuti possibili per addestrare i loro progetti: testi, immagini, video e codice gratuiti così da insegnare al software a comportarsi come gli esseri umani. Una “voracità” che li ha messi nel mirino di cause legali da parte di autori, artisti e giornali. Ma la decisione di Reddit nei confronti di Microsoft pone un problema: rafforza il dominio di Google sul mercato della ricerca proprio mentre tale dominio è sotto un importante controllo normativo. Jordi Ribas, responsabile della ricerca di Microsoft, ha affermato in un post su X che Reddit sta “favorendo uno specifico motore di ricerca, influenzando la concorrenza”.

Huffman ha indicato il recente annuncio di OpenAI di SearchGPT , che sarà in grado di mostrare i risultati di Reddit grazie a un accordo raggiunto da entrambe le aziende all’inizio di quest’anno, come modello che vuole replicare. Nessuno degli accordi di licenza dei contenuti stipulati da Reddit fino a oggi include casi d’uso esclusivi per i suoi dati

Leggi le altre notizie sull’home page di Key4biz