Il Garante privacy ha pubblicato il documento con le indicazioni per difendere i dati personali pubblicati online dal web scraping, la raccolta indiscriminata di dati personali su internet, effettuata, da terzi, con lo scopo di addestrare i modelli di Intelligenza artificiale generativa (IAG).
“Si tratta di misure non obbligatorie – spiega il Garante in una nota – che i titolari del trattamento dovranno valutare, sulla base del principio di accountability, se mettere in atto per prevenire o mitigare, in maniera selettiva, gli effetti del web scraping, in considerazione di una serie di elementi come lo stato dell’arte tecnologico e i costi di attuazione, in particolare per le Pmi”.
Sulla liceità del web scraping di dati personali il Garante Privacy ha finora avviato alcune istruttorie, tra le quali quella nei confronti di OpenAI. In attesa degli esiti di questi procedimenti “l’Autorità ha ritenuto necessario fornire a quanti pubblicano online dati personali in qualità di titolari del trattamento – si legge – talune prime indicazioni sull’esigenza di compiere alcune valutazioni in ordine all’esigenza di adottare accorgimenti idonei a impedire o, almeno, ostacolare il web scraping”.
Nel documento l’Autorità suggerisce alcune tra le misure concrete da adottare:
- La creazione di aree riservate, accessibili solo previa registrazione, in modo da sottrarre i dati dalla pubblica disponibilità;
- L’inserimento di clausole anti-scraping nei termini di servizio dei siti;
- Il monitoraggio del traffico verso le pagine web per individuare eventuali flussi anomali di dati in entrata e in uscita;
- Interventi specifici sui bot utilizzando, tra le altre, le soluzioni tecnologiche rese disponibili dalle stesse società responsabili del web scraping (es: l’intervento sul file robots.txt.).