Pulizia "by design" per i dataset usati dal machine learning. Il nuovo studio

Un giorno questo periodo potrebbe essere ricordato come l’era dei dataset sporchi, o dei dataset scadenti. Un’epoca dove la cura del dato – per quanto già da diversi anni molte aziende si affannino a reperire sul mercato professionisti di data science – è tenuta in secondo piano, sia dal management sia dagli stessi tecnici che addestrano modelli di deep learning.

Un certo tasso di sporcizia, per non parlare dei bias, viene spesso accettato come fisiologico, fintanto che il modello in qualche modo arriva a fare quello che ci aspettiamo o risponde bene ai benchmark. Il problema si crea quando scalabilità, leggere variazioni di scopo o anche la semplice messa in produzione fanno emergere errori che fin lì erano ancora ignoti o considerati innocue spurie. A quel punto si inizia a capire quanto la sporcizia del dataset abbia influito sugli sbagli del modello o addirittura sull’eventuale fallimento del progetto.

Lo studio sui dataset pubblici puliti del Machine learning

Non è un caso che il governo statunitense, nel suo programma di sviluppo e potenziamento della ricerca sull’intelligenza artificiale, riponga molta importanza su un progetto nazionale che metta a disposizione dei ricercatori dataset pubblici puliti e realizzati seguendo tutti i crismi.

Cinque ricercatori, convinti della rilevanza che rivestono le modalità in cui si raccolgono, si costruiscono e si condividono i dataset, hanno rilasciato uno studio dove descrivono gli errori che si possono compiere in questo importante passaggio del ciclo di vita di un modello di machine learning.

Nello studio i ricercatori pongono particolare enfasi sullo sviluppo di dataset puliti fin dall’inizio, bocciando quelle situazioni dove prima si prende un dataset sporco, quindi si procede a correggerne gli errori in corsa: “Attempts to rehabilitate datasets and/or models starting from the flawed datasets themselves further reinforce the problems outlined in the critiques of dataset design and development.”

A me – che provengo dal mondo della cybersecurity – ricorda molto il concetto di “security by design“, dove la sicurezza deve essere pensata già in fase di progettazione, per non dover poi applicare patch su patch quando il prodotto sarà in produzione.

In maniera simile si cerca di inserire nella “dataset culture” un concetto che potremmo chiamare pulizia “by design”, dove piuttosto che far ingerire al modello tutto ciò che si trova su Internet, per poi correggere gli errori in un secondo tempo, si presta fin da subito particolare cura alla costruzione e allo sviluppo dei dataset.

Dataset che magari risulteranno più piccoli e dispendiosi in termini di tempo, ma che offriranno ai modelli di intelligenza artificiale maggiore stabilità e robustezza.