16° Seminario Bordoni: dall’analisi del contenuto all’Information mining. Il nuovo corso delle tecnologie della conoscenza

<a href="mailto:flavio.fabbri@key4biz.it">Flavio Fabbri</a>

16 anni fa

Italia

Fino agli anni ’80 parlare di analisi del contenuto rimandava immediatamente agli studi statistici, o al limite matematici. Da un decennio, invece, quando si parla di estrazione di sapere o di conoscenza a partire da grandi quantità di dati ci si riferisce ai processi di Data mining o Information mining, a seconda di quale sia l’oggetto della ricerca. Obiettivo del processo di analisi in questione è l’estrazione di informazioni da dati già strutturati, per renderle disponibili e direttamente utilizzabili dai computer. Un’estrazione eseguita in modo automatico o semiautomatico, su grandi quantità di dati allo scopo di scoprire pattern che, una volta identificati, possono essere il punto di partenza per ipotizzare e quindi verificare nuove relazioni di tipo causale fra fenomeni, quindi generare previsioni e ‘conoscenza strategica‘.

Negli ultimi dieci anni la quantità di informazioni presenti sulla rete si è moltiplicata a dismisura, crescendo esponenzialmente al crescere degli utenti e dei contenuti riversati su Internet. Secondo stime recenti le dimensioni dell’universo digitale nel 2007 avrebbero raggiunto i 281 miliardi di Giga-bytes, per una produzione procapite di 45 GB l’anno. Cifre enormi che rendono bene la dimensione del fenomeno web, con le sue reti sociali, le operazioni di commercio elettronico, l’utilizzo dei motori di ricerca e la sempre maggiore convergenza dei servizi e dei contenuti verso la rete mobile.

Come gestire tutte queste informazioni e la gigantesca mole di dati che quotidianamente vengono rovesciati in rete? Come assicurare all’utente sicurezza della privacy e tutela giuridica relativamente alle informazioni più sensibili?

A queste e molte altre domande ha cercato di rispondere il XVI Seminario Bordoni, tenutosi a Roma il 27 aprile scorso, dal titolo “Information mining: una nuova corsa alla conoscenza strategica“, organizzato dalla Fondazione Ugo Bordoni e con il supporto tecnico organizzativo dell’Isimm. Un convegno voluto dalla Fondazione Bordoni, da anni impegnata nel settore del Data mining, con l’istituzione dell’Area 6, sotto la responsabilità dell’Ing. Claudio Carpineto e che si occupa principalmente di predisporre quegli strumenti più utili ai processi di estrazione di significato da grandi quantità di dati strutturati. Un nuovo settore scientifico, in cui fare ricerca teorica e applicata, in relazione ai metodi e alle tecniche di analisi automatica dei dati su Internet e in molti altri campi di applicazione, da cui ricavare nuovi servizi basati sulla conoscenza. Si tratta di diverse tecniche di gestione delle informazioni, dalla classificazione automatica alla scoperta di regole e associazioni nascoste nelle sequenze di dati, dal riconoscimento di entità semantiche alla profilazione dell’utente in rete.

A discutere di Intelligent information e Text mining sono stati invitati al Seminario due discussant di assoluto rilievo: Dunja Mladenic, Dipartimento Tecnologie della Conoscenza del J.S. Institute di Lubiana in Slovenia e Giovanni Semeraro, Dipartimento di Informatica dell’Università degli Studi di Bari. Due massimi esperti in sede europea che ci hanno permesso di comprendere in che modo tali tecniche e metodologie di gestione dei dati siano applicabili in campo economico, finanziario, delle reti sociali, della nascente Knowledge Society e per un loro corretto utilizzo in termini di sicurezza e privacy. Due sono le strade davanti a noi, ha affermato Enrico Manca, presidente della Fondazione Ugo Bordoni, nel suo discorso di apertura del Seminario: “… Da una parte il difficile compito di tutelare i dati più sensibili da un utilizzo illecito e al limite delle norme vigenti in termini di sicurezza e di libertà fondamentali dell’individuo, dall’altra, invece, la possibilità che tali nuove pratiche scientifiche, in ragione dell’erogazione di nuovi e più avanzati servizi basati sulla conoscenza, aprano velocemente a degli scenari economici e sociali del tutto inediti“.

Sorveglianza al credito, sviluppo di nuove forme di marketing, ricerca scientifica, sistemi di difesa, eHealth, eGovernment, reti sociali, informazione diffusa e dal basso, praticamente tutti i settori o quasi dell’attività umana sono investiti dai processi di digitalizzazione. Questo significa che bisogna individuare quegli strumenti più idonei e in grado di utilizzare tutta questa mole di dati in termini di ‘previsioni’ o di modelli previsionali, cioè in grado di fornire delle regolarità nella successione degli stessi, dei pattern di comportamento medio di un fenomeno o di un’entità. “Al momento si stanno studiando – ha spiegato Manca – dei nuovi motori di ricerca che sappiano utilizzare le informazioni personali e di contesto, soprattutto per l’accesso a Internet tramite dispositivi mobili; ma anche lo sviluppo di quei metodi di classificazione automatica detti semantici che identifichino le somiglianze profonde tra i testi o le pagine del web“. Si tratta di trovare delle soluzioni a problemi molto pratici, come la predizione degli ascolti televisivi o la gestione del portfolio clienti a livello aziendale, per meglio fidelizzare il cliente e regolare le vendite di prodotti e servizi sul mercato. Sono solo piccoli esempi di una vasta gamma di servizi a portata di mano, ma questa è la strada segnata dallo sviluppo dell’Information mining.

Sebbene esistano diverse forme per la memorizzazione dei dati, il formato testuale rimane tuttora la principale forma per lo scambio di informazioni. Il Text mining parte proprio da questa considerazione e dalla necessità di trovare delle regolarità in un flusso esteso di dati, cercando di individuare delle ‘informazioni semantiche o astratte’ dalla superficie del testo. Un sistema di analisi che è stato ben mostrato da Dunja Mladenic del Dipartimento Tecnologie della Conoscenza del J.S. Institute di Lubiana. A partire dalla definizione di Text mining, la docente ha spiegato i diversi metodi di estrazione di dati strutturati da un testo, i processi di analisi collaborativa e di elaborazione di informazioni in tempo reale. Ovviamente ogni processo ha i suoi strumenti e metodi di lavoro, quindi sono state evidenziate le aree di attività più importanti del Text processing, dal web semantico all’estrazione delle informazioni, dal linguaggio naturale al Machine learning, o apprendimento automatico.

“I testi scritti sono ancora oggi uno dei più semplici e naturali strumenti utilizzati per la rappresentazione dell’informazione – ha affermato Mladenic – per questa ragione gli algoritmi per il text-processing sono presenti in molte aree dell’informatica. Gli algoritmi utilizzati vengono adattati ad esempio nei sistemi per la manipolazione dei testi (text-editing), nei sistemi di memorizzazione di informazioni in formato testuale (text-compression) e in quelli per l’estrapolazione delle informazioni (information retrieval systems)“. Lavorare un testo significa muoversi in un mare di dati, che necessariamente hanno bisogno di essere filtrati, analizzati e aggregati; questo perché fornendo al computer informazioni semantiche su cui elaborare algoritmi si ottengono come ‘output data mining’ dei dati pronti per l’uso, per qualsiasi applicazione: dalle ricerche di mercato a quelle demografiche, dalla semplice ricerca sul web di una parola alla prevenzione della criminalità su Internet. Significa, però, coinvolgere anche entità del web, utenti, individui, in un processo di aggregazione a volte sommaria, in cui ci si vede spesso al centro di operazioni poco trasparenti e dagli esiti ambigui. Parliamo quindi di cittadini che sono portatori di diritti, tra cui c’è il diritto all’anonimato, ma soprattutto alla privacy, troppo spesso oggetto di interesse da parte del mercato.

A tal proposito Sebastiano Bagnara, membro del Comitato scientifico della FUB, si è chiesto nel suo intervento: “…Se non si rischia ancora una volta di andare a limitare il diritto di privacy del cittadino e se non ci sia un pericolo di onnipotenza in queste pratiche di ricerca. C’è il serio rischio di rimanere accecati dal luccichio di una certezza effimera, che vorremmo ritrovare nell’automazione e che è ancora tutta da verificare. Spesso si è scambiata la giusta previsione con l’illusione della stessa. Nell’analizzare i dati ricavabili dal comportamento umano, che sia on-line o off-line, c’è bisogno di una profonda conoscenza dell’individuo che si vuole esaminare, centrando metodi e tecniche sul dubbio, sul senso critico e senza mai dimenticare che tale individuo è portatore di diritti“.

Quindi privacy come elemento centrale su cui riflettere, per muoversi con più sicurezza nel mondo della conoscenza strategica, della Knowledge Society, dove il timore di un sovraccarico di informazioni è ormai una certezza e i rimedi sono ancora in via di sperimentazione. Certo rimane sempre valido il suggerimento di Gianfranco Bettetini in risposta ad Umberto Eco in una celebre intervista, che il professor Giovanni Semeraro dell’Università di Bari ha riportato nel suo intervento: “…Il nostro modo di interagire con i mass media e soprattutto con Internet necessita sempre più di una cultura critica di cui ognuno di noi deve farsi portatore, cercando di costruire una ‘dieta mediatica’, con il contributo della scuola e delle famiglie“. Ogni persona produce 800 MB di dati ogni anno, che vanno moltiplicati per centinaia di milioni di individui. Il risultato è un universo di dati che entra nelle nostre vite, ogni giorno, attraverso il pc o i dispositivi di Mobili di web, ma senza nessun filtro a supporto. “Abbiamo la possibilità – ha spiegato Semeraro – di applicare delle nuove architetture informatiche in grado di trattenere le informazioni più importanti e di lasciar andare quelle che non ci interessano. A fare questo ci pensano strumenti come l’Information filtering, sistemi informatici che selezionano e consentono l’accesso a informazioni possibilmente rilevanti rispetto a necessità informative degli utenti“. “Due le strade – ha osservato Semeraro – o l’Information retrieval o l’Information filtering, la differenza principale è che nel primo caso serve la query da processare nei motori di ricerca, nel secondo caso, invece, serve l’analisi di un profilo che sintetizza le esigenze informative dell’ utente stesso“.

Anche la Fondazione Ugo Bordoni ha adottato tali studi e istituito un’apposita area dedicata all’Apprendimento automatico e all’Information Retrieval, o IR, tecniche di filtraggio dell’informazione e dedicate all’estrazione di quei dati da cui costruire sistemi di conoscenza specifici e mirati ad una maggiore efficienza operazionale sul web. Tre i progetti che il responsabile FUB dell’area Information mininig, Claudio Carpineto, ha indicato come principali linee di ricerca: Terrier, Intelligent web research e data mining. “Il primo è una piattaforma di Information Retrieval ad approccio statistico ee open source – ha spiegato Carpineto – seguita da un secondo progetto per motori di ricerca incentrato sul tentativo di realizzare un nuovo processo di recupero informazioni con il motore di ricerca sperimentale ‘Key SRC’, sia per Internet che per web mobile e infine il terzo progetto, del Data mining applicato al settore enterprise, per applicazioni business“.

E proprio sulle applicazioni possibili dell’Information mining si è svolta la consueta Tavola rotonda pomeridiana dei Seminari FUB, dal titolo “Nuovi scenari applicativi dell’estrazione automatica delle informazioni“. Aperta e coordinata dal Direttore delle ricerche Fub, Mario Frullone, anche questa seconda parte del convegno è stata dedicata a tutte quelle applicazioni che riguardano le tecniche di estrazione e recupero dati dal flusso incessante di informazioni on-line, come i metodi avanzati per la gestione delle relazioni col cliente (CRM), il controllo qualità, l’elaborazione dei reclami, la scoperta di frodi telematiche e i sistemi di gestione ed erogazione del credito on-line. Ovviamente il campo va allargato, sicuramente al segmento advertising, marketing e al web 2.0, con tutte le domande di sicurezza e correttezza dei dati proprie dell’Information mining. Tra gli ospiti della Tavola rotonda c’era anche Claudio Leporelli, neo-presidente del Comitato scientifico della FUB, che ha sottolineato l’importanza di tali tematiche e della ricerca scientifica nel produrre quegli strumenti in grado di rendere la vita di ogni individuo, o di un’entità economica in rete, più dinamica, semplice e tutelata: “… I temi trattati hanno natura multidisciplinare e questo è importantissimo, perché significa che all’interno di un’Istituzione di eccellenza come la FUB c’è ancora spazio per approcci differenti, per il confronto anche aspro, ma sempre con un unico fine, sperimentazione pratica e trasferimento di conoscenza“.

Una Fondazione, ha sottolineato Mario Frullone, che rimane sempre: “… Molto impegnata in chiave operativa all’interno dei progetti di ricerca del Ministero dello Sviluppo Economico, ma che non dimentica la natura scientifica dell’istituzione e il valore assoluto della ricerca applicata“. Una ricerca che in questo caso trova spazio anche nel campo complesso del Data mining e dell’IR. Ma a che serve il Data mining?

Che tipo di attenzione c’è su questi temi? In che modo è possibile applicare tali processi?

Hanno provato a rispondere esponenti del mondo accademico, del mondo dei fornitori e delle istituzioni, centrando la discussione su velocità e valore delle informazioni, privacy e mercati. Loredana Sales di IBM Italia ha parlato di Information on-demand, di tempestività nella disponibilità dei dati richiesti: “…Un valore importantissimo per un’azienda, per la sua esperienza e per il supporto ai processi interni, gestionali e decisionali. Unica condizione necessaria al funzionamento di tale sistema è la certezza delle fonti, dei dati e dei processi di lavorazione. Se non c’è correttezza e qualità di questi elementi, non si avrà mai il risultato sperato“. Di scelta obbligata parla anche Dario Russo della Banca d’Italia: “… Per la gestione del patrimonio informativo, il Data mining è sempre più centrale e si pone ormai come scelta obbligata a livello aziendale, soprattutto per il sostegno dei processi interni“.

“Il Data mining e la ricerca semantica – ha sottolineato nel suo intervento Maurizio Mencarini di Expert System – sono strumenti fondamentali alle aziende per la raccolta dati e per la selezione delle informazioni sul web, come ad esempio per lo sviluppo delle Intranet“. Spazio anche al progetto TaLTaC, Trattamento Automatico Lessicale e Testuale per l’Analisi del Contenuto di un Corpus, che è stato presentato dal professor Sergio Bolasco della Sapienza Università di Roma: “…Un software per l’analisi di una collezione di testi, detti corpus, finalizzata a descrivere e interpretare il suo contenuto e alcune sue proprietà. L’approccio adottato nel programma è noto in letteratura come ‘approccio lessicometrico’ in quanto consente lo studio diretto di qualsiasi tipo di dati espressi in linguaggio naturale, da documenti a interviste, da rassegne stampa a messaggi. Tale analisi, quindi, consente di dare delle rappresentazioni del fenomeno studiato su base quantitativa sia a livello di unità di testo, quindi parole, sia a livello di unità di contesto, quindi come linguaggio utilizzato e come contenuti trattati nel testo o informazioni“.

Informazioni che vengono pescate in un flusso di dati disaggregati su cui bisogna lavorare e che contengono però in misura sempre maggiore dati personali, informazioni private, pezzi di vita di persone che appena entrano sul web diventano utenti, in larga parte privi della minima cognizione di diritto e di privacy. Un tema quest’ultimo a cui hanno dedicato attenzione anche gli altri relatori del Seminario FUB, tra cui Paolo Nuti dell’AIIP: “…Le principali criticità in termini di privacy sono riconducibili al rapporto che c’è tra pubblicità, advertising e utenti o consumatori della rete. Chi tutela la privacy di queste persone? Ognuno di questi utenti entra sempre più spesso in ambienti digitali, in reti sociali o Social network in cui pubblicano, con assoluta non curanza, i propri dati personali, le proprie abitudini, idee, atteggiamenti, speranze, progetti, senza immaginare che tali informazioni sono oggetto delle attenzioni di diverse figure della rete e non tutte rispettose della persona e del diritto alla privacy“.

Per ricostruire un profilo utente sulla rete bastano pochissimi dati, molti meno di quelli che abitualmente vengono immessi quotidianamente da tanti di noi su Facebook o MySpace. Come normare in modo equilibrato questa tendenza ad esporre con troppa facilità i propri dati personali in rete?

Andrea Rossi della Polizia Postale e delle Comunicazioni, ha spiegato che il problema principale in questi casi è che la gente si muove sempre di più su un panorama digitale globale, attraversando senza saperlo spazi di giurisdizione di diversi Paesi, dove molto spesso il diritto alla privacy non è interpretato come in Italia: “…Il diritto cerca di adeguarsi alla sempre più veloce esposizione delle persone e dei contesti ai processi di digitalizzazione in atto, da Internet alla rete mobile di connessione, senza dimenticare le frodi telematiche e informatiche, che troppo spesso vedono utilizzati i dati di utenti ignari, che ingenuamente li avevano resi pubblici on-line“.

A conclusione del Seminario organizzato dalla Fondazione Ugo Bordoni, è intervento ancora Mario Frullone, che ha voluto sottolineare quanto: “…Da una parte, le tecniche di Data mining siano importanti per il cammino e lo sviluppo delle imprese e del loro business sul web e dall’altra, invece, quanto ci sia da fare per una maggiore tutela degli utenti e una più seria presa di coscienza degli stessi naviganti circa il pericolo insito nella pubblicazione di dati personali o sensibili sulla rete“. Prima di congedare gli ospiti e il pubblico in sala, inoltre, Frullone ha ricordato a tutti il prossimo appuntamento del ciclo dei Seminari Bordoni per il 4 maggio, su: “Neutralità della rete e aspetti economici“.

Consulta anche il materiale su:

“Intelligent information filtering“, Giovanni Semeraro

“La ghigliottina“, Giovanni Semeraro

“Text mining and beyond“, Dunja Mladenic

“Information mining at FUB“, Claudio Carpineto