L’elaborazione del linguaggio naturale
Il Natural language processing (Nlp) o elaborazione del linguaggio naturale, è un algoritmo di intelligenza artificiale (IA) in grado di esaminare, rappresentare e comprendere il linguaggio naturale. Cioè si tratta di software che invece di utilizzare il linguaggio classico di programmazione si cimentano con la nostra di lingua e devono quotidianamente comprendere quello che gli chiediamo e rispondere in maniera comprensibile.
L’elaborazione del linguaggio naturale utilizza il machine learning per rivelare la struttura e il significato del testo, è spiegato da Google. Con le applicazioni di elaborazione del linguaggio naturale, ad esempio, le aziende possono analizzare il testo ed estrarre informazioni su persone, luoghi ed eventi per comprendere meglio il sentiment sui social media e le conversazioni dei clienti.
Sono ormai numerosissime le applicazioni Npl, dai più semplici correttori di bozza ai sistemi di traduzione automatici, ma lo sviluppo di nuove soluzioni di apprendimento automatico (machine learning) e deep learning, sta favorendo enormemente la comunicazione tra uomini e macchine (Natural language understanding) soprattutto nelle chatbotIA, i comuni servizi di customer caring affidati a intelligenze artificiali per la gestione del cliente attraverso sistemi di Q&A (sessioni di domande e risposte via testo).
Le ultime applicazioni di reti neurali artificiali ci ha portati dritti al fenomeno del momento, la ChatGPT (o GPT3, Generative Pre-trained Transformer 3) di OpenaAI, una delle più stimolate/addestrate al mondo ormai (vista la popolarità raggiunta).
La Top Ten globale dei modelli Nlp
In un articolo pubblicato su Analytics Insight sono riportati i dieci migliori modelli di elaborazione del linguaggio naturale utilizzati al mondo.
#1, Bert
Al primo posto c’è Bert (Bidirectional Encoder Representations from Transformers), modello sviluppato da Google per il pre-training Npl, con rete neurale artificiale per la comprensione del linguaggio naturale, che gli permette diverse operazioni chiave, tra cui riconoscere la voce umana e non umana e trasformare il testo in voce e viceversa. Bert è fondamentale per i servizi Google Search, Google Docs, Gmail smart compose.
#2, ChatGPT3
Lo conosciamo tutti questi modello di Nlp, ne parliamo da giorni e anche in questo momento chissà quanta gente al mondo lo sta addestrando rivolgendogli domande di ogni tipo e ricevendo risposte su testo (appunto, tramite chat), o anche sotto forma di stringhe di codici. Ad oggi risulta che ChatGPT è il modello Pnl più addestrato al mondo, perché sviluppato su 175 miliardi di parametri e 45 TB di testo provenienti da tutta l’internet conosciuta.
#3, ChatGPT2
La versione precedente di Gpt occupa la terza posizione e risulta il modello Nlp più utilizzato per rispondere a domande scritte, ma anche per tradurre, leggere, riassumere, sintetizzare testi o discorsi, generando paragrafi di testo coerenti e grammaticalmente corretti.
#4, Roberta
È il modello di pre-training “Robustly Optimized BERT”, sviluppato da Facebook AI Research e serve a comprendere meglio il linguaggio naturale come processo e quindi a migliorarne le prestazioni, con ottimi impieghi nella classificazione dei testi, nella risposta rapida alle domande e nell’analisi dei contenuti.
#5, Alberto
Questo modello è la versione lite di Bert e favorisce la risoluzione dei problemi tecnici che derivano dall’aumento delle dimensioni stesse del modello originario, che a sua volta rallenta i tempi di addestramento.
#6, XLNet
Si tratta di un modello pre-addestrato sviluppato da Google per comprendere meglio il linguaggio naturale, in particolare l’analisi dei contenuti e del contesto di qualsiasi testo di riferimento.
#7, T5
T5 è l’acronimo inglese di “Text-to-Text Transfer Transformer”. È un modello di linguaggio pre-addestrato, sviluppato sempre da Google, e impiega la tecnologia Transformer per l’analisi del contesto di un testo. Molto utilizzato nei servizi di traduzione automatica e di generazione di testi.
#8, Elettra
Electra (Efficiently learning an encoder that classifies token replacements accurately) è un altro sistema di pre-training sviluppato da Google, con il medesimo obiettivo: migliorare e rendere più rapido il modello di comprensione del linguaggio naturale, soprattutto per attività di sentiment analysis e Q&A.
#9, Deberta
Il modello DeBERTa (BERT Enhanced by Unraveling Attention Decoding) di Microsoft, invece, migliora sensibilmente i risultati in termini di attività di comprensione del linguaggio naturale, tra cui la risposta alle domande e l’inferenza del linguaggio naturale. Ne troviamo impiego in Bing, Office, Dynamics e Azure Cognitive Services.
#10, StructuraBERT
Quest’ultimo è invece un modello linguistico pre-addestrato sviluppato da Alibaba con due attività ausiliarie per sfruttare al meglio l’ordine sequenziale di parole e frasi, con impieghi principali nella comunicazione tra uomo e macchina (le chatbot IA) per migliorare ad esempio i servizi di vendita e la customer experience. In particolare, questo modello ha trovato ampio utilizzo nell’analisi di cartelle cliniche e nelle indagini epidemiologiche da parte dei Cdc in diverse città della Cina nella gestione della pandemia da Covid-19.