GenAI Made in Italy

Nasce ‘Italia’: l’AI generativa in italiano, open source e gratuita realizzata con Cineca. Ecco come usarla per il tuo chatbot

di |

Non è già come chatGPT, ma è un modello pronto da usare in modo gratuito per PA e imprese che vogliono crearsi il proprio chatbot basato sull’AI e alimentato con i propri dati.
“Italia” è stato addestrato da zero in italiano su oltre mille miliardi di parole su larga scala con migliaia di GPU del supercomputer LEONARDO di Cineca.

Non è già come chatGPT, ma è in grado di dar vita a un chatbot, per esempio, di una banca (per uso aziendale o consumer) o di una Pubblica Amministrazione simile alle prestazioni della famosa soluzione di OpenAI. A questo serve ‘Italia’, il primo modello di linguaggio di grandi dimensioni (LLM) addestrato da zero in italiano su larga scala con migliaia di GPU del supercomputer LEONARDO di Cineca.

‘Italia’ è stato lanciato oggi da iGenius, l’azienda deep-tech italiana che sviluppa tecnologie di AI fondata da Uljan Sharka. È open source e gratuito. Ecco come usare ‘Italia’ per il tuo chatbot.

A cosa serve ‘Italia’ e perché è preziosa per sviluppare chatbot basati sull’AI in Italia

La parte più difficile è fare quanto fatto da iGenius e Cineca: realizzare il modello di linguaggio di grandi dimensioni in italiano. È stato, infatti, addestrato esclusivamente in italiano, senza traduzioni dall’inglese: è in grado di comprendere tutte le sfumature linguistiche e culturali italiane con una precisione senza precedenti. Tecnicamente, il primo modello della serie è stato chiamato Italia 9B: un Foundational LLM con un’architettura Transformer da 9 miliardi di parametri, una finestra di contesto di 4.096 token e un vocabolario di 50.000 token.

Pronto all’uso per PA e imprese

Ora le Pubbliche Amministrazioni e le aziende interessate, dal settore assicurativo alla moda fino a quello bancario, potranno implementare ‘Italia’ con i loro dataset per creare un chatbot ad hoc per le loro esigente. ‘Italia’ è la prima versione rilasciata da iGenius, che con questo LLM non guadagna un centesimo, ma ne guadagna in reputazione perché ora si afferma come la prima l’azienda deep-tech italiana a creare un modello di linguaggio di grandi dimensioni.

“Italia” è stato addestrato da zero in italiano su oltre mille miliardi di parole, utilizzando un mix eterogeneo di fonti: sorgenti pubbliche, dati sintetici e contenuti di settore forniti da partner commerciali selezionati di iGenius. “Italia” è un modello di linguaggio sviluppato in conformità con le normative europee sull’Intelligenza Artificiale. È stato pensato per aiutare le aziende nell’adozione dell’Intelligenza Artificiale generativa in settori altamente regolamentati, come i servizi finanziari, l’industria e la Pubblica Amministrazione.

L’addestramento di “Italia” continuerà anche dopo questo primo rilascio, difatti iGenius sta lavorando a nuove versioni che siano ancora più potenti, accurate e versatili, nonché ad una versione multilingua.

Italia addestrata in 5 mesi con l’italiano e si alimenterà degli articoli dei giornali del gruppo editoriale Monrif

“Italia” è stato sviluppato in 5 mesi dai membri del team iGenius, che dal 2016 lavora nell’ambito dei modelli di linguaggio, ed è stato addestrato sul supercomputer Leonardo, una delle infrastrutture di calcolo più potenti al mondo, gestita dal Consorzio Interuniversitario Cineca. iGenius, inoltre, ha collaborato con Editoriale Nazionale, società del gruppo Monrif, per utilizzare il loro archivio storico di articoli di stampa come fonte integrativa per migliorare il modello. Questa collaborazione proseguirà con l’addestramento delle future versioni di “Italia”, per estendere ulteriormente il livello di conoscenza generale del modello. Per garantire l’integrità etica dei contenuti generati dal modello, sono stati sviluppati dei filtri di sicurezza specifici per la lingua italiana, pensati per rimuovere contenuti sensibili, espliciti e ad alto potenziale di bias, nonché per limitare al massimo l’esposizione di contenuti coperti da copyright.

Italia” è in grado di elaborare e generare token in italiano con prestazioni equivalenti ad un aumento del 60% della sua finestra di contesto

La prima versione di “Italia” è un Foundational LLM con un’architettura Transformer da 9 miliardi di parametri, una finestra di contesto di 4.096 token e un vocabolario di 50.000 token. Rispetto ad altri modelli di linguaggio, “Italia” si distingue per la sua efficacia nella gestione delle parole italiane. Grazie a un Tokenizer proprietario, sviluppato dal team iGenius specificamente per questo modello, “Italia” è in grado di elaborare e generare token in italiano con prestazioni equivalenti ad un aumento del 60% della sua finestra di contesto. Questo si traduce direttamente in una notevole efficienza in termini di costi e risorse necessarie per servire il modello, aspetto essenziale per una soluzione di intelligenza artificiale pensata per il mondo

aziendale. “Italia” è scaricabile sul sito web di iGenius e, a breve, sarà disponibile anche su Hugging Face e sulle principali piattaforme di sviluppo di prodotti AI, come i Model Catalog o gli AI Studio.

Uljan Sharka, Fondatore e CEO di iGenius: “Crediamo che Italia rappresenti il primo passo verso un nuovo Rinascimento Digitale”

Italia AI

“La decisione di sviluppare Italia come modello open source riflette pienamente la nostra missione di umanizzare i dati e democratizzare la conoscenza aziendale. Crediamo che Italia rappresenti il primo passo verso un nuovo Rinascimento Digitale, in cui le soluzioni di AI siano progettate mettendo al centro le persone, non la tecnologia. Adesso il nostro obiettivo è investire in nuovi modelli che siano rappresentativi di altre lingue e culture. Stiamo lavorando per rilasciare a breve una versione di Italia da 10 miliardi di parametri e, successivamente, una versione multilingua.” ha spiegato Uljan Sharka, Fondatore e CEO di iGenius.

“Un’azienda italiana, con un progetto innovativo e di notevole interesse, ha avuto la possibilità di accedere alla potenza di calcolo di Leonardo, uno dei supercomputer più avanzati al mondo: tutto ciò a conferma del ruolo di Cineca come abilitatore dell’innovazione digitale e della competitività del Paese. La nostra infrastruttura, che è pubblica e aperta per definizione, trova in questa avventura una delle sue espressioni meno scontate, ma certamente più coerenti con la volontà di progettare il futuro, innovando e generando valore per la nostra comunità.” ha sottolineato Alessandra Poggiani, Direttrice Generale di Cineca.

Leggi le altre notizie sull’home page di Key4biz