Bluff e menzogne, così l’AI ha imparato a comportarsi come l’uomo

Antonino Caffo

11 mesi fa

Quando leggiamo che l’intelligenza artificiale può superare l’uomo, dovremmo fermarci poco prima, a quando questi sistemi ci raggiungeranno. Non in un ambito specifico ma nel loro comportamento generale, che include aspetti positivi ma anche negativi. Prendiamo il caso del “bluff”: un’AI saprebbe giocare a poker? Ovvero, sarebbe in grado di mentire sulle carte che ha in mano pur di vincere? Se addestrata correttamente si, e anche se allenata a fare dell’altro, ossia a mantenere sempre un atteggiamento equo e veritiero.

Almeno questo è quanto scoperto dai ricercatori del MIT, il famoso Massachusetts Institute of Technology, che hanno analizzato il modo di agire di Cicero, un’IA presentata da Meta nel 2022, di AlphaStar, nata per mano di Google DeepMind, e del più conosciuto ChatGPT. In ogni caso, l’AI mente, bluffa, usa giri di parole per arrivare a ciò che ambisce più di tutto, il risultato che le abbiamo posto dinanzi. Il report è disponibile su Patterns.

Mendacium humanum est

Un’area in cui i sistemi di intelligenza artificiale hanno imparato a diventare ingannevoli è nel contesto dei giochi per i quali sono stati addestrati a vincere, in particolare se tali giochi implicano la necessità di agire strategicamente. Nel novembre 2022, Meta ha annunciato di aver creato Cicero, un’intelligenza artificiale in grado di sconfiggere gli umani in una versione online di Diplomacy, un popolare gioco di strategia militare in cui si negoziano alleanze per il controllo dell’Europa. I ricercatori di Meta hanno affermato di aver addestrato Cicero su un sottoinsieme “veritiero” del suo set di dati per essere in gran parte onesto e utile, e che “non avrebbe mai pugnalato intenzionalmente alle spalle” i suoi alleati per avere successo. Ma gli autori del nuovo articolo sostengono che è vero il contrario: Cicero ha infranto gli accordi, affermando apertamente il falso e usando un inganno premeditato. Sebbene l’azienda abbia cercato di addestrare Cicero a comportarsi onestamente, il suo fallimento nel raggiungere questo obiettivo dimostra come i sistemi di intelligenza artificiale possano ancora avere un impato inaspettato sugli scenari in cui sono inseriti, con problematiche evidenti.

Meta non ha né confermato né smentito le affermazioni dei ricercatori secondo cui Cicero avrebbe mostrato un comportamento ingannevole, ma un portavoce ha riferito che si tratta puramente di un progetto di ricerca e che il modello è stato costruito esclusivamente per giocare a Diplomacy. “Abbiamo rilasciato gli artefatti di questo progetto con una licenza non commerciale in linea con il nostro impegno di lunga data per una scienza aperta. Meta condivide regolarmente i risultati della ricerca per convalidarli e consentire ad altri di sfruttare in modo responsabile i nostri progressi. Non abbiamo intenzione di utilizzare questa ricerca o i suoi insegnamenti nei nostri prodotti”.

Ma Diplomacy non è l’unico gioco in cui un’intelligenza artificiale ha “ingannato” i giocatori umani per farli vincere.

Giocatori di poker…e non solo

AlphaStar, un’intelligenza artificiale sviluppata da DeepMind per giocare a StarCraft II, è diventata così abile nell’effettuare mosse ingannatrici da sconfiggere il 99,8% dei giocatori umani. Altro caso: Pluribus ha imparato a bluffare durante le partite di poker talmente bene che i ricercatori hanno deciso di non rilasciare il suo codice per paura che potesse distruggere la comunità del poker online.

Il dottor Peter Park, ricercatore del MIT e autore della ricerca, ha dichiarato: “Man mano che le capacità ingannevoli dei sistemi di intelligenza artificiale diventano più avanzate, i pericoli che rappresentano per la società diventeranno sempre più seri”. Uno studio ha rivelato che l’intelligenza artificiale in un simulatore digitale “fingeva di morire” nel tentativo di ingannare un test inteso a eliminare i sistemi di AI che si erano evoluti per replicarsi, prima di riprendere l’attività una volta completato. “Questo è molto preoccupante – continua Park- solo perché un sistema di intelligenza artificiale è ritenuto sicuro in un ambiente di prova non vuol dire che lo sia anche in natura. Potrebbe semplicemente fingere di essere qualcun altro”. L’inganno, preso nella sua essenza, ossia come variabile di un pattern predeterminato, non è considerato dall’AI un problema ma un’opzione per arrivare alla fine di un compito.

ChatGPT vende azioni

Oltre ai giochi, i ricercatori elencano altri esempi di comportamento ingannevole da parte dell’intelligenza artificiale. GPT-4, l’ultimo LLM di OpenAI, ha inventato bugie durante un test in cui è stato chiesto di persuadere un essere umano a risolvere un CAPTCHA. Il sistema si è anche dilettato nell’insider trading durante un esercizio simulato in cui gli è stato detto di assumere l’identità di un operatore di borsa sotto pressione, nonostante non gli fosse mai stato specificamente ordinato di farlo. Il fatto che un modello di intelligenza artificiale abbia il potenziale per comportarsi in modo ingannevole senza alcuna indicazione in tal senso può sembrare preoccupante. Ma deriva principalmente dal problema della “scatola nera” che caratterizza i modelli di machine learning all’avanguardia: è impossibile dire esattamente come o perché producono i risultati che ottengono, o se mostreranno sempre quel comportamento.

Affidarsi ai regolatori

Quello che è certo è che al momento è impossibile addestrare un modello di intelligenza artificiale senza che possa ingannare in tutte le situazioni in cui è calato. Inoltre, il potenziale di comportamenti ingannevoli è uno dei tanti problemi – insieme alla propensione ad amplificare pregiudizi e disinformazione – che devono essere affrontati prima che si possano affidare ai modelli di AI le attività del mondo reale. “È fondamentale che i regolatori e le società di intelligenza artificiale soppesino attentamente il potenziale dannoso della tecnologia rispetto ai suoi potenziali benefici per la società e facciano chiare distinzioni tra ciò che i modelli possono e non possono fare. Queste sono le domande davvero difficili” spiegano. A maggio dello scorso anno, il Center for AI Safety avvertiva che la tecnologia dovrebbe essere classificata come un rischio sociale e soppesata al pari di guerre nucleari e pandemie. Loro non bluffavano.