Il nuovo crimine informatico emergente? L’uso dell’intelligenza artificiale e del machine learning per compiere truffe, estorsioni e “rapimenti virtuali”.
Negli Stati Uniti, l’FBI ha già messo in guardia il pubblico su come i criminali informatici utilizzino la tecnologia deepfake per manipolare foto e video innocui e convertirli in schemi redditizi di sextortion. La Federal Trade Commission ha stimato che nel 2022 le perdite derivanti da queste attività illecite hanno raggiunto i 2,6 miliardi di dollari.
Deepfake vocali generati grazie l’IA
Secondo recenti ricerche una truffa comune prevede l’utilizzo di file vocali falsi generati dall’intelligenza artificiale, noti anche come audio deepfake, che possono essere creati utilizzando quantità anche ridotte di informazioni biometriche raccolte da contenuti personali pubblicati in fonti pubbliche come TikTok, Facebook, Instagram e altre piattaforme social, inclusi i portali governativi.
Strumenti di intelligenza artificiale come VoiceLab possono elaborare la biometria vocale, dando vita a un vocale deepfake che riproduce esattamente la voce di una persona specifica. Questo processo è anche definito clonazione vocale e si verifica quando la biometria vocale è utilizzata per compiere estorsioni o frodi.
Un caso reale di rapimento virtuale
Nell’aprile 2023, in Arizona, una donna di nome Jennifer De Stefano ha ricevuto una chiamata nella quale un anonimo affermava di aver rapito la figlia di 15 anni e chiedeva un riscatto di 1 milione di dollari, minacciando di compiere violenza sulla vittima, in caso di mancato pagamento. La donna ha affermato di aver sentito chiaramente il pianto, le urla e la voce supplichevole della figlia in sottofondo, anche se il criminale si è rifiutato di lasciarla parlare con la figlia al telefono. Dopo alcuni minuti di negoziazione, l’importo del riscatto è sceso a 50.000 dollari. Per fortuna, prima del pagamento, la vittima ha potuto verificare che sua figlia fosse al sicuro e che non fosse stata rapita. La questione è stata immediatamente denunciata alla polizia, che ha poi identificato la telefonata come una comune truffa.
Gli elementi di un sequestro virtuale
I giovani e i personaggi pubblici sono i primi a utilizzare le tecnologie emergenti o le piattaforme social in rapida crescita, per questo generano più dati biometrici che possono essere utilizzati per attacchi di rapimento virtuale. I cybercriminali utilizzano i social network come TikTok, Facebook e Instagram per cercare le vittime e creare un contesto che renda la truffa il più credibile possibile. Le vittime non solo perdono denaro a causa di questo schema cybercriminale, ma soffrono anche di un grande disagio emotivo.
Gli elementi tipici di un attacco di rapimento virtuale sono i seguenti:
- Identificazione di una potenziale vittima (parente di un rapito). La vittima è una persona in grado di pagare un riscatto
- Identificazione di una potenziale vittima virtuale di rapimento (il rapito). Solitamente un minore
- Creazione di una storia. Più la storia è emotivamente manipolativa, più il giudizio e il pensiero critico di una vittima sono compromessi. È molto probabile che una persona spaventata si comporti con meno previdenza
- Raccolta della biometria vocale della vittima del rapimento virtuale, dai post sui social media. I cybercriminali possono anche prendere la voce di un attore da una scena di rapimento in un film e utilizzare la tecnologia deepfake per creare un audio.
- Identificare tempistiche ed elementi logistici. Sulla base degli aggiornamenti dei social media della vittima del rapimento virtuale, i cybercriminali daranno il via alla truffa quando il soggetto è fisicamente lontano dalla vittima del riscatto, per un periodo sufficientemente lungo. Questo impedisce alla vittima del riscatto di verificare rapidamente se il bambino/minore/rapito è al sicuro, consentendo all’attacco di andare a buon fine
- Effettuare la chiamata. Gli aggressori possono utilizzare software di modulazione vocale gratuiti per rendere la voce più spaventosa o minacciosa. Durante la chiamata, gli aggressori eseguiranno contemporaneamente l’audio deepfake del presunto rapito
- Attività post-chiamata. In caso di successo, queste attività possono includere il riciclaggio di denaro del riscatto, l’eliminazione di tutti i file pertinenti e la distruzione del telefono utilizzato
Gran parte del lavoro in questo schema di attacco può essere ulteriormente automatizzato con strumenti di intelligenza artificiale, come ChatGPT. Utilizzando ChatGPT, ad esempio, un cybercriminale può fondere grandi set di dati di potenziali vittime non solo con informazioni vocali e video, ma anche con altri dati come la geolocalizzazione. Questo può anche servire per avere a disposizione un sistema di punteggio basato sul rischio per la selezione delle vittime, rendendo questo tipo di attacco ancora più redditizio e scalabile.
Lo studio dell’University College di Londra sui deepfake vocali
Uno studio dell’University College di Londra ha rilevato che le persone possono riconoscere il parlato generato artificialmente solo il 73% delle volte. Inoltre, i risultati erano gli stessi per lingue diverse: sia inglese che cinese.
Lo studio ha utilizzato un algoritmo di sintesi vocale addestrato su due set di dati pubblici in inglese e cinese. In anticipo, il programma ha generato 50 voci in ciascuna lingua. Questi campioni differivano da quelli su cui era stato addestrato l’algoritmo stesso.
I partecipanti (529 persone) hanno riconosciuto discorsi falsi solo il 73% delle volte. Un breve addestramento sulle caratteristiche dei deepfake ha portato solo un leggero miglioramento.
Sebbene l’IA generativa abbia vantaggi per le persone con disabilità, gli scienziati temono che governi e criminali informatici inizieranno ad abusare di queste nuove funzionalità. Così nel 2019 i truffatori hanno convinto l’amministratore delegato di una società energetica britannica a trasferire loro centinaia di migliaia di sterline imitando la voce del suo capo.
Il primo autore dello studio, Kimberly Mai, ha dichiarato: “Abbiamo utilizzato campioni generati da algoritmi relativamente vecchi. La domanda sorge spontanea: le persone saranno in grado di notare almeno qualcosa di sospetto nei record generati con la tecnologia più recente, ora e in futuro?”