Pubblicato su Jama Ophthalmology, lo studio ha messo a confronto le conoscenze degli specialisti oftalmici con le capacità di GPT-4 (il chatbot di OpenAI integrato anche nell’assistenza sanitaria statunitense, grazie a una partnership tra Microsoft ed Epic Systems, notizia comunicata quasi un anno fa dalla casa di Redmond), progettato per replicare prestazioni a livello umano.
Condotto da un team guidato da Andy Shi Huang della Icahn School of Medicine at Mount Sinai di New York, lo studio mostra una serie di risultati che suggeriscono come i LMM, addestrati su enormi quantità di dati, testo e immagini, possono ricoprire un ruolo importante nel fornire supporto decisionale agli oftalmologi tanto nella diagnosi quanto nel trattamento di casi di glaucoma e disturbi della retina.
ChatGPT supera i test
Il gruppo di ricerca ha chiesto a 12 medici e a tre tirocinanti senior del dipartimento di oftalmologia della Icahn School of Medicine at Mount Sinai di rispondere a 20 quesiti di oftalmologia e di gestire 20 casi di pazienti anonimizzati. In parallelo, il team ha chiesto a GPT-4 di replicare, al pari di un medico, alle stesse domande e ai medesimi casi. Gli sperimentatori hanno quindi valutato le risposte grazie a uno strumento di questionario – la scala Likert – parametrato in accuratezza medica (scala a 10 punti) e completezza (scala a 6 punti).
Il chatbot di OpenAI (che presto potrebbe offrire un motore di ricerca alternativo a Google) ha ottenuto punteggi medi più alti per l’accuratezza (506,2 vs. 403,4) e la completezza (528,3 vs. 398,7) rispetto agli specialisti in glaucoma. Nel raffronto con gli specialisti della retina, il software si è di nuovo attestato più in alto in relazione all’accuratezza (235,3 vs. 216,1) e alla completezza (258,3 vs 208,7).
Imaging multimodale in oftalmologia
In ambito oftalmologico, considerato il ruolo dominante del multimodal imaging (che si traduce nell’opportunità, per il medico specializzato, di avere sempre sotto controllo, nel medesimo momento e sullo stesso schermo, sia gli esami pregressi del paziente sia l’esame in corso), l’uso di programmi basati sull’AI e soprattutto sul deep learning può essere di supporto nella pratica clinica, aiutando il professionista a formulare una diagnosi corretta e ad analizzare in tempi brevi una vasta gamma di informazioni.
Certamente lo studio in oggetto è fondato su un numero relativamente piccolo di partecipanti che provengono da un unico centro. Con tutta la cautela del caso, però, “questo lavoro – spiegano gli autori della ricerca – dimostra che un chatbot basato su LLM può sintetizzare i dati clinici e riportare un’impressione e un piano comparabili a quelli di specialisti esperti”.