Lo studio su come i modelli generativi di linguaggio, alla base di ChatGPT, reagiscono quando viene loro proposto un testo contenente delle informazioni false ha consentito al ricercatore Francesco Ortu di aggiudicarsi il Premio per l’Intelligenza Artificiale dell’Università di Trieste.
I risultati della tesi “Interpreting How Large Language Models Handle Facts and Counterfactuals through Mechanistic Interpretability” del Master “Data Science and Scientific Computing”, sviluppata all’interno dell’Istituto Ricerca e Innovazione Tecnologica (RIT) di Area Science Park, sono stati pubblicati negli Atti del 62° incontro annuale dell’Associazione per la linguistica computazionale e presentati durante una delle più importanti conferenze sui temi di Linguistica Computazionale e Intelligenza Artificiale per Linguaggio Naturale che si è tenuta in agosto a Bangkok.
L’autore dello studio ha spiegato che “La ricerca sull’interpretabilità mira a colmare il divario tra l’approccio empirico e la nostra comprensione scientifica del funzionamento interno dei modelli generativi di linguaggio (LLM). Finora, la maggior parte delle ricerche esistenti in quest’area si è concentrata su come i modelli copiano o richiamano la conoscenza fattuale. Con il nostro studio abbiamo analizzato come l’informazione si propaga all’interno della rete neurale, individuando i “neuroni” che scelgono se promuovere o sopprimere le informazioni false proposte dall’utente”.