DeepMind ha sviluppato SAFE, un agente di intelligenza artificiale per il controllo dei fatti nei corsi di laurea.

2 aprile 2024

  • I ricercatori di DeepMind hanno sviluppato il Search-Augmented Factuality Evaluator (SAFE) per controllare i fatti dei libri di testo.
  • SAFE suddivide le risposte di un LLM di lunga durata in singoli fatti e poi cerca su Google per verificarli.
  • SAFE può essere utilizzato per valutare la fattualità di lungo periodo dei LLM.

I ricercatori di DeepMind e dell'Università di Stanford hanno sviluppato un agente di IA che controlla i LLM e consente di effettuare un benchmarking della fattualità dei modelli di IA.

Anche i migliori modelli di intelligenza artificiale tendono a allucinare a volte. Se chiedete a ChatGPT di fornirvi i fatti su un argomento, più lunga è la sua risposta e più è probabile che includa alcuni fatti non veri.

Quali modelli sono più accurati di altri nel generare risposte lunghe? È difficile dirlo, perché finora non avevamo un parametro di riferimento che misurasse la fattualità delle risposte lunghe dei LLM.

DeepMind ha utilizzato il GPT-4 per creare LongFact, un insieme di 2.280 prompt sotto forma di domande relative a 38 argomenti. Questi prompt sollecitano risposte di tipo lungo da parte del LLM sottoposto al test.

Hanno quindi creato un agente AI che utilizza GPT-3.5-turbo per utilizzare Google e verificare la veridicità delle risposte generate dall'LLM. Il metodo è stato chiamato Search-Augmented Factuality Evaluator (SAFE).

SAFE innanzitutto suddivide la risposta in forma lunga del LLM in singoli fatti. Quindi invia richieste di ricerca a Google Search e valuta la veridicità del fatto in base alle informazioni contenute nei risultati della ricerca.

Ecco un esempio dal sito carta di ricerca.

Una richiesta di ricerca di fatti genera una risposta di forma lunga. La risposta viene suddivisa in singoli fatti, rielaborata in modo da essere autonoma, controllata per la rilevanza e verificata con Google Search. Fonte: arXiv

I ricercatori affermano che SAFE raggiunge "prestazioni sovrumane" rispetto agli annotatori umani che effettuano il fact-checking.

SAFE si è trovato d'accordo con il 72% delle annotazioni umane e, nei casi in cui si è discostato dagli umani, ha avuto ragione il 76% delle volte. Inoltre, è risultato 20 volte più economico degli annotatori umani in crowdsourcing. Quindi, i LLM sono verificatori di fatti migliori e più economici degli esseri umani.

La qualità della risposta dei LLM testati è stata misurata in base al numero di fatti nella risposta e al grado di veridicità dei singoli fatti.

La metrica utilizzata (F1@K) stima il numero "ideale" di fatti preferito dall'uomo in una risposta. I test di riferimento hanno utilizzato 64 come mediana per K e 178 come massimo.

In parole povere, F1@K è una misura di "La risposta mi ha fornito tutti i fatti che volevo?" combinata con "Quanti di questi fatti erano veri?".

Qual è l'LLM più efficace?

I ricercatori hanno utilizzato LongFact per sollecitare 13 LLM delle famiglie Gemini, GPT, Claude e PaLM-2. Hanno poi utilizzato SAFE per valutare la fattualità delle loro risposte.

Il GPT-4-Turbo è in cima alla lista dei modelli più concreti nella generazione di risposte lunghe. È seguito da vicino da Gemini-Ultra e PaLM-2-L-IT-RLHF. I risultati hanno mostrato che gli LLM più grandi sono più fattuali di quelli più piccoli.

Il calcolo di F1@K probabilmente entusiasmerebbe gli scienziati dei dati, ma, per semplicità, questi risultati di benchmark mostrano quanto ogni modello sia efficace quando restituisce risposte di lunghezza media e più lunghe alle domande.

Prestazioni di fattualità a forma lunga di 13 LLM con K = 64 (il numero mediano di fatti tra tutte le risposte del modello) e K = 178 (il numero massimo di fatti tra tutte le risposte del modello). Fonte: arXiv

SAFE è un modo economico ed efficace per quantificare la fattualità dei long-form LLM. È più veloce ed economico degli esseri umani nel fact-checking, ma dipende ancora dalla veridicità delle informazioni che Google restituisce nei risultati della ricerca.

DeepMind ha rilasciato SAFE per l'uso pubblico e ha suggerito che potrebbe aiutare a migliorare la fattualità dei LLM attraverso un migliore preaddestramento e una messa a punto. Potrebbe anche consentire a un LLM di verificare i fatti prima di presentare l'output a un utente.

OpenAI sarà felice di vedere che una ricerca di Google mostra che GPT-4 batte Gemini in un altro benchmark.

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Eugene van der Watt

Eugene proviene da un background di ingegneria elettronica e ama tutto ciò che è tecnologico. Quando si prende una pausa dal consumo di notizie sull'intelligenza artificiale, lo si può trovare al tavolo da biliardo.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni