DeepMind utvecklade SAFE, en AI-agent för att faktagranska LLM:er

2 april 2024

  • DeepMind-forskare utvecklade Search-Augmented Factuality Evaluator (SAFE) för att faktakontrollera LLM
  • SAFE delar upp långa LLM-svar i enskilda fakta och söker sedan på Google för att verifiera dem
  • SAFE kan användas för att jämföra LLM:s långa faktaspår

Forskare från DeepMind och Stanford University har utvecklat en AI-agent som faktagranskar LLM:er och möjliggör benchmarking av AI-modellers faktamässighet.

Även de bästa AI-modellerna tenderar fortfarande att hallucinera ibland. Om du ber ChatGPT att ge dig fakta om ett ämne, ju längre svaret är desto mer sannolikt är det att det innehåller fakta som inte är sanna.

Vilka modeller är mer faktamässigt korrekta än andra när de genererar längre svar? Det är svårt att säga eftersom vi fram till nu inte har haft något riktmärke som mäter sakligheten i LLM:s långa svar.

DeepMind använde först GPT-4 för att skapa LongFact, en uppsättning med 2 280 uppmaningar i form av frågor relaterade till 38 ämnen. Dessa uppmaningar framkallar långformade svar från den LLM som testas.

De skapade sedan en AI-agent som använde GPT-3.5-turbo för att använda Google för att verifiera hur faktiska svaren som LLM genererade var. De kallade metoden Search-Augmented Factuality Evaluator (SAFE).

SAFE delar först upp det långa svaret från LLM i enskilda fakta. Sedan skickar den sökförfrågningar till Google Search och resonerar om sanningshalten i fakta baserat på information i de returnerade sökresultaten.

Här är ett exempel från forskningsrapport.

En faktasökande fråga ger upphov till ett långt svar. Svaret delas upp i enskilda fakta, revideras för att vara fristående, kontrolleras för relevans och kontrolleras med hjälp av Google Search. Källa: arXiv

Forskarna säger att SAFE uppnår "övermänskliga prestanda" jämfört med mänskliga kommentatorer som gör faktakontrollen.

SAFE instämde med 72% av de mänskliga annotationerna, och när det skilde sig från de mänskliga annotationerna visade det sig att SAFE hade rätt 76% av gångerna. Det var också 20 gånger billigare än mänskliga annotatorer från crowdsourcing. LLM:er är alltså bättre och billigare faktakontrollanter än vad människor är.

Kvaliteten på svaret från de testade LLM-läkarna mättes utifrån antalet faktoider i svaret i kombination med hur faktabaserade de enskilda faktoiderna var.

Det mått som de använde (F1@K) uppskattar det "ideala" antalet fakta i ett svar som människan föredrar. I benchmarktesterna användes 64 som median för K och 178 som maximum.

Enkelt uttryckt är F1@K ett mått på "Gav svaret mig så mycket fakta som jag ville ha?" i kombination med "Hur många av dessa fakta var sanna?".

Vilken LLM är mest saklig?

Forskarna använde LongFact för att fråga 13 LLM:er från familjerna Gemini, GPT, Claude och PaLM-2. Sedan använde de SAFE för att utvärdera hur faktabaserade deras svar var.

GPT-4-Turbo toppar listan som den mest faktabaserade modellen när det gäller att generera långa svar. Den följdes tätt av Gemini-Ultra och PaLM-2-L-IT-RLHF. Resultaten visade att större LLM:er är mer faktabaserade än mindre.

F1@K-beräkningen skulle förmodligen få datavetare att häpna, men för enkelhetens skull visar dessa benchmarkresultat hur faktabaserad varje modell är när den returnerar medellånga och längre svar på frågorna.

Långformig faktaprestanda för 13 LLM:er med K = 64 (medianantalet fakta bland alla modellsvar) och K = 178 (det maximala antalet fakta bland alla modellsvar). Källa: arXiv

SAFE är ett billigt och effektivt sätt att kvantifiera LLM-faktualitet i lång form. Det är snabbare och billigare än människor när det gäller faktakontroll, men det beror fortfarande på sanningshalten i den information som Google returnerar i sökresultaten.

DeepMind släppte SAFE för allmän användning och föreslog att det skulle kunna hjälpa till att förbättra LLM-faktualiteten genom bättre förträning och finjustering. Det skulle också kunna göra det möjligt för en LLM att kontrollera sina fakta innan den presenterar resultatet för en användare.

OpenAI kommer att bli glada över att se att forskning från Google visar att GPT-4 slår Gemini i ännu ett benchmark.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Eugene van der Watt

Eugene kommer från en bakgrund som elektronikingenjör och älskar allt som har med teknik att göra. När han tar en paus från att konsumera AI-nyheter hittar du honom vid snookerbordet.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar