DeepMind entwickelte SAFE, einen KI-Agenten zur Überprüfung von LLMs auf Fakten

2. April 2024

  • DeepMind-Forscher entwickelten Search-Augmented Factuality Evaluator (SAFE) zur Überprüfung von LLMs auf Fakten
  • SAFE zerlegt lange LLM-Antworten in einzelne Fakten und durchsucht dann Google, um sie zu überprüfen
  • SAFE kann zum Benchmarking der Langform-Faktizität von LLMs verwendet werden

Forscher von DeepMind und der Stanford University haben einen KI-Agenten entwickelt, der LLMs auf Fakten prüft und ein Benchmarking der Faktizität von KI-Modellen ermöglicht.

Selbst die besten KI-Modelle neigen immer noch dazu halluzinieren zuweilen. Wenn Sie ChatGPT bitten, Ihnen die Fakten zu einem Thema zu nennen, ist es umso wahrscheinlicher, dass die Antwort einige Fakten enthält, die nicht wahr sind, je länger sie ist.

Welche Modelle sind bei der Erstellung längerer Antworten sachlich genauer als andere? Das ist schwer zu sagen, denn bis jetzt hatten wir keinen Maßstab, um die Sachlichkeit von LLM-Langzeitantworten zu messen.

DeepMind verwendete zunächst GPT-4, um LongFact zu erstellen, eine Reihe von 2.280 Aufforderungen in Form von Fragen zu 38 Themen. Diese Aufforderungen entlocken dem getesteten LLM Antworten in Langform.

Dann schufen sie einen KI-Agenten mit GPT-3.5-Turbo, um mit Hilfe von Google zu überprüfen, wie sachlich die vom LLM generierten Antworten waren. Sie nannten die Methode Search-Augmented Factuality Evaluator (SAFE).

SAFE zerlegt zunächst die Langform-Antwort des LLM in einzelne Fakten. Dann sendet es Suchanfragen an Google Search und entscheidet anhand der Informationen in den zurückgegebenen Suchergebnissen über den Wahrheitsgehalt des Sachverhalts.

Hier ist ein Beispiel aus dem Forschungsarbeit.

Eine Aufforderung zur Faktensuche führt zu einer Antwort in Langform. Die Antwort wird in einzelne Fakten zerlegt, so überarbeitet, dass sie in sich geschlossen ist, auf Relevanz geprüft und mit der Google-Suche überprüft. Quelle: arXiv

Die Forscher sagen, dass SAFE eine "übermenschliche Leistung" im Vergleich zu menschlichen Kommentatoren erreicht, die die Faktenüberprüfung durchführen.

SAFE stimmte in 72% der Fälle mit menschlichen Annotationen überein, und in 76% der Fälle, in denen es von den menschlichen Annotationen abwich, lag es richtig. Außerdem war es 20-mal billiger als menschliche Annotatoren, die von einer Crowd gestellt wurden. LLMs sind also bessere und billigere Faktenüberprüfer als Menschen.

Die Qualität der Antworten der getesteten LLMs wurde anhand der Anzahl der Fakten in ihrer Antwort in Kombination mit der Sachlichkeit der einzelnen Fakten gemessen.

Die von ihnen verwendete Metrik (F1@K) schätzt die vom Menschen bevorzugte "ideale" Anzahl von Fakten in einer Antwort. Bei den Benchmark-Tests wurden 64 als Medianwert für K und 178 als Höchstwert verwendet.

Einfach ausgedrückt ist F1@K ein Maß für die Frage "Hat mir die Antwort so viele Fakten geliefert, wie ich wollte?" in Kombination mit der Frage "Wie viele dieser Fakten waren wahr?".

Welcher LLM ist am sachlichsten?

Die Forscher verwendeten LongFact, um 13 LLMs aus den Familien Gemini, GPT, Claude und PaLM-2 zu befragen. Anschließend bewerteten sie mit SAFE die Sachbezogenheit ihrer Antworten.

GPT-4-Turbo führt die Liste der sachlichsten Modelle bei der Erstellung von Langformantworten an. Es wurde dicht gefolgt von Gemini-Ultra und PaLM-2-L-IT-RLHF. Die Ergebnisse zeigen, dass größere LLMs sachlicher sind als kleinere.

Die F1@K-Berechnung würde Datenwissenschaftler wahrscheinlich begeistern, aber der Einfachheit halber zeigen diese Benchmark-Ergebnisse, wie faktisch jedes Modell bei der Rückgabe von durchschnittlich langen und längeren Antworten auf die Fragen ist.

Langform-Faktizitätsleistung von 13 LLMs mit K = 64 (die mittlere Anzahl von Fakten unter allen Modellantworten) und K = 178 (die maximale Anzahl von Fakten unter allen Modellantworten). Quelle: arXiv

SAFE ist eine kostengünstige und wirksame Methode zur Quantifizierung der Faktizität von LLM-Langzeitstudien. Es ist schneller und billiger als menschliche Faktenüberprüfung, aber es hängt immer noch von der Wahrhaftigkeit der Informationen ab, die Google in den Suchergebnissen ausgibt.

DeepMind gab SAFE zur öffentlichen Nutzung frei und schlug vor, dass es helfen könnte, die Faktizität von LLMs durch besseres Vortraining und Feinabstimmung zu verbessern. Es könnte auch einen LLM in die Lage versetzen, seine Fakten zu überprüfen, bevor er einem Nutzer die Ausgabe präsentiert.

OpenAI wird sich freuen zu sehen, dass die Forschung von Google zeigt, dass GPT-4 Gemini in einem weiteren Benchmark schlägt.

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Eugene van der Watt

Eugene kommt aus der Elektronikbranche und liebt alles, was mit Technik zu tun hat. Wenn er eine Pause vom Konsum von KI-Nachrichten einlegt, findet man ihn am Snookertisch.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen