Claude 3 Opus übertrifft alle LLMs bei der Zusammenfassung in Buchlänge

Forscher veröffentlichten eine Studie, in der sie die Genauigkeit und Qualität von Zusammenfassungen verglichen, die LLMs erstellen. Claude 3 Opus schnitt besonders gut ab, aber der Mensch hat immer noch die Nase vorn.

KI-Modelle sind äußerst nützlich, um lange Dokumente zusammenzufassen, wenn man keine Zeit oder Lust hat, sie zu lesen.

Der Luxus wachsender Kontextfenster bedeutet, dass wir die Modelle mit längeren Dokumenten konfrontieren können, was ihre Fähigkeit, die Fakten in der Zusammenfassung immer richtig zu erfassen, in Frage stellt.

Die Forscher von der University of Massachusetts Amherst, Adobe, dem Allen Institute for AI und der Princeton University, veröffentlichte eine Studie die herausfinden sollte, wie gut KI-Modelle bei der Zusammenfassung von Inhalten in Buchlänge (>100k Token) sind.

FABLES

Sie wählten 26 Bücher aus, die in den Jahren 2023 und 2024 veröffentlicht wurden, und ließen verschiedene LLMs die Texte zusammenfassen. Die jüngsten Veröffentlichungsdaten wurden gewählt, um eine mögliche Datenkontamination in den ursprünglichen Trainingsdaten der Modelle zu vermeiden.

Nachdem die Modelle die Zusammenfassungen erstellt hatten, verwendeten sie GPT-4, um daraus dekontextualisierte Aussagen zu extrahieren. Die Forscher stellten dann menschliche Kommentatoren ein, die die Bücher gelesen hatten, und baten sie, die Behauptungen zu überprüfen.

Das LLM fasst das Buch zusammen, GPT-4 extrahiert die Behauptungen, und menschliche Annotatoren überprüfen die Behauptungen. Quelle: arXiv

Die daraus resultierenden Daten wurden in einem Datensatz namens "Faithfulness Annotations for Book-Length Summarization" (FABLES) zusammengefasst. FABLES enthält 3.158 Annotationen zur Treue in 26 Erzähltexten.

Die Testergebnisse zeigten, dass Claude 3 Opus "mit deutlichem Abstand die getreueste Zusammenfassung in Buchlänge" war, wobei über 90% der Angaben als getreu oder genau verifiziert wurden.

GPT-4 liegt mit Abstand an zweiter Stelle, denn nur 78% seiner Angaben wurden von den menschlichen Kommentatoren als wahrheitsgetreu bestätigt.

Prozentsatz der Behauptungen, die aus LLM-generierten Zusammenfassungen extrahiert wurden, die von Menschen als treu, untreu, teilweise Unterstützung oder nicht überprüfbar bewertet wurden. Quelle: arXiv

Der schwierige Teil

Die getesteten Modelle schienen alle mit denselben Dingen zu kämpfen. Die meisten Fakten, die die Modelle falsch wiedergaben, bezogen sich auf Ereignisse oder Zustände von Personen und Beziehungen.

Das Papier stellt fest, dass "die meisten dieser Behauptungen nur durch Multi-Hop-Argumentation über die Beweise entkräftet werden können, was die Komplexität der Aufgabe und ihren Unterschied zu bestehenden Faktenüberprüfungssituationen hervorhebt".

Die LLMs ließen in ihren Zusammenfassungen auch häufig kritische Informationen aus. Außerdem betonen sie den Inhalt gegen Ende des Buches übermäßig und vernachlässigen wichtige Inhalte am Anfang.

Wird KI menschliche Kommentatoren ersetzen?

Menschliche Kommentatoren oder Faktenchecker sind teuer. Die Forscher gaben $5.200 aus, um die Behauptungen in den KI-Zusammenfassungen durch menschliche Kommentatoren überprüfen zu lassen.

Hätte ein KI-Modell die Aufgabe für weniger Geld erledigen können? Einfach Faktenrecherche ist etwas, was Claude 3 gut kann, aber seine Leistung bei der Überprüfung von Aussagen, die ein tieferes Verständnis des Inhalts erfordern, ist weniger konsistent.

Wenn man ihnen die extrahierten Behauptungen vorlegte und sie aufforderte, diese zu überprüfen, blieben alle KI-Modelle hinter den menschlichen Kommentatoren zurück. Besonders schlecht schnitten sie bei der Erkennung unlauterer Angaben ab.

Obwohl Claude 3 Opus mit einigem Abstand der beste Antragsprüfer war, kamen die Forscher zu dem Schluss, dass er "letztendlich zu schlecht abschneidet, um ein zuverlässiger automatischer Prüfer zu sein".

Wenn es darum geht, die Nuancen, die komplexen menschlichen Beziehungen, die Handlungspunkte und die Motivationen der Figuren in einer langen Erzählung zu verstehen, scheinen die Menschen im Moment noch im Vorteil zu sein.

Claude 3 Opus übertrifft alle LLMs bei der Zusammenfassung in Buchlänge

FABLES

Der schwierige Teil

Wird KI menschliche Kommentatoren ersetzen?

Join The Future

Eugene van der Watt

VERWANDTE ARTIKEL

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

Claude 3 Opus übertrifft alle LLMs bei der Zusammenfassung in Buchlänge

FABLES

Der schwierige Teil

Wird KI menschliche Kommentatoren ersetzen?

Join The Future

Eugene van der Watt

VERWANDTE ARTIKEL

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

KOSTENLOSES PDF EXKLUSIVMit DailyAI immer einen Schritt voraus

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus