Claude 3 Opus blaast alle LLM's weg in boek-lengte samenvatting

8 april 2024

  • LLM's zijn nuttig voor het samenvatten van een boeklengte tekst, maar kunnen worstelen met getrouwheid en relevantie.
  • Onderzoekers creëerden een dataset en testten LLM's om te zien welke het beste was in het samenvatten van lange tekst.
  • Claude 3 Opus presteerde significant beter dan andere LLM's, waaronder GPT-4

Onderzoekers publiceerden een studie waarin de nauwkeurigheid en kwaliteit van samenvattingen die LLM's produceren werden vergeleken. Claude 3 Opus presteerde bijzonder goed, maar mensen hebben nog steeds een streepje voor.

AI-modellen zijn erg handig voor het samenvatten van lange documenten als je geen tijd of zin hebt om ze te lezen.

De luxe van groeiende contextvensters betekent dat we modellen kunnen vragen om langere documenten, wat hun vermogen om altijd de feiten op een rijtje te zetten in de samenvatting op de proef stelt.

De onderzoekers van de University of Massachusetts Amherst, Adobe, het Allen Institute for AI en Princeton University, een onderzoek gepubliceerd waarin werd onderzocht hoe goed AI-modellen zijn in het samenvatten van boeklengte (>100k tokens).

FABLES

Ze selecteerden 26 boeken die in 2023 en 2024 werden gepubliceerd en lieten verschillende LLM's de teksten samenvatten. De recente publicatiedata werden gekozen om mogelijke datavervuiling in de oorspronkelijke trainingsgegevens van de modellen te voorkomen.

Nadat de modellen de samenvattingen hadden gemaakt, gebruikten ze GPT-4 om er decontextuele beweringen uit te halen. De onderzoekers huurden vervolgens menselijke annotators in die de boeken hadden gelezen en vroegen hen de beweringen op feiten te controleren.

De LLM vat het boek samen, GPT-4 haalt de beweringen eruit en menselijke annotators controleren de beweringen. Bron: arXiv

De resulterende gegevens werden samengevoegd in een dataset genaamd "Faithfulness Annotations for Book-Length Summarization" (FABLES). FABLES bevat 3.158 annotaties van trouw op claimniveau in 26 verhalende teksten.

De testresultaten toonden aan dat Claude 3 Opus "de meest waarheidsgetrouwe samenvatter van boeken met een aanzienlijke marge" was, met meer dan 90% van de beweringen geverifieerd als waarheidsgetrouw of accuraat.

GPT-4 kwam op een verre tweede plaats met slechts 78% van zijn beweringen geverifieerd als waarheidsgetrouw door de menselijke annotators.

Percentage beweringen uit door LLM gegenereerde samenvattingen die door mensen worden beoordeeld als trouw, ontrouw, gedeeltelijke ondersteuning of niet te verifiëren. Bron: arXiv

Het moeilijke deel

De geteste modellen leken allemaal met dezelfde dingen te worstelen. De meeste feiten die de modellen fout hadden, hadden te maken met gebeurtenissen of toestanden van personages en relaties.

Het artikel merkte op dat "de meeste van deze beweringen alleen ongeldig kunnen worden gemaakt door multi-hop redeneren over het bewijs, wat de complexiteit van de taak benadrukt en het verschil met bestaande instellingen voor het verifiëren van feiten".

De LLM's lieten ook vaak belangrijke informatie weg in hun samenvattingen. Ze leggen ook te veel nadruk op inhoud aan het einde van boeken, waardoor ze belangrijke inhoud aan het begin over het hoofd zien.

Zal AI menselijke annotators vervangen?

Menselijke annotators of factcheckers zijn duur. De onderzoekers gaven $5.200 uit om de menselijke annotators de beweringen in de AI-samenvattingen te laten controleren.

Had een AI-model de klus voor minder kunnen klaren? Eenvoudig feiten ophalen is iets waar Claude 3 goed in is, maar de prestaties bij het verifiëren van beweringen die een dieper begrip van de inhoud vereisen zijn minder consistent.

Toen de geëxtraheerde beweringen werden gepresenteerd en gevraagd om ze te verifiëren, deden alle AI-modellen het minder goed dan menselijke annotators. Ze presteerden vooral slecht bij het identificeren van ontrouwe beweringen.

Hoewel Claude 3 Opus met enige afstand de beste claimverificateur was, concludeerden de onderzoekers dat het "uiteindelijk te slecht presteert om een betrouwbare autorater te zijn".

Als het aankomt op het begrijpen van de nuances, complexe menselijke relaties, plotpunten en motivaties van personages in een lang verhaal, lijkt het erop dat mensen voorlopig nog steeds een streepje voor hebben.

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Eugene van der Watt

Eugene heeft een achtergrond in elektrotechniek en houdt van alles wat met techniek te maken heeft. Als hij even pauzeert van het consumeren van AI-nieuws, kun je hem aan de snookertafel vinden.

×

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden