Claude 3 Opus blåser alla LLM:are av stolen med en boklång sammanfattning

8 april 2024

  • LLM:er är användbara för att sammanfatta långa texter men kan ha problem med trovärdighet och relevans
  • Forskarna skapade ett dataset och testade LLM:er för att se vilken som var bäst på att sammanfatta långa texter
  • Claude 3 Opus presterade betydligt bättre än andra LLM inklusive GPT-4

Forskare publicerade en studie som jämförde noggrannheten och kvaliteten på de sammanfattningar som LLM:er producerar. Claude 3 Opus presterade särskilt bra, men människor har fortfarande övertaget.

AI-modeller är extremt användbara för att sammanfatta långa dokument när du inte har tid eller lust att läsa dem.

Lyxen med växande kontextfönster innebär att vi får uppmana modeller med längre dokument, vilket utmanar deras förmåga att alltid få fram fakta i sammanfattningen.

Forskarna kommer från University of Massachusetts Amherst, Adobe, Allen Institute for AI och Princeton University, publicerade en studie som syftade till att ta reda på hur bra AI-modeller är på att sammanfatta boklångt innehåll (>100k tokens).

FABLER

De valde 26 böcker som publicerades 2023 och 2024 och lät olika LLM:er sammanfatta texterna. De senaste publiceringsdatumen valdes för att undvika potentiell datakontaminering i modellernas ursprungliga träningsdata.

När modellerna producerade sammanfattningarna använde de GPT-4 för att extrahera dekontextualiserade påståenden från dem. Forskarna anställde sedan mänskliga annotatorer som hade läst böckerna och bad dem att faktakontrollera påståendena.

LLM sammanfattar boken, GPT-4 extraherar påståendena och mänskliga kommentatorer verifierar påståendena. Källa: arXiv

De resulterande uppgifterna sammanställdes i ett dataset som kallas "Faithfulness Annotations for Book-Length Summarization" (FABLES). FABLES innehåller 3.158 anteckningar om trofasthet på påståendenivå i 26 berättande texter.

Testresultaten visade att Claude 3 Opus var "den mest trogna sammanfattningen av en boklängd med en betydande marginal", med över 90% av dess påståenden verifierade som trogna eller korrekta.

GPT-4 kom på en avlägsen andraplats med endast 78% av sina påståenden verifierade som trogna av de mänskliga annotatörerna.

Procentandel av påståenden som extraherats från LLM-genererade sammanfattningar som bedömts av människor som trogna, otrogna, delvis stöd eller kan inte verifieras. Källa: arXiv

Den svåra delen

De modeller som testades verkade alla kämpa med samma saker. Majoriteten av de fakta som modellerna fick fel relaterade till händelser eller tillstånd hos karaktärer och relationer.

I rapporten konstateras att "de flesta av dessa påståenden endast kan ogiltigförklaras genom att man resonerar kring bevisen i flera steg, vilket visar hur komplex uppgiften är och hur den skiljer sig från befintliga inställningar för faktaverifiering".

LLM:erna utelämnade också ofta kritisk information i sina sammanfattningar. De lägger också för stor vikt vid innehåll i slutet av böckerna och missar viktigt innehåll i början.

Kommer AI att ersätta mänskliga kommentatorer?

Mänskliga kommentatorer eller faktakontrollanter är dyra. Forskarna spenderade $5.200 för att få de mänskliga kommentatorerna att verifiera påståendena i AI-sammanfattningarna.

Hade en AI-modell kunnat göra jobbet billigare? Enkelt faktainhämtning är något som Claude 3 är bra på, men dess prestanda när det gäller att verifiera påståenden som kräver en djupare förståelse av innehållet är mindre konsekvent.

När AI-modellerna presenterades med de extraherade påståendena och uppmanades att verifiera dem, klarade de sig sämre än de mänskliga kommentatorerna. De presterade särskilt dåligt när det gällde att identifiera falska påståenden.

Även om Claude 3 Opus var den bästa verifieraren av anspråk med god marginal, drog forskarna slutsatsen att den "i slutändan presterar för dåligt för att vara en tillförlitlig automatisk bedömare".

När det gäller att förstå nyanserna, de komplexa mänskliga relationerna, intrigerna och karaktärernas motiv i en lång berättelse verkar det som om människorna fortfarande har ett försprång.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Eugene van der Watt

Eugene kommer från en bakgrund som elektronikingenjör och älskar allt som har med teknik att göra. När han tar en paus från att konsumera AI-nyheter hittar du honom vid snookerbordet.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar