Claude 3 Opus blåser alla LLM:er av banan i boklång sammanfattning

Forskare publicerade en studie som jämförde noggrannheten och kvaliteten på de sammanfattningar som LLM:er producerar. Claude 3 Opus presterade särskilt bra, men människor har fortfarande övertaget.

AI-modeller är extremt användbara för att sammanfatta långa dokument när du inte har tid eller lust att läsa dem.

Lyxen med växande kontextfönster innebär att vi får uppmana modeller med längre dokument, vilket utmanar deras förmåga att alltid få fram fakta i sammanfattningen.

Forskarna kommer från University of Massachusetts Amherst, Adobe, Allen Institute for AI och Princeton University, publicerade en studie som syftade till att ta reda på hur bra AI-modeller är på att sammanfatta boklångt innehåll (>100k tokens).

FABLER

De valde 26 böcker som publicerades 2023 och 2024 och lät olika LLM:er sammanfatta texterna. De senaste publiceringsdatumen valdes för att undvika potentiell datakontaminering i modellernas ursprungliga träningsdata.

När modellerna producerade sammanfattningarna använde de GPT-4 för att extrahera dekontextualiserade påståenden från dem. Forskarna anställde sedan mänskliga annotatorer som hade läst böckerna och bad dem att faktakontrollera påståendena.

LLM sammanfattar boken, GPT-4 extraherar påståendena och mänskliga kommentatorer verifierar påståendena. Källa: arXiv

De resulterande uppgifterna sammanställdes i ett dataset som kallas "Faithfulness Annotations for Book-Length Summarization" (FABLES). FABLES innehåller 3.158 anteckningar om trofasthet på påståendenivå i 26 berättande texter.

Testresultaten visade att Claude 3 Opus var "den mest trogna sammanfattningen av en boklängd med en betydande marginal", med över 90% av dess påståenden verifierade som trogna eller korrekta.

GPT-4 kom på en avlägsen andraplats med endast 78% av sina påståenden verifierade som trogna av de mänskliga annotatörerna.

Procentandel av påståenden som extraherats från LLM-genererade sammanfattningar som bedömts av människor som trogna, otrogna, delvis stöd eller kan inte verifieras. Källa: arXiv

Den svåra delen

De modeller som testades verkade alla kämpa med samma saker. Majoriteten av de fakta som modellerna fick fel relaterade till händelser eller tillstånd hos karaktärer och relationer.

I rapporten konstateras att "de flesta av dessa påståenden endast kan ogiltigförklaras genom att man resonerar kring bevisen i flera steg, vilket visar hur komplex uppgiften är och hur den skiljer sig från befintliga inställningar för faktaverifiering".

LLM:erna utelämnade också ofta kritisk information i sina sammanfattningar. De lägger också för stor vikt vid innehåll i slutet av böckerna och missar viktigt innehåll i början.

Kommer AI att ersätta mänskliga kommentatorer?

Mänskliga kommentatorer eller faktakontrollanter är dyra. Forskarna spenderade $5.200 för att få de mänskliga kommentatorerna att verifiera påståendena i AI-sammanfattningarna.

Hade en AI-modell kunnat göra jobbet billigare? Enkelt faktainhämtning är något som Claude 3 är bra på, men dess prestanda när det gäller att verifiera påståenden som kräver en djupare förståelse av innehållet är mindre konsekvent.

När AI-modellerna presenterades med de extraherade påståendena och uppmanades att verifiera dem, klarade de sig sämre än de mänskliga kommentatorerna. De presterade särskilt dåligt när det gällde att identifiera falska påståenden.

Även om Claude 3 Opus var den bästa verifieraren av anspråk med god marginal, drog forskarna slutsatsen att den "i slutändan presterar för dåligt för att vara en tillförlitlig automatisk bedömare".

När det gäller att förstå nyanserna, de komplexa mänskliga relationerna, intrigerna och karaktärernas motiv i en lång berättelse verkar det som om människorna fortfarande har ett försprång.

Claude 3 Opus blåser alla LLM:are av stolen med en boklång sammanfattning

FABLER

Den svåra delen

Kommer AI att ersätta mänskliga kommentatorer?

Bli en del av framtiden

Eugene van der Watt

RELATERADE ARTIKLAR

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

Claude 3 Opus blåser alla LLM:are av stolen med en boklång sammanfattning

FABLER

Den svåra delen

Kommer AI att ersätta mänskliga kommentatorer?

Bli en del av framtiden

Eugene van der Watt

RELATERADE ARTIKLAR

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

GRATIS PDF EXKLUSIVLigg steget före med DailyAI

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI