Claude 3 Opus sbaraglia tutti i LLM nel riassunto di un libro

I ricercatori hanno pubblicato uno studio che confronta l'accuratezza e la qualità dei riassunti prodotti dai LLM. Claude 3 Opus si è comportato particolarmente bene, ma gli esseri umani sono ancora in vantaggio.

I modelli di intelligenza artificiale sono estremamente utili per riassumere documenti lunghi quando non si ha il tempo o la voglia di leggerli.

Il lusso di avere finestre di contesto crescenti ci permette di sollecitare i modelli con documenti più lunghi, il che mette a dura prova la loro capacità di ottenere sempre i fatti nel riassunto.

I ricercatori dell'Università del Massachusetts Amherst, di Adobe, dell'Allen Institute for AI e dell'Università di Princeton, ha pubblicato uno studio che ha cercato di capire quanto siano bravi i modelli di intelligenza artificiale a riassumere contenuti lunghi come un libro (>100k token).

FAVOLE

Hanno selezionato 26 libri pubblicati nel 2023 e nel 2024 e hanno fatto riassumere i testi a diversi LLM. Le date di pubblicazione recenti sono state scelte per evitare una potenziale contaminazione dei dati nei dati di addestramento originali dei modelli.

Una volta che i modelli hanno prodotto i riassunti, hanno usato il GPT-4 per estrarre da essi le affermazioni decontestualizzate. I ricercatori hanno poi assunto degli annotatori umani che avevano letto i libri e hanno chiesto loro di verificare le affermazioni.

Il LLM riassume il libro, il GPT-4 estrae le affermazioni e gli annotatori umani le verificano. Fonte: arXiv

I dati ottenuti sono stati raccolti in un set di dati chiamato "Faithfulness Annotations for Book-Length Summarization" (FABLES). FABLES contiene 3.158 annotazioni di fedeltà a livello di affermazione in 26 testi narrativi.

I risultati del test hanno dimostrato che Claude 3 Opus è "il riassunto più fedele di un libro con un margine significativo", con oltre 90% di affermazioni verificate come fedeli o accurate.

Il GPT-4 è arrivato lontano, con solo 78% delle sue affermazioni verificate come fedeli dagli annotatori umani.

Percentuale di affermazioni estratte dai riassunti generati da LLM valutate dagli esseri umani come fedeli, infedeli, a sostegno parziale o non verificabili. Fonte: arXiv

La parte difficile

I modelli sottoposti al test sembravano avere difficoltà con le stesse cose. La maggior parte dei fatti sbagliati dai modelli riguardava eventi o stati di personaggi e relazioni.

Il documento osserva che "la maggior parte di queste affermazioni può essere invalidata solo attraverso un ragionamento multi-hop sulle prove, evidenziando la complessità del compito e la sua differenza rispetto alle impostazioni di verifica dei fatti esistenti".

I LLM hanno anche spesso tralasciato informazioni critiche nei loro riassunti. Inoltre, hanno enfatizzato eccessivamente i contenuti verso la fine dei libri, tralasciando quelli importanti più vicini all'inizio.

L'intelligenza artificiale sostituirà gli annotatori umani?

Gli annotatori umani o i fact-checker sono costosi. I ricercatori hanno speso $5.200 per far verificare agli annotatori umani le affermazioni contenute nei riassunti dell'IA.

Un modello di intelligenza artificiale avrebbe potuto fare il lavoro per meno? Semplice recupero dei fatti è qualcosa che Claude 3 sa fare bene, ma le sue prestazioni nella verifica di affermazioni che richiedono una comprensione più approfondita del contenuto sono meno consistenti.

Quando sono state presentate le affermazioni estratte e si è chiesto loro di verificarle, tutti i modelli di intelligenza artificiale sono stati inferiori agli annotatori umani. In particolare, si sono comportati male nell'identificare le affermazioni infedeli.

Anche se Claude 3 Opus è risultato il miglior verificatore di richieste di risarcimento con una certa distanza, i ricercatori hanno concluso che "in definitiva ha prestazioni troppo scarse per essere un auto-rating affidabile".

Quando si tratta di comprendere le sfumature, le complesse relazioni umane, i punti della trama e le motivazioni dei personaggi in una lunga narrazione, sembra che gli umani siano ancora in vantaggio per ora.

Claude 3 Opus sbaraglia tutti i LLM nella sintesi di un libro

FAVOLE

La parte difficile

L'intelligenza artificiale sostituirà gli annotatori umani?

Partecipa al futuro

Eugene van der Watt

ARTICOLI CORRELATI

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

Claude 3 Opus sbaraglia tutti i LLM nella sintesi di un libro

FAVOLE

La parte difficile

L'intelligenza artificiale sostituirà gli annotatori umani?

Partecipa al futuro

Eugene van der Watt

ARTICOLI CORRELATI

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

PDF GRATUITO ESCLUSIVORimanere all'avanguardia con DailyAI

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI