L'Opus Claude 3 fait pâlir tous les LLM en résumant un livre

Des chercheurs ont publié une étude comparant la précision et la qualité des résumés produits par les LLM. Claude 3 Opus s'est montré particulièrement performant, mais l'homme garde l'avantage.

Les modèles d'IA sont extrêmement utiles pour résumer de longs documents lorsque vous n'avez pas le temps ou l'envie de les lire.

Le luxe d'avoir des fenêtres contextuelles de plus en plus grandes signifie que nous pouvons demander aux modèles de présenter des documents plus longs, ce qui remet en question leur capacité à toujours présenter les faits de manière claire dans le résumé.

Les chercheurs de l'université du Massachusetts Amherst, d'Adobe, de l'Allen Institute for AI et de l'université de Princeton, a publié une étude qui visait à déterminer la capacité des modèles d'IA à résumer le contenu d'un livre (>100k tokens).

FABLES

Ils ont sélectionné 26 livres publiés en 2023 et 2024 et ont demandé à plusieurs LLM de résumer les textes. Les dates de publication récentes ont été choisies pour éviter une contamination potentielle des données dans les données d'apprentissage originales des modèles.

Une fois que les modèles ont produit les résumés, ils ont utilisé GPT-4 pour en extraire les affirmations décontextualisées. Les chercheurs ont ensuite engagé des annotateurs humains qui avaient lu les livres et leur ont demandé de vérifier les faits.

Le LLM résume le livre, le GPT-4 extrait les affirmations et les annotateurs humains vérifient les affirmations. Source : arXiv

Les données obtenues ont été compilées dans un ensemble de données appelé "Faithfulness Annotations for Book-Length Summarization" (FABLES). FABLES contient 3 158 annotations de fidélité au niveau des revendications dans 26 textes narratifs.

Les résultats du test ont montré que Claude 3 Opus était "le résumé le plus fidèle d'un livre, avec une marge significative", avec plus de 90% de ses affirmations vérifiées comme étant fidèles ou exactes.

Le GPT-4 arrive loin derrière avec seulement 78% de ses affirmations vérifiées comme fidèles par les annotateurs humains.

Pourcentage d'affirmations extraites de résumés générés par LLM et évaluées par des humains comme fidèles, infidèles, partiellement soutenues ou non vérifiables. Source : arXiv

La partie la plus difficile

Les modèles testés semblaient tous éprouver les mêmes difficultés. La majorité des faits sur lesquels les modèles se sont trompés concernaient des événements ou des états des personnages et des relations.

L'article note que "la plupart de ces affirmations ne peuvent être invalidées que par un raisonnement à plusieurs bonds sur les preuves, ce qui met en évidence la complexité de la tâche et sa différence par rapport aux contextes existants de vérification des faits".

En outre, les MFR ont souvent omis des informations essentielles dans leurs résumés. Ils accordent également trop d'importance au contenu vers la fin des livres, négligeant le contenu important situé au début.

L'IA remplacera-t-elle les annotateurs humains ?

Les annotateurs humains ou les vérificateurs de faits sont coûteux. Les chercheurs ont dépensé $5 200 euros pour que les annotateurs humains vérifient les affirmations contenues dans les résumés de l'IA.

Un modèle d'IA aurait-il pu faire le travail pour moins cher ? Simple recherche de faits est un domaine dans lequel Claude 3 excelle, mais ses performances en matière de vérification d'allégations nécessitant une compréhension plus approfondie du contenu sont moins régulières.

Lorsqu'on leur a présenté les allégations extraites et qu'on leur a demandé de les vérifier, tous les modèles d'IA ont été moins performants que les annotateurs humains. Ils ont particulièrement mal réussi à identifier les allégations infidèles.

Bien que Claude 3 Opus soit de loin le meilleur vérificateur de sinistres, les chercheurs ont conclu qu'il "est en fin de compte trop peu performant pour être un évaluateur automatique fiable".

Lorsqu'il s'agit de comprendre les nuances, les relations humaines complexes, les intrigues et les motivations des personnages d'un long récit, il semble que les humains aient encore l'avantage pour l'instant.

L'Opus Claude 3 fait miroiter à tous les LLM la possibilité de faire un résumé de leur livre

FABLES

La partie la plus difficile

L'IA remplacera-t-elle les annotateurs humains ?

Rejoindre l'avenir

Eugène van der Watt

ARTICLES ASSOCIÉS

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

L'Opus Claude 3 fait miroiter à tous les LLM la possibilité de faire un résumé de leur livre

FABLES

La partie la plus difficile

L'IA remplacera-t-elle les annotateurs humains ?

Rejoindre l'avenir

Eugène van der Watt

ARTICLES ASSOCIÉS

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

PDF GRATUIT EXCLUSIFGardez une longueur d'avance avec DailyAI

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI