L'Opus Claude 3 fait miroiter à tous les LLM la possibilité de faire un résumé de leur livre

8 avril 2024

  • Les LLM sont utiles pour résumer des textes longs, mais ils peuvent avoir des difficultés à être fidèles et pertinents.
  • Les chercheurs ont créé un ensemble de données et testé des LLM pour voir lequel était le plus apte à résumer un texte long.
  • Claude 3 Opus a obtenu de bien meilleurs résultats que d'autres LLM, y compris GPT-4.

Des chercheurs ont publié une étude comparant la précision et la qualité des résumés produits par les LLM. Claude 3 Opus s'est montré particulièrement performant, mais l'homme garde l'avantage.

Les modèles d'IA sont extrêmement utiles pour résumer de longs documents lorsque vous n'avez pas le temps ou l'envie de les lire.

Le luxe d'avoir des fenêtres contextuelles de plus en plus grandes signifie que nous pouvons demander aux modèles de présenter des documents plus longs, ce qui remet en question leur capacité à toujours présenter les faits de manière claire dans le résumé.

Les chercheurs de l'université du Massachusetts Amherst, d'Adobe, de l'Allen Institute for AI et de l'université de Princeton, a publié une étude qui visait à déterminer la capacité des modèles d'IA à résumer le contenu d'un livre (>100k tokens).

FABLES

Ils ont sélectionné 26 livres publiés en 2023 et 2024 et ont demandé à plusieurs LLM de résumer les textes. Les dates de publication récentes ont été choisies pour éviter une contamination potentielle des données dans les données d'apprentissage originales des modèles.

Une fois que les modèles ont produit les résumés, ils ont utilisé GPT-4 pour en extraire les affirmations décontextualisées. Les chercheurs ont ensuite engagé des annotateurs humains qui avaient lu les livres et leur ont demandé de vérifier les faits.

Le LLM résume le livre, le GPT-4 extrait les affirmations et les annotateurs humains vérifient les affirmations. Source : arXiv

Les données obtenues ont été compilées dans un ensemble de données appelé "Faithfulness Annotations for Book-Length Summarization" (FABLES). FABLES contient 3 158 annotations de fidélité au niveau des revendications dans 26 textes narratifs.

Les résultats du test ont montré que Claude 3 Opus était "le résumé le plus fidèle d'un livre, avec une marge significative", avec plus de 90% de ses affirmations vérifiées comme étant fidèles ou exactes.

Le GPT-4 arrive loin derrière avec seulement 78% de ses affirmations vérifiées comme fidèles par les annotateurs humains.

Pourcentage d'affirmations extraites de résumés générés par LLM et évaluées par des humains comme fidèles, infidèles, partiellement soutenues ou non vérifiables. Source : arXiv

La partie la plus difficile

Les modèles testés semblaient tous éprouver les mêmes difficultés. La majorité des faits sur lesquels les modèles se sont trompés concernaient des événements ou des états des personnages et des relations.

L'article note que "la plupart de ces affirmations ne peuvent être invalidées que par un raisonnement à plusieurs bonds sur les preuves, ce qui met en évidence la complexité de la tâche et sa différence par rapport aux contextes existants de vérification des faits".

En outre, les MFR ont souvent omis des informations essentielles dans leurs résumés. Ils accordent également trop d'importance au contenu vers la fin des livres, négligeant le contenu important situé au début.

L'IA remplacera-t-elle les annotateurs humains ?

Les annotateurs humains ou les vérificateurs de faits sont coûteux. Les chercheurs ont dépensé $5 200 euros pour que les annotateurs humains vérifient les affirmations contenues dans les résumés de l'IA.

Un modèle d'IA aurait-il pu faire le travail pour moins cher ? Simple recherche de faits est un domaine dans lequel Claude 3 excelle, mais ses performances en matière de vérification d'allégations nécessitant une compréhension plus approfondie du contenu sont moins régulières.

Lorsqu'on leur a présenté les allégations extraites et qu'on leur a demandé de les vérifier, tous les modèles d'IA ont été moins performants que les annotateurs humains. Ils ont particulièrement mal réussi à identifier les allégations infidèles.

Bien que Claude 3 Opus soit de loin le meilleur vérificateur de sinistres, les chercheurs ont conclu qu'il "est en fin de compte trop peu performant pour être un évaluateur automatique fiable".

Lorsqu'il s'agit de comprendre les nuances, les relations humaines complexes, les intrigues et les motivations des personnages d'un long récit, il semble que les humains aient encore l'avantage pour l'instant.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Eugène van der Watt

Eugene a une formation d'ingénieur en électronique et adore tout ce qui touche à la technologie. Lorsqu'il fait une pause dans sa consommation d'informations sur l'IA, vous le trouverez à la table de snooker.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation