Claude 3 Opus surpreende todos os LLMs com o resumo de um livro

8 de abril de 2024

  • Os LLM são úteis para resumir textos de livros, mas podem ter dificuldades com a fidelidade e a relevância
  • Os investigadores criaram um conjunto de dados e testaram os LLMs para ver qual deles era o melhor para resumir textos longos
  • Claude 3 O Opus teve um desempenho significativamente melhor do que outros LLM, incluindo o GPT-4

Os investigadores publicaram um estudo que compara a exatidão e a qualidade dos resumos que os LLM produzem. O Claude 3 Opus teve um desempenho particularmente bom, mas os humanos continuam a ter vantagem.

Os modelos de IA são extremamente úteis para resumir documentos longos quando não se tem tempo ou vontade de os ler.

O luxo de aumentar as janelas de contexto significa que podemos solicitar aos modelos documentos mais longos, o que desafia a sua capacidade de obter sempre os factos correctos no resumo.

Os investigadores da Universidade de Massachusetts Amherst, da Adobe, do Allen Institute for AI e da Universidade de Princeton, publicou um estudo que procurou descobrir a capacidade dos modelos de IA para resumir conteúdos de livros (>100k tokens).

FABULOS

Seleccionaram 26 livros publicados em 2023 e 2024 e fizeram com que vários LLMs resumissem os textos. As datas de publicação recentes foram escolhidas para evitar a potencial contaminação de dados nos dados de treino originais dos modelos.

Depois de os modelos produzirem os resumos, utilizaram o GPT-4 para extrair deles afirmações descontextualizadas. Em seguida, os investigadores contrataram anotadores humanos que tinham lido os livros e pediram-lhes que verificassem as afirmações.

O LLM resume o livro, o GPT-4 extrai as afirmações e os anotadores humanos verificam as afirmações. Fonte: arXiv

Os dados resultantes foram compilados num conjunto de dados denominado "Faithfulness Annotations for Book-Length Summarization" (FABLES). O FABLES contém 3.158 anotações de fidelidade ao nível da afirmação em 26 textos narrativos.

Os resultados do teste mostraram que o Claude 3 Opus era "o resumidor de livros mais fiel por uma margem significativa", com mais de 90% das suas afirmações verificadas como fiéis ou exactas.

O GPT-4 ficou num distante segundo lugar, com apenas 78% das suas afirmações verificadas como fiéis pelos anotadores humanos.

Percentagem de afirmações extraídas de resumos gerados por LLM classificadas por humanos como fiéis, infiéis, apoio parcial ou não podem verificar. Fonte: arXiv

A parte difícil

Os modelos testados pareciam todos ter dificuldades com as mesmas coisas. A maioria dos factos que os modelos erraram diziam respeito a acontecimentos ou estados de personagens e relações.

O documento refere que "a maior parte destas afirmações só pode ser invalidada através de um raciocínio multi-hop sobre as provas, o que realça a complexidade da tarefa e a sua diferença em relação aos cenários de verificação de factos existentes".

Os LLMs também deixaram frequentemente de fora informação crítica nos seus resumos. Além disso, dão demasiada importância aos conteúdos do final dos livros, esquecendo conteúdos importantes mais próximos do início.

Irá a IA substituir os anotadores humanos?

Os anotadores humanos ou verificadores de factos são dispendiosos. Os investigadores gastaram $5.200 para que os anotadores humanos verificassem as afirmações nos resumos da IA.

Poderia um modelo de IA ter feito o trabalho por menos? Simples recuperação de factos é algo em que o Claude 3 é bom, mas o seu desempenho na verificação de afirmações que exigem uma compreensão mais profunda do conteúdo é menos consistente.

Quando lhes foram apresentadas as afirmações extraídas e lhes foi pedido que as verificassem, todos os modelos de IA ficaram aquém dos anotadores humanos. O seu desempenho foi particularmente mau na identificação de afirmações infiéis.

Apesar de o Claude 3 Opus ter sido o melhor verificador de reclamações por alguma distância, os investigadores concluíram que "acaba por ter um desempenho demasiado fraco para ser um avaliador automático fiável".

Quando se trata de compreender as nuances, as relações humanas complexas, os pontos de enredo e as motivações das personagens numa longa narrativa, parece que os humanos ainda estão em vantagem, por enquanto.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições