Os investigadores publicaram um estudo que compara a exatidão e a qualidade dos resumos que os LLM produzem. O Claude 3 Opus teve um desempenho particularmente bom, mas os humanos continuam a ter vantagem.
Os modelos de IA são extremamente úteis para resumir documentos longos quando não se tem tempo ou vontade de os ler.
O luxo de aumentar as janelas de contexto significa que podemos solicitar aos modelos documentos mais longos, o que desafia a sua capacidade de obter sempre os factos correctos no resumo.
Os investigadores da Universidade de Massachusetts Amherst, da Adobe, do Allen Institute for AI e da Universidade de Princeton, publicou um estudo que procurou descobrir a capacidade dos modelos de IA para resumir conteúdos de livros (>100k tokens).
FABULOS
Seleccionaram 26 livros publicados em 2023 e 2024 e fizeram com que vários LLMs resumissem os textos. As datas de publicação recentes foram escolhidas para evitar a potencial contaminação de dados nos dados de treino originais dos modelos.
Depois de os modelos produzirem os resumos, utilizaram o GPT-4 para extrair deles afirmações descontextualizadas. Em seguida, os investigadores contrataram anotadores humanos que tinham lido os livros e pediram-lhes que verificassem as afirmações.
Os dados resultantes foram compilados num conjunto de dados denominado "Faithfulness Annotations for Book-Length Summarization" (FABLES). O FABLES contém 3.158 anotações de fidelidade ao nível da afirmação em 26 textos narrativos.
Os resultados do teste mostraram que o Claude 3 Opus era "o resumidor de livros mais fiel por uma margem significativa", com mais de 90% das suas afirmações verificadas como fiéis ou exactas.
O GPT-4 ficou num distante segundo lugar, com apenas 78% das suas afirmações verificadas como fiéis pelos anotadores humanos.
A parte difícil
Os modelos testados pareciam todos ter dificuldades com as mesmas coisas. A maioria dos factos que os modelos erraram diziam respeito a acontecimentos ou estados de personagens e relações.
O documento refere que "a maior parte destas afirmações só pode ser invalidada através de um raciocínio multi-hop sobre as provas, o que realça a complexidade da tarefa e a sua diferença em relação aos cenários de verificação de factos existentes".
Os LLMs também deixaram frequentemente de fora informação crítica nos seus resumos. Além disso, dão demasiada importância aos conteúdos do final dos livros, esquecendo conteúdos importantes mais próximos do início.
Irá a IA substituir os anotadores humanos?
Os anotadores humanos ou verificadores de factos são dispendiosos. Os investigadores gastaram $5.200 para que os anotadores humanos verificassem as afirmações nos resumos da IA.
Poderia um modelo de IA ter feito o trabalho por menos? Simples recuperação de factos é algo em que o Claude 3 é bom, mas o seu desempenho na verificação de afirmações que exigem uma compreensão mais profunda do conteúdo é menos consistente.
Quando lhes foram apresentadas as afirmações extraídas e lhes foi pedido que as verificassem, todos os modelos de IA ficaram aquém dos anotadores humanos. O seu desempenho foi particularmente mau na identificação de afirmações infiéis.
Apesar de o Claude 3 Opus ter sido o melhor verificador de reclamações por alguma distância, os investigadores concluíram que "acaba por ter um desempenho demasiado fraco para ser um avaliador automático fiável".
Quando se trata de compreender as nuances, as relações humanas complexas, os pontos de enredo e as motivações das personagens numa longa narrativa, parece que os humanos ainda estão em vantagem, por enquanto.