A DeepMind desenvolveu o SAFE, um agente de IA para verificar os factos dos LLM

2 de abril de 2024

  • Os investigadores do DeepMind desenvolveram o Search-Augmented Factuality Evaluator (SAFE) para verificar os factos dos LLM
  • O SAFE divide as respostas longas do LLM em factos individuais e depois pesquisa no Google para os verificar
  • O SAFE pode ser utilizado para aferir o carácter factual dos LLM

Os investigadores da DeepMind e da Universidade de Stanford desenvolveram um agente de IA que verifica os factos dos LLM e permite a avaliação comparativa da factualidade dos modelos de IA.

Mesmo os melhores modelos de IA tendem a alucinar às vezes. Se pedir ao ChatGPT para lhe dar os factos sobre um tópico, quanto mais longa for a resposta, mais provável é que inclua alguns factos que não são verdadeiros.

Que modelos são mais exactos em termos factuais do que outros quando geram respostas mais longas? É difícil dizer porque, até agora, não dispúnhamos de uma referência para medir a factualidade das respostas longas dos LLM.

O DeepMind começou por utilizar o GPT-4 para criar o LongFact, um conjunto de 2.280 perguntas sob a forma de questões relacionadas com 38 tópicos. Estas solicitações suscitam respostas longas do LLM que está a ser testado.

Em seguida, criaram um agente de IA utilizando o GPT-3.5-turbo para utilizar o Google para verificar o grau de factualidade das respostas geradas pelo LLM. Chamaram a este método Search-Augmented Factuality Evaluator (SAFE).

O SAFE começa por dividir a resposta longa do LLM em factos individuais. Em seguida, envia pedidos de pesquisa para o Google Search e analisa a veracidade do facto com base nas informações contidas nos resultados da pesquisa.

Aqui está um exemplo do trabalho de investigação.

Um pedido de procura de factos suscita uma resposta longa. A resposta é dividida em factos individuais, revista para ser autónoma, verificada quanto à sua relevância e verificada utilizando a Pesquisa Google. Fonte: arXiv

Os investigadores afirmam que o SAFE atinge um "desempenho sobre-humano" em comparação com os anotadores humanos que fazem a verificação dos factos.

O SAFE concordou com 72% das anotações humanas e, nos casos em que diferiu das anotações humanas, foi considerado correto em 76% das vezes. Além disso, foi 20 vezes mais económico do que os anotadores humanos de crowdsourcing. Assim, os LLM são melhores e mais baratos verificadores de factos do que os humanos.

A qualidade da resposta dos LLMs testados foi medida com base no número de factóides na sua resposta, combinado com o grau de factualidade de cada factoide.

A métrica que utilizaram (F1@K) estima o número "ideal" de factos preferido pelos humanos numa resposta. Os testes de referência utilizaram 64 como mediana para K e 178 como máximo.

Simplificando, F1@K é uma medida de "A resposta deu-me tantos factos como eu queria?" combinada com "Quantos desses factos eram verdadeiros?

Qual é o LLM mais factual?

Os investigadores utilizaram o LongFact para solicitar 13 LLMs das famílias Gemini, GPT, Claude e PaLM-2. Em seguida, utilizaram o SAFE para avaliar a factualidade das suas respostas.

O GPT-4-Turbo está no topo da lista como o modelo mais factual ao gerar respostas longas. Foi seguido de perto pelo Gemini-Ultra e pelo PaLM-2-L-IT-RLHF. Os resultados mostraram que os LLM maiores são mais factuais do que os mais pequenos.

O cálculo de F1@K provavelmente entusiasmaria os cientistas de dados, mas, por uma questão de simplicidade, estes resultados de referência mostram o grau de factualidade de cada modelo ao devolver respostas de comprimento médio e mais longas às perguntas.

Desempenho de factualidade de 13 LLMs com K = 64 (o número médio de factos entre todas as respostas do modelo) e K = 178 (o número máximo de factos entre todas as respostas do modelo). Fonte: arXiv

O SAFE é uma forma barata e eficaz de quantificar a factualidade do LLM. É mais rápido e mais barato do que os humanos na verificação de factos, mas continua a depender da veracidade das informações que o Google apresenta nos resultados da pesquisa.

A DeepMind lançou o SAFE para utilização pública e sugeriu que poderia ajudar a melhorar a factualidade das LLM através de uma melhor pré-treino e afinação. Também poderia permitir que um LLM verificasse os seus factos antes de apresentar o resultado a um utilizador.

A OpenAI ficará satisfeita por ver que a investigação da Google mostra que o GPT-4 bate o Gemini em mais um teste de referência.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições