DeepMind desarrolla SAFE, un agente de IA para comprobar los hechos de los LLM

2 de abril de 2024

  • Investigadores de DeepMind desarrollan el Search-Augmented Factuality Evaluator (SAFE) para comprobar los hechos de los LLMs
  • SAFE desglosa las respuestas largas del LLM en hechos individuales y luego busca en Google para verificarlos
  • SAFE puede utilizarse para evaluar la facticidad de los LLM a largo plazo

Investigadores de DeepMind y la Universidad de Stanford desarrollaron un agente de IA que comprueba los LLM y permite evaluar la factualidad de los modelos de IA.

Incluso los mejores modelos de IA tienden a alucinar a veces. Si le pides a ChatGPT que te dé los hechos sobre un tema, cuanto más larga sea su respuesta más probable es que incluya algunos hechos que no son ciertos.

¿Qué modelos son más precisos que otros a la hora de generar respuestas largas? Es difícil saberlo, porque hasta ahora no disponíamos de un punto de referencia para medir la veracidad de las respuestas largas de los LLM.

DeepMind utilizó en primer lugar la GPT-4 para crear LongFact, un conjunto de 2.280 preguntas relacionadas con 38 temas. Estas preguntas obtienen respuestas largas del LLM que se está evaluando.

A continuación, crearon un agente de IA con GPT-3.5-turbo para que utilizara Google para verificar la veracidad de las respuestas generadas por el LLM. Llamaron a este método Search-Augmented Factuality Evaluator (SAFE).

SAFE descompone primero la respuesta larga del LLM en hechos individuales. A continuación, envía solicitudes de búsqueda a Google Search y razona sobre la veracidad del hecho basándose en la información de los resultados de búsqueda devueltos.

He aquí un ejemplo de la trabajo de investigación.

Una pregunta de búsqueda de datos suscita una respuesta extensa. La respuesta se divide en hechos individuales, se revisa para que sea autónoma, se comprueba su relevancia y se verifica mediante Google Search. Fuente: arXiv

Los investigadores afirman que SAFE consigue un "rendimiento sobrehumano" en comparación con los anotadores humanos que realizan la comprobación.

SAFE coincidió con el 72% de las anotaciones humanas y, en los casos en que discrepó de los humanos, acertó el 76% de las veces. Además, resultaba 20 veces más barato que los anotadores humanos. Así pues, los LLM son mejores y más baratos verificadores de hechos que los humanos.

La calidad de la respuesta de los LLM evaluados se midió en función del número de factoides en su respuesta combinada con el grado de veracidad de los factoides individuales.

La métrica que utilizaron (F1@K) calcula el número "ideal" de hechos que prefiere el ser humano en una respuesta. Las pruebas de referencia utilizaron 64 como mediana para K y 178 como máximo.

En pocas palabras, F1@K es una medida de "¿Me dio la respuesta tantos datos como quería?" combinada con "¿Cuántos de esos datos eran ciertos?".

¿Qué LLM es más factual?

Los investigadores utilizaron LongFact para preguntar a 13 LLM de las familias Gemini, GPT, Claude y PaLM-2. A continuación, utilizaron SAFE para evaluar la veracidad de sus respuestas.

GPT-4-Turbo encabeza la lista como modelo más factual a la hora de generar respuestas largas. Le siguen de cerca Gemini-Ultra y PaLM-2-L-IT-RLHF. Los resultados mostraron que los LLM más grandes son más factuales que los más pequeños.

El cálculo de F1@K probablemente entusiasmaría a los científicos de datos, pero, en aras de la simplicidad, estos resultados de referencia muestran lo factual que es cada modelo cuando devuelve respuestas de longitud media y más largas a las preguntas.

Resultados de facticidad a largo plazo de 13 LLM con K = 64 (el número medio de hechos entre todas las respuestas del modelo) y K = 178 (el número máximo de hechos entre todas las respuestas del modelo). Fuente: arXiv

SAFE es una forma barata y eficaz de cuantificar la veracidad de los hechos a largo plazo. Es más rápido y barato que la comprobación de hechos por humanos, pero sigue dependiendo de la veracidad de la información que Google devuelve en los resultados de búsqueda.

DeepMind lanzó SAFE para uso público y sugirió que podría ayudar a mejorar la factualidad de los LLM mediante un mejor preentrenamiento y ajuste. También podría permitir a un LLM comprobar sus hechos antes de presentar el resultado a un usuario.

OpenAI se alegrará de ver que un estudio de Google muestra que GPT-4 supera a Gemini en otra prueba comparativa.

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Eugene van der Watt

Eugene es ingeniero electrónico y le encanta todo lo relacionado con la tecnología. Cuando descansa de consumir noticias sobre IA, lo encontrará jugando al billar.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales