La prueba Gecko de Google identifica el mejor generador de imágenes por IA

30 de abril de 2024

  • DeepMind, de Google, ha desarrollado Gecko, un completo punto de referencia para evaluar los modelos de conversión de texto en imagen (T2I)
  • Gecko clasifica las preguntas en habilidades y subhabilidades específicas para una evaluación detallada del modelo T2I.
  • Gecko introduce una nueva métrica de autoevaluación basada en el control de calidad que se correlaciona mejor con las valoraciones humanas.

Google DeepMind ha presentado Gecko, una nueva referencia para evaluar de forma exhaustiva los modelos de conversión de texto en imagen (T2I).

En los últimos dos años, hemos visto generadores de imágenes de IA como DALL-E y A mitad de camino mejoran progresivamente con cada versión.

Sin embargo, decidir cuál de los modelos subyacentes que utilizan estas plataformas es el mejor ha sido en gran medida subjetivo y difícil de evaluar comparativamente.

Afirmar a grandes rasgos que un modelo es "mejor" que otro no es tan sencillo. Cada modelo destaca en distintos aspectos de la generación de imágenes. Uno puede ser bueno en la representación de texto, mientras que otro puede ser mejor en la interacción con objetos.

Un reto clave al que se enfrentan los modelos T2I es seguir cada detalle de la indicación y que éstos se reflejen con precisión en la imagen generada.

Con Gecko, el DeepMind investigadores han creado un referencia que evalúa las capacidades de los modelos T2I de forma similar a como lo hacen los humanos.

Competencias

En primer lugar, los investigadores definieron un amplio conjunto de habilidades relevantes para la generación de T2I. Entre ellas se incluyen la comprensión espacial, el reconocimiento de acciones, la representación de textos y otras. A continuación, las dividieron en subhabilidades más específicas.

Por ejemplo, en representación de texto, las subhabilidades podrían incluir la representación de diferentes fuentes, colores o tamaños de texto.

A continuación, se utilizó un LLM para generar indicaciones que pusieran a prueba la capacidad del modelo T2I en una habilidad o subhabilidad específica.

Esto permite a los creadores de un modelo T2I determinar no sólo qué destrezas suponen un reto, sino a qué nivel de complejidad una destreza se convierte en un reto para su modelo.

El marco de referencia Gecko utiliza un conjunto de datos de habilidades y subhabilidades (a), una puntuación Likert humana de la precisión de las imágenes (b), consultas generadas por LLM para el análisis VQA, y da como resultado métricas exhaustivas que se correlacionan con las evaluaciones humanas. Fuente: arXiv

Humano vs Autoevaluación

Gecko también mide la precisión con la que un modelo T2I sigue todos los detalles de una pregunta. Una vez más, se utilizó un LLM para aislar los detalles clave de cada pregunta y generar un conjunto de preguntas relacionadas con esos detalles.

Estas preguntas pueden ser tanto sencillas y directas sobre elementos visibles en la imagen (por ejemplo, "¿Hay un gato en la imagen?") como más complejas, que ponen a prueba la comprensión de la escena o las relaciones entre objetos (por ejemplo, "¿Está el gato sentado encima del libro?").

A continuación, un modelo de respuesta a preguntas visuales (VQA) analiza la imagen generada y responde a las preguntas para comprobar la precisión con la que el modelo T2I alinea su imagen de salida con una pregunta de entrada.

Los investigadores recopilaron más de 100.000 anotaciones humanas en las que los participantes puntuaban una imagen generada en función de lo alineada que estuviera con criterios específicos.

Se pedía a los humanos que tuvieran en cuenta un aspecto concreto de la pregunta y puntuaran la imagen en una escala de 1 a 5 en función de su adecuación a la pregunta.

Utilizando las evaluaciones anotadas por humanos como patrón oro, los investigadores pudieron confirmar que su métrica de autoevaluación "se correlaciona mejor con las valoraciones humanas que las métricas existentes para nuestro nuevo conjunto de datos".

El resultado es un sistema de evaluación comparativa capaz de poner cifras a los factores específicos que hacen que una imagen generada sea buena o no.

Esencialmente, Gecko puntúa la imagen de salida de un modo que se ajusta a cómo decidimos intuitivamente si estamos satisfechos o no con la imagen generada.

¿Cuál es el mejor modelo de conversión de texto en imagen?

En su papellos investigadores concluyeron que el modelo Muse de Google supera a Stable Diffusion 1.5 y SDXL en la prueba Gecko. Puede que sean parciales, pero los números no mienten.

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Eugene van der Watt

Eugene es ingeniero electrónico y le encanta todo lo relacionado con la tecnología. Cuando descansa de consumir noticias sobre IA, lo encontrará jugando al billar.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales