Le test Gecko de Google identifie le meilleur générateur d'images par IA

30 avril 2024

  • DeepMind, de Google, a développé Gecko, un benchmark complet pour évaluer les modèles de conversion texte-image (T2I)
  • Gecko catégorise les messages-guides en compétences et sous-compétences spécifiques pour une évaluation fine du modèle T2I.
  • Gecko introduit une nouvelle métrique d'auto-évaluation basée sur l'assurance qualité qui est en corrélation plus efficace avec les évaluations humaines.

Google's DeepMind a publié Gecko, une nouvelle référence pour l'évaluation complète des modèles de conversion texte-image (T2I) de l'IA.

Au cours des deux dernières années, nous avons vu des générateurs d'images d'IA tels que DALL-E et Voyage à mi-parcours s'améliorent progressivement au fil des versions.

Toutefois, le choix du meilleur modèle sous-jacent utilisé par ces plateformes est largement subjectif et difficile à évaluer.

Il n'est pas si simple d'affirmer qu'un modèle est "meilleur" qu'un autre. Différents modèles excellent dans divers aspects de la génération d'images. L'un d'entre eux peut être bon pour le rendu de texte, tandis qu'un autre peut être meilleur pour l'interaction avec les objets.

L'un des principaux défis auxquels sont confrontés les modèles T2I est de suivre chaque détail de l'invite et de le refléter avec précision dans l'image générée.

Avec Gecko, le DeepMind Les chercheurs ont créé un repère qui évalue les capacités des modèles T2I comme le font les humains.

Compétences

Les chercheurs ont d'abord défini un ensemble complet de compétences pertinentes pour la génération de T2I. Il s'agit notamment de la compréhension spatiale, de la reconnaissance d'actions et de la restitution de textes. Ils ont ensuite décomposé ces compétences en sous-compétences plus spécifiques.

Par exemple, dans le cadre du rendu de texte, les sous-compétences peuvent inclure le rendu de différentes polices, couleurs ou tailles de texte.

Un LLM a ensuite été utilisé pour générer des invites afin de tester la capacité du modèle T2I sur une compétence ou une sous-compétence spécifique.

Cela permet aux créateurs d'un modèle T2I d'identifier non seulement les compétences qui posent problème, mais aussi le niveau de complexité auquel une compétence devient problématique pour leur modèle.

Le cadre de référence Gecko utilise un ensemble de données de compétences et de sous-compétences (a), une notation Likert humaine de la précision des images (b), des requêtes générées par LLM pour l'analyse VQA, et des résultats dans des métriques complètes qui sont en corrélation avec les évaluations humaines. Source : arXiv

Évaluer l'humain par rapport à l'auto

Gecko mesure également la précision avec laquelle un modèle T2I suit tous les détails d'une invite. Là encore, un LLM a été utilisé pour isoler les détails clés de chaque message d'entrée, puis pour générer un ensemble de questions liées à ces détails.

Il peut s'agir de questions simples et directes sur les éléments visibles de l'image (par exemple, "Y a-t-il un chat sur l'image ?") ou de questions plus complexes qui testent la compréhension de la scène ou les relations entre les objets (par exemple, "Le chat est-il assis au-dessus du livre ?").

Un modèle de réponse aux questions visuelles (VQA) analyse ensuite l'image générée et répond aux questions pour voir avec quelle précision le modèle T2I aligne son image de sortie sur une invite d'entrée.

Les chercheurs ont recueilli plus de 100 000 annotations humaines dans lesquelles les participants notaient une image générée en fonction du degré d'alignement de l'image sur des critères spécifiques.

Les humains ont été invités à prendre en compte un aspect spécifique de l'invite et à noter l'image sur une échelle de 1 à 5 en fonction de son adéquation avec l'invite.

En utilisant les évaluations annotées par des humains comme étalon-or, les chercheurs ont pu confirmer que leur métrique d'évaluation automatique "est mieux corrélée avec les évaluations humaines que les métriques existantes pour notre nouvel ensemble de données".

Le résultat est un système d'étalonnage capable de chiffrer les facteurs spécifiques qui font qu'une image générée est bonne ou non.

Gecko évalue essentiellement l'image de sortie d'une manière qui correspond étroitement à la façon dont nous décidons intuitivement si nous sommes satisfaits ou non de l'image générée.

Quel est donc le meilleur modèle de conversion du texte en image ?

En leur documentLes chercheurs ont conclu que le modèle Muse de Google surpasse Stable Diffusion 1.5 et SDXL sur le benchmark Gecko. Ils sont peut-être partiaux, mais les chiffres ne mentent pas.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Eugène van der Watt

Eugene a une formation d'ingénieur en électronique et adore tout ce qui touche à la technologie. Lorsqu'il fait une pause dans sa consommation d'informations sur l'IA, vous le trouverez à la table de snooker.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation