Google's Gecko benchmark identificeert beste AI-afbeeldingsgenerator

30 april 2024

  • Google's DeepMind ontwikkelde Gecko, een uitgebreide benchmark om tekst-naar-beeld (T2I) modellen te evalueren.
  • Gecko categoriseert aanwijzingen in specifieke vaardigheden en subvaardigheden voor fijnmazige beoordeling van het T2I-model
  • Gecko introduceert een nieuwe op QA gebaseerde auto-evaluatie die beter correleert met menselijke beoordelingen

Google's DeepMind Gecko uitgebracht, een nieuwe benchmark voor het uitgebreid evalueren van AI tekst-naar-beeld (T2I) modellen.

De afgelopen twee jaar hebben we AI-afbeeldingsgeneratoren gezien zoals DALL-E en Reis halverwege worden met elke nieuwe versie steeds beter.

Het bepalen welke van de onderliggende modellen die deze platforms gebruiken het beste is, is echter grotendeels subjectief en moeilijk te benchmarken.

Het is niet zo eenvoudig om te beweren dat het ene model "beter" is dan het andere. Verschillende modellen blinken uit in verschillende aspecten van het genereren van afbeeldingen. Het ene model kan goed zijn in het renderen van tekst, terwijl het andere beter is in objectinteractie.

Een belangrijke uitdaging voor T2I-modellen is om elk detail in de prompt te volgen en deze nauwkeurig weer te geven in het gegenereerde beeld.

Met Gecko is de DeepMind onderzoekers hebben een benchmark dat de capaciteiten van T2I-modellen evalueert zoals mensen dat doen.

Vaardigheden

De onderzoekers definieerden eerst een uitgebreide dataset van vaardigheden die relevant zijn voor het genereren van T2I. Deze omvatten ruimtelijk inzicht, actieherkenning, tekstweergave en andere. Ze splitsten deze verder op in meer specifieke subvaardigheden.

Onder tekstweergave kunnen bijvoorbeeld subvaardigheden staan voor het renderen van verschillende lettertypes, kleuren of tekstgroottes.

Een LLM werd vervolgens gebruikt om aanwijzingen te genereren om de mogelijkheden van het T2I-model te testen op een specifieke vaardigheid of subvaardigheid.

Hierdoor kunnen de makers van een T2I-model niet alleen bepalen welke vaardigheden een uitdaging vormen, maar ook op welk niveau van complexiteit een vaardigheid een uitdaging wordt voor hun model.

Het Gecko-benchmarkraamwerk gebruikt een dataset van vaardigheden en subvaardigheden (a), menselijke Likert-scores voor beeldnauwkeurigheid (b), LLM-gegenereerde query's voor VQA-analyse en resulteert in uitgebreide statistieken die correleren met menselijke evaluaties. Bron: arXiv

Mens vs auto-eval

Gecko meet ook hoe nauwkeurig een T2I-model alle details in een prompt volgt. Ook hier werd een LLM gebruikt om de belangrijkste details in elke invoeraanwijzing te isoleren en vervolgens een reeks vragen te genereren die betrekking hadden op die details.

Deze vragen kunnen zowel eenvoudige, directe vragen zijn over zichtbare elementen in de afbeelding (bv. "Is er een kat in de afbeelding?") als complexere vragen die het begrip van de scène of de relaties tussen objecten testen (bv. "Zit de kat boven het boek?").

Een Visual Question Answering (VQA) model analyseert vervolgens de gegenereerde afbeelding en beantwoordt de vragen om te zien hoe nauwkeurig het T2I-model zijn uitvoerbeeld afstemt op een invoervraag.

De onderzoekers verzamelden meer dan 100.000 menselijke annotaties waarbij de deelnemers een gegenereerde afbeelding scoorden op basis van hoe goed de afbeelding was uitgelijnd met specifieke criteria.

De mensen werd gevraagd om een specifiek aspect van de invoeropdracht te overwegen en de afbeelding te scoren op een schaal van 1 tot 5 op basis van hoe goed deze overeenkwam met de opdracht.

Met behulp van de menselijke beoordelingen als gouden standaard konden de onderzoekers bevestigen dat hun auto-eval metriek "beter gecorreleerd is met menselijke beoordelingen dan bestaande metrieken voor onze nieuwe dataset."

Het resultaat is een benchmarksysteem dat in staat is om specifieke factoren die een gegenereerde afbeelding goed of slecht maken, te kwantificeren.

Gecko scoort in wezen de uitvoerafbeelding op een manier die nauw aansluit bij hoe we intuïtief beslissen of we al dan niet tevreden zijn met de gegenereerde afbeelding.

Wat is dan het beste tekst-naar-beeld model?

In hun papierconcludeerden de onderzoekers dat Google's Muse-model Stable Diffusion 1.5 en SDXL verslaat met de Gecko-benchmark. Ze zijn misschien bevooroordeeld, maar de cijfers liegen niet.

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Eugene van der Watt

Eugene heeft een achtergrond in elektrotechniek en houdt van alles wat met techniek te maken heeft. Als hij even pauzeert van het consumeren van AI-nieuws, kun je hem aan de snookertafel vinden.

×

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden