Onderzoekers gebruiken synthetische gegevens om AI-beeldclassificatie te trainen

27 november 2023

Voor het trainen van een AI-beeldclassificator of computervisiesysteem is toegang tot een grote dataset met afbeeldingen nodig. MIT-onderzoekers hebben een manier gevonden om onze afhankelijkheid van echte gegevens voor beeldclassificatie te verminderen.

Als je een afbeelding van een kat uploadt en ChatGPT vraagt om uit te leggen wat de afbeelding is, kan het dat doen omdat het getraind is op duizenden afbeeldingen van katten waar tekstlabels aan gekoppeld waren.

Die trainingsafbeeldingen moesten ergens vandaan komen. Een van de datasets die werd gebruikt om Stabiele verspreidingLAION-5B is een verzameling van miljarden afbeeldingen die van het internet zijn geschraapt en zijn gekoppeld aan tekstbeschrijvingen.

Maar wat doen we als we meer gegevens nodig hebben om een model te trainen, maar de verzameling echte afbeeldingen die we hebben is uitgeput?

Een team van MIT-onderzoekers pakte dit probleem van gegevensschaarste aan door hun eigen synthetische dataset te maken.

Hun aanpak, genaamd StableRepgebruikt een strategie die "multi-positief contrastief leren" heet. Het klinkt ingewikkeld, maar het concept is eigenlijk heel eenvoudig.

Ze vragen de Stable Diffusion-afbeeldingsgenerator om een tekstbeschrijving en laten hem dan meerdere afbeeldingen genereren. Ervan uitgaande dat Stable Diffusion zijn werk goed heeft gedaan, hebben ze nu een verzameling afbeeldingen die overeenkomen met de initiële vraag.

StableRep behandelt deze afbeeldingen als positief van elkaar en leert concepten op hoog niveau waarom deze afbeeldingen goede semantische matches zijn voor de initiële prompt.

Het team trainde hun beeldclassificatiemodel op de door AI gegenereerde foto's en gaf het een kleine prestatieboost met taalsupervisie om uiteindelijk te komen tot StableRep+.

Hoe zou StableRep+ het doen op het gebied van beeldclassificatie, aangezien het alleen AI-gegenereerde afbeeldingen 'zag'?

Bij training met 20 miljoen synthetische afbeeldingen was StableRep+ nauwkeuriger en efficiënter dan CLIP-modellen die met 50 miljoen echte afbeeldingen waren getraind. De onderzoekers proberen nog steeds de reden achter de superieure prestaties te begrijpen.

Er zijn nog steeds een paar problemen, maar het gebruik van synthetische trainingsgegevens zoals deze lost veel op. problemen met gegevensverzameling zoals kosten, auteursrecht en privacyproblemen in verband met echte afbeeldingen.

De uitdagingen van deze aanpak zijn onder andere de rekenkosten en de tijd om miljoenen afbeeldingen voor de dataset te genereren. En StableRep vertrouwt nog steeds op het gebruik van een beeldgenerator die oorspronkelijk is getraind op echte beelden om vervolgens de synthetische gegevens te produceren.

Elke vooringenomenheid in de tekstaanwijzingen of gegevenslabeling in de echte afbeeldingsdataset wordt ook overgedragen op het nieuwe model dat is getraind op synthetische gegevens.

Ondanks de uitdagingen zijn de resultaten die StableRep boekt veelbelovend. De toename in diversiteit die synthetische data kunnen opleveren, zouden datawetenschappers minder afhankelijk kunnen maken van dure en beperkte echte data bij het trainen van nieuwe modellen.

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Eugene van der Watt

Eugene heeft een achtergrond in elektrotechniek en houdt van alles wat met techniek te maken heeft. Als hij even pauzeert van het consumeren van AI-nieuws, kun je hem aan de snookertafel vinden.

×

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden