Opplæring av en AI-bildeklassifiserer eller et datasynssystem krever tilgang til et stort datasett med bilder. MIT-forskere har funnet en måte å redusere avhengigheten av reelle data for bildeklassifisering.
Når du laster opp et bilde av en katt og ber ChatGPT om å forklare hva bildet er, er den i stand til å gjøre det fordi den er opplært på tusenvis av bilder av katter som har tekstetiketter knyttet til seg.
Disse treningsbildene måtte komme fra et sted. Et av datasettene som ble brukt til å trene Stabil diffusjonLAION-5B, er en samling av milliarder av bilder som er hentet fra internett og koblet sammen med tekstbeskrivelser.
Men hva gjør vi når vi trenger mer data for å trene opp en modell, men har brukt opp settet med ekte bilder vi har?
Et team av MIT-forskere løste utfordringen med datamangel ved å lage sitt eget syntetiske datasett.
Deres tilnærming, kalt StableRepbruker en strategi som kalles "multi-positiv kontrastive læring". Det høres komplisert ut, men konseptet er faktisk ganske enkelt.
De ber Stable Diffusion-bildegeneratoren om en tekstbeskrivelse og lar den deretter generere flere bilder. Hvis vi antar at Stable Diffusion har gjort en god jobb, har de nå en samling bilder som samsvarer med den opprinnelige ledeteksten.
StableRep behandler disse bildene som positive av hverandre og lærer seg konsepter på høyt nivå om hvorfor disse bildene er gode semantiske treff for den opprinnelige ledeteksten.
Teamet trente opp bildeklassifiseringsmodellen sin på de AI-genererte bildene og ga den et lite ytelsesløft med språkovervåking for til slutt å komme frem til StableRep+.
Hvordan ville StableRep+ klare seg når det gjelder bildeklassifisering, siden den bare "så" AI-genererte bilder?
Når StableRep+ ble trent med 20 millioner syntetiske bilder, var den mer nøyaktig og effektiv enn CLIP-modeller som var trent med 50 millioner ekte bilder. Forskerne jobber fortsatt med å forstå årsaken til den overlegne ytelsen.
Det er fortsatt noen problemer, men ved å bruke syntetiske treningsdata som dette løser vi mange av problemer med datainnsamling som kostnader, opphavsrett og personvernproblemer knyttet til ekte bilder.
Utfordringene med denne tilnærmingen er blant annet at det tar tid og penger å generere millioner av bilder til datasettet. Og StableRep er fortsatt avhengig av å bruke en bildegenerator som opprinnelig ble trent opp på ekte bilder, for deretter å produsere syntetiske data.
Eventuelle skjevheter i tekstprompten eller datamerkingen i det virkelige bildedatasettet overføres også til den nye modellen som er trent på syntetiske data.
Til tross for utfordringene er resultatene StableRep oppnår, lovende. Det økte mangfoldet som syntetiske data kan gi, kan redusere dataforskernes avhengighet av dyre og begrensede reelle data når de skal trene opp nye modeller.