För att träna en AI-bildklassificerare eller ett datorvisionssystem krävs tillgång till ett stort antal bilder. Forskare på MIT har hittat ett sätt att minska vårt beroende av verkliga data för bildklassificering.
När du laddar upp en bild av en katt och ber ChatGPT att förklara vad bilden föreställer kan den göra det eftersom den har tränats på tusentals bilder av katter som har textetiketter kopplade till sig.
Dessa träningsbilder måste komma någonstans ifrån. En av de dataset som användes för att träna Stabil diffusionsom kallas LAION-5B, är en samling av miljarder bilder som skrapats från internet och parats ihop med textbeskrivningar.
Men vad gör vi när vi behöver mer data för att träna en modell men har uttömt den uppsättning riktiga bilder vi har?
Ett team av MIT-forskare tog sig an utmaningen med databrist genom att skapa ett eget syntetiskt dataset.
Deras tillvägagångssätt, kallas StableRepanvänder en strategi som kallas "multi-positive contrastive learning". Det låter komplicerat, men konceptet är faktiskt ganska enkelt.
De uppmanar bildgeneratorn Stable Diffusion med en textbeskrivning och låter den sedan generera flera bilder. Förutsatt att Stable Diffusion gjorde ett bra jobb har de nu en samling bilder som matchar den ursprungliga prompten.
StableRep behandlar dessa bilder som positiva motsvarigheter till varandra och lär sig högnivåkoncept bakom varför dessa bilder är bra semantiska matchningar för den ursprungliga frågan.
Teamet tränade sin bildklassificeringsmodell på de AI-genererade bilderna och gav den en liten prestandaförbättring med språkövervakning för att slutligen komma fram till StableRep+.
Hur skulle StableRep+ klara sig vid bildklassificering med tanke på att den bara någonsin "såg" AI-genererade bilder?
När StableRep+ tränades med 20 miljoner syntetiska bilder var det mer exakt och effektivt än CLIP-modeller som tränats med 50 miljoner riktiga bilder. Forskarna arbetar fortfarande med att förstå orsaken bakom den överlägsna prestandan.
Det finns fortfarande några problem, men att använda syntetiska träningsdata på det här sättet löser en hel del problem med datainsamling som kostnader, upphovsrätt och integritetsproblem i samband med riktiga bilder.
Utmaningarna med detta tillvägagångssätt är bland annat beräkningskostnaden och tiden det tar att generera miljontals bilder för datasetet. Och StableRep är fortfarande beroende av att använda en bildgenerator som ursprungligen utbildades på riktiga bilder för att sedan producera syntetiska data.
Eventuell partiskhet i textmeddelandet eller datamärkningen i det verkliga bilddatasetet överförs också till den nya modellen som tränats på syntetiska data.
Trots utmaningarna är de resultat som StableRep uppnår lovande. Den ökade mångfalden som syntetiska data kan ge kan minska datavetarnas beroende av dyra och begränsade verkliga data när de tränar nya modeller.