Træning af en AI-billedklassifikator eller et computersynssystem kræver adgang til et stort datasæt med billeder. MIT-forskere har fundet en måde at reducere vores afhængighed af rigtige data til billedklassificering.
Når du uploader et billede af en kat og beder ChatGPT om at forklare, hvad billedet er, kan den gøre det, fordi den er trænet på tusindvis af billeder af katte med tilhørende tekstetiketter.
Disse træningsbilleder skulle komme et sted fra. Et af de datasæt, der blev brugt til at træne Stabil diffusionLAION-5B er en samling af milliarder af billeder, der er skrabet fra internettet og parret med tekstbeskrivelser.
Men hvad gør vi, når vi har brug for flere data til at træne en model, men har opbrugt det sæt af rigtige billeder, vi har?
Et team af MIT-forskere tacklede denne udfordring med datamangel ved at skabe deres eget syntetiske datasæt.
Deres tilgang, kaldet StableRepbruger en strategi, der kaldes "multi-positiv kontrastiv læring". Det lyder kompliceret, men konceptet er faktisk ret enkelt.
De beder Stable Diffusion-billedgeneratoren om en tekstbeskrivelse og får den derefter til at generere flere billeder. Hvis vi antager, at Stable Diffusion har gjort et godt stykke arbejde, har de nu en samling billeder, der matcher den oprindelige forespørgsel.
StableRep behandler disse billeder som positiver af hinanden og lærer koncepter på højt niveau om, hvorfor disse billeder er gode semantiske match til den oprindelige prompt.
Teamet trænede deres billedklassificeringsmodel på de AI-genererede billeder og gav den et lille ydelsesløft med sprogovervågning for til sidst at komme frem til StableRep+.
Hvordan ville StableRep+ klare sig i forhold til billedklassifikation, eftersom den kun "så" AI-genererede billeder?
Da StableRep+ blev trænet med 20 millioner syntetiske billeder, var den mere præcis og effektiv end CLIP-modeller, der var trænet med 50 millioner rigtige billeder. Forskerne arbejder stadig på at forstå årsagen til den overlegne præstation.
Der er stadig nogle få problemer, men at bruge syntetiske træningsdata som dette løser mange af dem. problemer med dataindsamling som omkostninger, ophavsret og bekymringer om privatlivets fred i forbindelse med rigtige billeder.
Udfordringerne ved denne tilgang omfatter beregningsomkostninger og tid til at generere millioner af billeder til datasættet. Og StableRep er stadig afhængig af at bruge en billedgenerator, der oprindeligt blev trænet på rigtige billeder for derefter at producere de syntetiske data.
Enhver bias i tekstprompten eller datamærkningen i det virkelige billeddatasæt overføres også til den nye model, der er trænet på syntetiske data.
På trods af udfordringerne er de resultater, StableRep opnår, lovende. Den øgede mangfoldighed, som syntetiske data kan levere, kan reducere dataforskernes afhængighed af dyre og begrænsede rigtige data, når de træner nye modeller.