En ny undersøgelse offentliggjort i Nature afslører, at AI-modeller, herunder store sprogmodeller (LLM'er), hurtigt forringes i kvalitet, når de trænes på data, der er genereret af tidligere AI-modeller.
Dette fænomen, som kaldes "modelkollaps", kan forringe kvaliteten af fremtidige AI-modeller, især når mere AI-genereret indhold frigives på internettet og derfor genbruges og genanvendes i modeltræningsdata.
Forskere fra University of Cambridge, University of Oxford og andre institutioner undersøgte dette fænomen. udførte eksperimenter der viser, at når AI-modeller gentagne gange trænes på data, der er produceret af tidligere versioner af dem selv, begynder de at generere meningsløse resultater.
Dette blev observeret på tværs af forskellige typer AI-modeller, herunder sprogmodeller, variationelle autokodere og gaussiske blandingsmodeller.
I et vigtigt eksperiment med sprogmodeller finjusterede teamet OPT-125m-modellen på WikiText-2-datasættet og brugte den derefter til at generere ny tekst.
Denne AI-genererede tekst blev derefter brugt til at træne den næste "generation" af modellen, og processen blev gentaget igen og igen.
Det varede ikke længe, før modellerne begyndte at producere stadig mere usandsynlige og meningsløse tekster.
I niende generation genererede modellen komplet volapyk, som f.eks. at nævne flere ikke-eksisterende typer af "jackrabbits", når den blev spurgt om engelske kirketårne.
Forskerne observerede også, hvordan modeller mister information om "sjældne" eller sjældne begivenheder, før de kollapser helt.
Dette er alarmerende, da sjældne begivenheder ofte vedrører marginaliserede grupper eller afvigere. Uden dem risikerer modeller at koncentrere deres svar på tværs af et snævert spektrum af ideer og overbevisninger og dermed forstærke fordomme.
AI-virksomheder er klar over dette, og derfor indgår de aftaler med nyhedsfirmaer og udgivere for at sikre en jævn strøm af menneskeskrevet, relevant information af høj kvalitet.
"Budskabet er, at vi skal være meget forsigtige med, hvad der ender i vores træningsdata". undersøgelse medforfatter Zakhar Shumaylov fra University of Cambridge fortalte naturen. "Ellers vil det beviseligt altid gå galt."
Denne effekt forstærkes af en nylig undersøgelse af Dr. Richard Fletcher, forskningsdirektør ved Reuters Institute for the Study of Journalism, viste, at næsten halvdelen (48%) af de mest populære nyhedssider på verdensplan nu er utilgængelige for OpenAI's crawlere, mens Googles AI-crawlere er blokeret af 24% af siderne.
Som følge heraf har AI-modeller adgang til en mindre pulje af nyere data af høj kvalitet, end de havde engang, hvilket øger risikoen for at træne på dårlige eller forældede data.
Løsninger til modelkollaps
Med hensyn til løsninger siger forskerne, at det er afgørende for AI's fremtid at bevare adgangen til originale, menneskeskabte datakilder.
Sporing og styring af AI-genereret indhold ville også være nyttigt for at forhindre, at det ved et uheld forurener træningsdatasæt. Det ville være meget vanskeligt, da AI-genereret indhold er ved at blive umuligt at opdage.
Forskerne peger på fire hovedløsninger:
- Vandmærkning af AI-genereret indhold for at skelne det fra menneskeskabte data
- Skabe incitamenter for mennesker til at fortsætte med at producere indhold af høj kvalitet
- Udvikling af mere sofistikerede filtrerings- og kurateringsmetoder til træningsdata
- Udforskning af måder at bevare og prioritere adgang til original, ikke-AI-genereret information på
Modelkollaps er et reelt problem
Denne undersøgelse er langt fra den eneste, der udforsker modelkollaps.
Det er ikke længe siden, at Stanford-forskere sammenlignede to scenarier hvor modelkollaps kan forekomme: en, hvor hver ny modeliterations træningsdata fuldt ud erstatter de tidligere data, og en anden, hvor der tilføjes syntetiske data til det eksisterende datasæt.
Når data blev udskiftet, blev modellens ydeevne hurtigt forringet på tværs af alle testede arkitekturer.
Men når data fik lov til at "akkumulere", blev modelkollaps stort set undgået. AI-systemerne bevarede deres ydeevne og viste i nogle tilfælde forbedringer.
Så på trods af troværdige bekymringer er modelkollaps ikke en given konklusion - det afhænger af, hvor meget AI-genereret data der er i sættet, og forholdet mellem syntetiske og autentiske data.
Hvis og når modelkollaps begynder at blive tydeligt i frontier-modeller, kan du være sikker på, at AI-virksomhederne vil skynde sig at finde en langsigtet løsning.
Vi er der ikke endnu, men det er måske et spørgsmål om hvornår, ikke om.