AI-modeller står overfor kollaps når de trenes på AI-genererte data, viser en studie

28. juli 2024

  • Forskerne undersøkte "modellkollaps" på tvers av flere modelltyper
  • Særlig språkmodellene hadde en tendens til å forvitre i kvalitet og effektivitet
  • Hvis modellene trenes opp på for mye AI-genererte data, risikerer de å få problemer på sikt
AI-modeller

En ny studie publisert i Nature viser at AI-modeller, inkludert store språkmodeller (LLM), raskt blir dårligere når de trenes opp på data generert av tidligere AI-modeller. 

Dette fenomenet, som kalles "modellkollaps", kan svekke kvaliteten på fremtidige AI-modeller, særlig etter hvert som mer AI-generert innhold legges ut på internett og dermed resirkuleres og gjenbrukes i modellopplæringsdata. 

Forskere fra University of Cambridge, University of Oxford og andre institusjoner har undersøkt dette fenomenet. gjennomførte eksperimenter som viser at når AI-modeller trenes gjentatte ganger på data som er produsert av tidligere versjoner av dem selv, begynner de å generere meningsløse resultater. 

Dette ble observert på tvers av ulike typer AI-modeller, inkludert språkmodeller, variasjonsautokodere og gaussiske blandingsmodeller.

I et viktig eksperiment med språkmodeller finjusterte teamet OPT-125m-modellen på WikiText-2-datasettet, og brukte den deretter til å generere ny tekst.

Denne AI-genererte teksten ble deretter brukt til å trene opp neste "generasjon" av modellen, og prosessen ble gjentatt om og om igjen. 

Det tok ikke lang tid før modellene begynte å produsere stadig mer usannsynlige og meningsløse tekster. 

I niende generasjon genererte modellen fullstendig volapyk, som for eksempel å liste opp flere ikke-eksisterende typer "jackrabbits" når den ble spurt om engelske kirketårn.

Forskerne observerte også hvordan modellene mister informasjon om "sjeldne" eller sjeldne hendelser før de kollapser fullstendig. 

Dette er alarmerende, ettersom sjeldne hendelser ofte er knyttet til marginaliserte grupper eller ekstremtilfeller. Uten dem risikerer modellene å konsentrere svarene sine om et smalt spekter av ideer og oppfatninger, og dermed forsterke skjevheter.

AI-selskapene er klar over dette, og derfor inngår de avtaler med nyhetsselskaper og utgivere for å sikre en jevn strøm av høykvalitets, menneskeskrevet, aktuell og relevant informasjon. 

"Budskapet er at vi må være svært forsiktige med hva som havner i treningsdataene våre", sier han. studie medforfatter Zakhar Shumaylov fra University of Cambridge fortalte naturen. "Ellers vil ting beviselig alltid gå galt."

For å forsterke denne effekten har en nylig studie av Dr. Richard Fletcher, forskningsdirektør ved Reuters Institute for the Study of Journalism, fant at nesten halvparten (48%) av de mest populære nyhetsnettstedene over hele verden nå er utilgjengelige for OpenAIs crawlere, mens Googles AI-crawlere er blokkert av 24% av nettstedene.

Som et resultat av dette har AI-modeller tilgang til et mindre utvalg av nyere data av høy kvalitet enn tidligere, noe som øker risikoen for å trene på data som ikke holder mål eller er utdaterte. 

Løsninger på modellkollaps

Når det gjelder løsninger, mener forskerne at det er avgjørende for AIs fremtid å opprettholde tilgangen til originale, menneskeskapte datakilder. 

Sporing og håndtering av AI-generert innhold vil også være nyttig for å forhindre at det ved et uhell forurenser opplæringsdatasettene. Det ville være svært vanskelig, ettersom AI-generert innhold er i ferd med å bli umulig å oppdage. 

Forskerne foreslår fire hovedløsninger:

  • Vannmerking av AI-generert innhold for å skille det fra menneskeskapte data
  • Skape insentiver for mennesker til å fortsette å produsere innhold av høy kvalitet
  • Utvikle mer sofistikerte filtrerings- og kurateringsmetoder for opplæringsdata
  • Utforske måter å bevare og prioritere tilgang til original, ikke-AI-generert informasjon på

Modellkollaps er et reelt problem

Denne studien er langt fra den eneste som utforsker modellkollaps. 

Det er ikke lenge siden Stanford-forskere sammenlignet to scenarier der modellkollaps kan forekomme: én der hver nye modelliterasjons opplæringsdata erstatter de tidligere dataene fullt ut, og en annen der syntetiske data legges til det eksisterende datasettet.

Når data ble byttet ut, ble modellens ytelse raskt dårligere på tvers av alle testede arkitekturer. 

Men når dataene fikk lov til å "akkumuleres", ble modellkollaps i stor grad unngått. AI-systemene opprettholdt ytelsen og viste i noen tilfeller forbedringer.

Så til tross for troverdige bekymringer er det ikke gitt at modellen kollapser - det avhenger av hvor mye AI-genererte data som finnes i settet, og forholdet mellom syntetiske og autentiske data. 

Hvis og når modellkollapsen begynner å bli tydelig i frontier-modeller, kan du være sikker på at AI-selskapene kommer til å se seg om etter en langsiktig løsning. 

Vi er ikke der ennå, men det kan være et spørsmål om når, ikke om.

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Sam Jeans

Sam er en vitenskaps- og teknologiskribent som har jobbet i ulike oppstartsbedrifter innen kunstig intelligens. Når han ikke skriver, leser han medisinske tidsskrifter eller graver seg gjennom esker med vinylplater.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser