En ny studie som publicerats i Nature visar att AI-modeller, inklusive stora språkmodeller (LLM), snabbt försämras i kvalitet när de tränas på data som genererats av tidigare AI-modeller.
Detta fenomen, som kallas "modellkollaps", kan försämra kvaliteten på framtida AI-modeller, särskilt när mer AI-genererat innehåll släpps ut på internet och därför återvinns och återanvänds i modellutbildningsdata.
För att undersöka detta fenomen har forskare från University of Cambridge, University of Oxford och andra institutioner genomförda experiment som visar att när AI-modeller upprepade gånger tränas på data som producerats av tidigare versioner av dem själva, börjar de generera meningslösa resultat.
Detta observerades i olika typer av AI-modeller, inklusive språkmodeller, variationsautoenkoder och gaussiska blandningsmodeller.
I ett viktigt experiment med språkmodeller finjusterade teamet OPT-125m-modellen på WikiText-2-datasetet och använde den sedan för att generera ny text.
Den AI-genererade texten användes sedan för att träna nästa "generation" av modellen, och processen upprepades gång på gång.
Det dröjde inte länge innan modellerna började producera alltmer osannolika och meningslösa texter.
I den nionde generationen genererade modellen fullständig rappakalja, som att lista flera icke-existerande typer av "jackrabbits" när man frågade om engelska kyrktorn.
Forskarna observerade också hur modellerna förlorar information om "sällsynta" eller ovanliga händelser innan de helt kollapsar.
Detta är alarmerande, eftersom sällsynta händelser ofta rör marginaliserade grupper eller avvikare. Utan dem riskerar modellerna att koncentrera sina svar till ett smalt spektrum av idéer och övertygelser, vilket förstärker fördomar.
AI-företagen är medvetna om detta, och därför sluter de avtal med nyhetsföretag och utgivare för att säkra ett stadigt flöde av högkvalitativ, mänskligt skriven, aktuell och relevant information.
"Budskapet är att vi måste vara mycket försiktiga med vad som hamnar i våra utbildningsdata", säger han. studie medförfattare Zakhar Shumaylov från University of Cambridge berättade för Nature. "Annars kommer saker och ting alltid, bevisligen, att gå fel."
För att förstärka denna effekt har en ny studie av Dr. Richard Fletcher, forskningschef vid Reuters Institute for the Study of Journalism, fann att nästan hälften (48%) av de mest populära nyhetssajterna i världen nu är otillgängliga för OpenAI:s sökrobotar, medan Googles AI-sökrobotar blockeras av 24% av sajterna.
Som ett resultat har AI-modeller tillgång till en mindre pool av högkvalitativ, ny data än tidigare, vilket ökar risken för att träna på undermålig eller föråldrad data.
Lösningar på modellkollaps
När det gäller lösningar konstaterar forskarna att det är avgörande för AI:s framtid att upprätthålla tillgången till originaldatakällor som genererats av människor.
Spårning och hantering av AI-genererat innehåll skulle också vara till hjälp för att förhindra att det av misstag förorenar utbildningsdataset. Det skulle vara mycket knepigt, eftersom AI-genererat innehåll blir omöjligt att upptäcka.
Forskarna föreslår fyra huvudsakliga lösningar:
- Vattenmärkning av AI-genererat innehåll för att skilja det från data som skapats av människor
- Skapa incitament för människor att fortsätta producera innehåll av hög kvalitet
- Utveckla mer sofistikerade filtrerings- och kurateringsmetoder för utbildningsdata
- Utforska olika sätt att bevara och prioritera tillgången till originalinformation som inte genererats av AI
Modellkollaps är ett verkligt problem
Denna studie är långt ifrån den enda som undersöker modellkollaps.
För inte så länge sedan gjorde Stanfordforskare jämförde två scenarier där modellkollaps kan inträffa: en där varje ny modelliterations träningsdata helt ersatte tidigare data och en annan där syntetiska data läggs till i den befintliga datauppsättningen.
När data byttes ut försämrades modellens prestanda snabbt för alla testade arkitekturer.
Men när data tilläts "ackumuleras" kunde modellkollaps i stort sett undvikas. AI-systemen bibehöll sina prestanda och i vissa fall förbättrades de till och med.
Så trots trovärdiga farhågor är modellkollaps inte en självklarhet - det beror på hur mycket AI-genererad data som finns i uppsättningen och förhållandet mellan syntetisk och autentisk data.
Om och när modellkollaps börjar bli uppenbart i frontier-modeller kan du vara säker på att AI-företagen kommer att försöka hitta en långsiktig lösning.
Vi är inte där än, men det kan vara en fråga om när, inte om.