AI-modeller kollapsar när de tränas på AI-genererad data, visar studie

En ny studie som publicerats i Nature visar att AI-modeller, inklusive stora språkmodeller (LLM), snabbt försämras i kvalitet när de tränas på data som genererats av tidigare AI-modeller.

Detta fenomen, som kallas "modellkollaps", kan försämra kvaliteten på framtida AI-modeller, särskilt när mer AI-genererat innehåll släpps ut på internet och därför återvinns och återanvänds i modellutbildningsdata.

För att undersöka detta fenomen har forskare från University of Cambridge, University of Oxford och andra institutioner genomförda experiment som visar att när AI-modeller upprepade gånger tränas på data som producerats av tidigare versioner av dem själva, börjar de generera meningslösa resultat.

Detta observerades i olika typer av AI-modeller, inklusive språkmodeller, variationsautoenkoder och gaussiska blandningsmodeller.

I ett viktigt experiment med språkmodeller finjusterade teamet OPT-125m-modellen på WikiText-2-datasetet och använde den sedan för att generera ny text.

Den AI-genererade texten användes sedan för att träna nästa "generation" av modellen, och processen upprepades gång på gång.

Det dröjde inte länge innan modellerna började producera alltmer osannolika och meningslösa texter.

I den nionde generationen genererade modellen fullständig rappakalja, som att lista flera icke-existerande typer av "jackrabbits" när man frågade om engelska kyrktorn.

Forskarna observerade också hur modellerna förlorar information om "sällsynta" eller ovanliga händelser innan de helt kollapsar.

Detta är alarmerande, eftersom sällsynta händelser ofta rör marginaliserade grupper eller avvikare. Utan dem riskerar modellerna att koncentrera sina svar till ett smalt spektrum av idéer och övertygelser, vilket förstärker fördomar.

AI-företagen är medvetna om detta, och därför sluter de avtal med nyhetsföretag och utgivare för att säkra ett stadigt flöde av högkvalitativ, mänskligt skriven, aktuell och relevant information.

"Budskapet är att vi måste vara mycket försiktiga med vad som hamnar i våra utbildningsdata", säger han. studie medförfattare Zakhar Shumaylov från University of Cambridge berättade för Nature. "Annars kommer saker och ting alltid, bevisligen, att gå fel."

För att förstärka denna effekt har en ny studie av Dr. Richard Fletcher, forskningschef vid Reuters Institute for the Study of Journalism, fann att nästan hälften (48%) av de mest populära nyhetssajterna i världen nu är otillgängliga för OpenAI:s sökrobotar, medan Googles AI-sökrobotar blockeras av 24% av sajterna.

Som ett resultat har AI-modeller tillgång till en mindre pool av högkvalitativ, ny data än tidigare, vilket ökar risken för att träna på undermålig eller föråldrad data.

Lösningar på modellkollaps

När det gäller lösningar konstaterar forskarna att det är avgörande för AI:s framtid att upprätthålla tillgången till originaldatakällor som genererats av människor.

Spårning och hantering av AI-genererat innehåll skulle också vara till hjälp för att förhindra att det av misstag förorenar utbildningsdataset. Det skulle vara mycket knepigt, eftersom AI-genererat innehåll blir omöjligt att upptäcka.

Forskarna föreslår fyra huvudsakliga lösningar:

Vattenmärkning av AI-genererat innehåll för att skilja det från data som skapats av människor
Skapa incitament för människor att fortsätta producera innehåll av hög kvalitet
Utveckla mer sofistikerade filtrerings- och kurateringsmetoder för utbildningsdata
Utforska olika sätt att bevara och prioritera tillgången till originalinformation som inte genererats av AI

Modellkollaps är ett verkligt problem

Denna studie är långt ifrån den enda som undersöker modellkollaps.

För inte så länge sedan gjorde Stanfordforskare jämförde två scenarier där modellkollaps kan inträffa: en där varje ny modelliterations träningsdata helt ersatte tidigare data och en annan där syntetiska data läggs till i den befintliga datauppsättningen.

När data byttes ut försämrades modellens prestanda snabbt för alla testade arkitekturer.

Men när data tilläts "ackumuleras" kunde modellkollaps i stort sett undvikas. AI-systemen bibehöll sina prestanda och i vissa fall förbättrades de till och med.

Så trots trovärdiga farhågor är modellkollaps inte en självklarhet - det beror på hur mycket AI-genererad data som finns i uppsättningen och förhållandet mellan syntetisk och autentisk data.

Om och när modellkollaps börjar bli uppenbart i frontier-modeller kan du vara säker på att AI-företagen kommer att försöka hitta en långsiktig lösning.

Vi är inte där än, men det kan vara en fråga om när, inte om.

AI-modeller riskerar att kollapsa när de tränas på AI-genererad data, visar studie

Lösningar på modellkollaps

Modellkollaps är ett verkligt problem

Bli en del av framtiden

Sam Jeans

RELATERADE ARTIKLAR

Spelbranschen står inför en medelålderskris - är AI dess framtid?

OpenAI presenterar Realtime API och andra funktioner för utvecklare

Kaliforniens guvernör Gavin Newsom lägger in sitt veto mot SB 1047 Lagförslag om AI-säkerhet

Hur går det för Kina i AI-racet? Teknikjättar och nystartade företag tänjer på gränserna

AI-modeller riskerar att kollapsa när de tränas på AI-genererad data, visar studie

Lösningar på modellkollaps

Modellkollaps är ett verkligt problem

Bli en del av framtiden

Sam Jeans

RELATERADE ARTIKLAR

Spelbranschen står inför en medelålderskris - är AI dess framtid?

OpenAI presenterar Realtime API och andra funktioner för utvecklare

Kaliforniens guvernör Gavin Newsom lägger in sitt veto mot SB 1047 Lagförslag om AI-säkerhet

Hur går det för Kina i AI-racet? Teknikjättar och nystartade företag tänjer på gränserna

GRATIS PDF EXKLUSIVLigg steget före med DailyAI

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI