Onderzoek toont aan dat AI-modellen instorten wanneer ze worden getraind op AI-gegenereerde gegevens

28 juli 2024

  • Onderzoekers onderzochten "model collapse" in meerdere modeltypes
  • Vooral de taalmodellen erodeerden in kwaliteit en effectiviteit
  • Als modellen worden getraind op te veel AI-gegenereerde gegevens, riskeren ze problemen in de toekomst
AI-modellen

Uit een nieuw onderzoek, gepubliceerd in Nature, blijkt dat AI-modellen, waaronder grote taalmodellen (LLM's), snel in kwaliteit achteruitgaan als ze worden getraind op gegevens die door eerdere AI-modellen zijn gegenereerd. 

Dit fenomeen, dat "model collapse" wordt genoemd, kan de kwaliteit van toekomstige AI-modellen aantasten, vooral naarmate er meer AI-gegenereerde inhoud op het internet wordt gezet en dus wordt gerecycled en hergebruikt als trainingsgegevens voor modellen. 

Om dit fenomeen te onderzoeken, hebben onderzoekers van de Universiteit van Cambridge, de Universiteit van Oxford en andere instellingen uitgevoerde experimenten waaruit blijkt dat AI-modellen onzinnige resultaten genereren als ze herhaaldelijk worden getraind op gegevens die door eerdere versies van zichzelf zijn geproduceerd. 

Dit werd waargenomen bij verschillende soorten AI-modellen, waaronder taalmodellen, variationele autoencoders en Gaussische mengmodellen.

In een belangrijk experiment met taalmodellen verfijnde het team het OPT-125m model op de WikiText-2 dataset en gebruikte het vervolgens om nieuwe tekst te genereren.

Deze door AI gegenereerde tekst werd vervolgens gebruikt om de volgende "generatie" van het model te trainen, en dit proces werd keer op keer herhaald. 

Het duurde niet lang voordat de modellen steeds onwaarschijnlijkere en onzinnige teksten begonnen te produceren. 

Bij de negende generatie genereerde het model complete wartaal, zoals het opsommen van meerdere niet-bestaande soorten "haasjes" bij een vraag over Engelse kerktorens.

De onderzoekers zagen ook hoe modellen informatie verliezen over "zeldzame" of infrequente gebeurtenissen voordat ze volledig instorten. 

Dit is alarmerend, omdat zeldzame gebeurtenissen vaak betrekking hebben op gemarginaliseerde groepen of uitschieters. Zonder hen lopen modellen het risico dat hun antwoorden zich concentreren op een smal spectrum van ideeën en overtuigingen, waardoor vooroordelen worden versterkt.

AI-bedrijven zijn zich hiervan bewust, vandaar dat ze deals sluiten met nieuwsbedrijven en uitgevers om een constante stroom van kwalitatief hoogwaardige, door mensen geschreven, actueel relevante informatie veilig te stellen. 

"De boodschap is dat we heel voorzichtig moeten zijn met wat er in onze trainingsgegevens terechtkomt," aldus de onderzoekers. onderzoek co-auteur Zakhar Shumaylov van de Universiteit van Cambridge vertelde Natuur. "Anders gaat het altijd, aantoonbaar, mis."

Dit effect wordt nog versterkt door een recente onderzoek van Dr. Richard Fletcher, Director of Research bij het Reuters Institute for the Study of Journalism, ontdekte dat bijna de helft (48%) van de populairste nieuwssites wereldwijd nu ontoegankelijk zijn voor de crawlers van OpenAI, waarbij de AI-crawlers van Google door 24% van de sites worden geblokkeerd.

Als gevolg hiervan hebben AI-modellen toegang tot een kleinere pool van hoogwaardige, recente gegevens dan vroeger, waardoor het risico toeneemt dat er wordt getraind op ondermaatse of verouderde gegevens. 

Oplossingen voor het instorten van modellen

Wat betreft oplossingen stellen de onderzoekers dat het van vitaal belang is voor de toekomst van AI om toegang te houden tot originele, door mensen gegenereerde gegevensbronnen. 

Het volgen en beheren van AI-gegenereerde inhoud zou ook nuttig zijn om te voorkomen dat het per ongeluk trainingsdatasets vervuilt. Dat zou erg lastig zijn, omdat AI-gegenereerde inhoud onmogelijk te detecteren is. 

Onderzoekers stellen vier belangrijke oplossingen voor:

  • AI-gegenereerde inhoud watermerken om deze te onderscheiden van door mensen gemaakte gegevens
  • Stimulansen creëren voor mensen om inhoud van hoge kwaliteit te blijven produceren
  • Verfijndere filter- en curatiemethoden ontwikkelen voor trainingsgegevens
  • Manieren verkennen om originele, niet door AI gegenereerde informatie te bewaren en er prioriteit aan te geven

Het instorten van modellen is een echt probleem

Deze studie is lang niet de enige die het instorten van modellen onderzoekt. 

Niet lang geleden hebben Stanford-onderzoekers twee scenario's vergeleken waarbij het model zou kunnen instorten: een waarbij de trainingsgegevens van elke nieuwe iteratie van het model de vorige gegevens volledig vervangen en een andere waarbij synthetische gegevens worden toegevoegd aan de bestaande dataset.

Wanneer gegevens werden vervangen, verslechterden de prestaties van het model snel op alle geteste architecturen. 

Wanneer de gegevens zich echter konden "opstapelen", werd het instorten van het model grotendeels voorkomen. De AI-systemen bleven goed presteren en vertoonden in sommige gevallen zelfs verbeteringen.

Dus ondanks geloofwaardige zorgen is het instorten van het model geen uitgemaakte zaak - het hangt af van hoeveel AI-gegenereerde gegevens de set bevat en de verhouding tussen synthetische en authentieke gegevens. 

Als en wanneer het instorten van modellen duidelijk wordt in grensverleggende modellen, kun je er zeker van zijn dat AI-bedrijven zullen zoeken naar een oplossing voor de lange termijn. 

We zijn er nog niet, maar het is misschien een kwestie van wanneer, niet of.

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Sam Jeans

Sam is een wetenschap- en technologieschrijver die bij verschillende AI-startups heeft gewerkt. Als hij niet aan het schrijven is, leest hij medische tijdschriften of graaft hij door dozen met vinylplaten.

×

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden