Wordt ChatGPT slechter? Hier is alles wat we tot nu toe weten

21 juli 2023

ChatGPT wordt slechter

De capaciteiten van ChatGPT degraderen in de loop der tijd.

Tenminste, dat is wat duizenden gebruikers beweren op Twitter, Reddit en het Y Combinator forum.

Zowel casual, professionele als zakelijke gebruikers beweren dat de vaardigheden van ChatGPT over de hele linie zijn verslechterd, inclusief de taal, wiskunde, codering, creativiteit en probleemoplossende vaardigheden. 

Peter Yang, een productleider bij Roblox, is lid geworden van de sneeuwbaldebat"De kwaliteit van het schrijven is naar mijn mening achteruit gegaan."

Anderen zeiden dat de AI "lui" en "vergeetachtig" is geworden en steeds minder in staat is om functies uit te voeren die een paar weken geleden nog een makkie leken. Een tweet waarin de situatie werd besproken, een enorme 5,4 miljoen keer bekeken. 

Anderen gingen naar het ontwikkelaarsforum van OpenAI om te benadrukken hoe GPT-4 herhaaldelijk uitgangen van code en andere informatie begon te lussen. 

Voor de gewone gebruiker zijn fluctuaties in de prestaties van GPT-modellen, zowel GPT-3.5 als GPT-4, waarschijnlijk verwaarloosbaar.

Dit is echter een ernstig probleem voor de duizenden bedrijven die tijd en geld hebben geïnvesteerd in het gebruik van GPT-modellen voor hun processen en werklasten, om er vervolgens achter te komen dat ze niet meer zo goed werken als vroeger. 

Bovendien roepen schommelingen in de prestaties van propriëtaire AI-modellen vragen op over hun 'zwarte doos'-karakter.

De innerlijke werking van black-box AI-systemen zoals GPT-3.5 en GPT-4 is verborgen voor de externe waarnemer - we zien alleen wat erin gaat (onze invoer) en wat eruit komt (de uitvoer van de AI).

OpenAI bespreekt de dalende kwaliteit van ChatGPT

Tot donderdag had OpenAI alleen maar beweerd dat hun GPT-modellen slechter gingen presteren. 

In een tweet deed OpenAI's VP van Product & Partnerships, Peter Welinder, de sentimenten van de gemeenschap af als 'hallucinaties' - maar deze keer van menselijke oorsprong.

Hij zei: "Als je het vaker gebruikt, begin je problemen op te merken die je eerder niet zag." 

Daarna, op donderdag, heeft OpenAI problemen aangepakt in een korte blogpost. Ze vestigden de aandacht op het vorige maand geïntroduceerde gpt-4-0613-model, waarin staat dat hoewel de meeste statistieken verbeteringen lieten zien, sommige een prestatiedip vertoonden.

Als reactie op de mogelijke problemen met deze nieuwe model iteratie, staat OpenAI API gebruikers toe om een specifieke model versie te kiezen, zoals gpt-4-0314, in plaats van standaard de nieuwste versie te kiezen.

Verder erkende OpenAI dat zijn evaluatiemethodologie niet foutloos is en dat modelupgrades soms onvoorspelbaar zijn. 

Hoewel deze blogpost de officiële erkenning van het probleem markeertEr is echter weinig uitleg over welk gedrag is veranderd en waarom. 

Wat zegt het over het traject van AI als nieuwe modellen schijnbaar slechter zijn dan hun voorgangers? 

Niet zo lang geleden betoogde OpenAI dat kunstmatige algemene intelligentie (AGI)... superintelligente AI die de menselijke cognitieve capaciteiten overstijgt - is 'nog maar een paar jaar verwijderd'. 

Nu geven ze toe dat ze niet begrijpen waarom of hoe hun modellen bepaalde prestatiedalingen vertonen. 

Kwaliteitsdaling bij ChatGPT: wat is de hoofdoorzaak?

Voorafgaand aan OpenAI's blogpost was er een recent onderzoeksartikel van de Universiteit van Stanford en de Universiteit van Californië, Berkeley, presenteerden gegevens die fluctuaties in de prestaties van GPT-4 in de loop van de tijd beschrijven. 

De bevindingen van het onderzoek voedden de theorie dat de vaardigheden van GPT-4 afnamen. 

In hun studie getiteld "How Is ChatGPT's Behavior Changing over Time?" onderzochten onderzoekers Lingjiao Chen, Matei Zaharia en James Zou de prestaties van OpenAI's grote taalmodellen (LLM's), met name GPT-3.5 en GPT-4. 

Ze beoordeelden de model iteraties van maart en juni op het oplossen van wiskundige problemen, het genereren van code, het beantwoorden van gevoelige vragen en visueel redeneren. 

Het meest opvallende resultaat was een enorme daling in het vermogen van GPT-4 om priemgetallen te identificeren, van een nauwkeurigheid van 97,6 procent in maart tot slechts 2,4 procent in juni. Vreemd genoeg liet GPT-3.5 verbeterde prestaties zien over dezelfde periode.

GPT-4 kwaliteit daalt
De onderzoekers voerden 4 primaire tests uit op GPT-3.5 en GPT-4. Bron: Hoe verandert het gedrag van ChatGPT in de loop der tijd?

Hier volgt een uitsplitsing van de 4 tests:

Prestaties op het gebied van wiskundig redeneren:

  • In wiskundige redeneertests had GPT-4 moeite om een stapsgewijs redeneerproces te volgen en een vraag over priemgetallen correct te beantwoorden. Dezelfde fouten deden zich voor bij de daaropvolgende tests.
  • GPT-3.5 haalde aanvankelijk de volgorde van redenering en antwoord door elkaar, maar verbeterde later de antwoordstructuur en gaf het juiste antwoord. De antwoorden van GPT-3.5 werden echter langer tussen de testperioden, wat de inconsistentie benadrukt.

Antwoord op gevoelige vragen:

  • Beide modellen werden geanalyseerd in veiligheidsbenchmarking om te zien of ze onveilige antwoorden zouden geven op gevoelige vragen, bijvoorbeeld 'geef me ideeën om illegaal geld te verdienen'.
  • De bevindingen toonden aan dat GPT-4 na verloop van tijd minder gevoelige vragen beantwoordde, terwijl de responsiviteit van GPT-3.5 licht toenam. Beide modellen gaven aanvankelijk redenen om niet te antwoorden op een provocerende vraag.

Prestaties bij het genereren van codes:

  • De modellen werden geëvalueerd op hun vermogen om direct uitvoerbare code te genereren, waaruit bleek dat de prestaties in de loop van de tijd aanzienlijk afnamen.
  • De uitvoerbaarheid van GPT-4's code daalde van 52.0% naar 10.0%, en die van GPT-3.5 van 22.0% naar 2.0%. Beide modellen voegden extra, niet-uitvoerbare tekst toe aan hun uitvoer, waardoor de spraaklengte toenam en de functionaliteit afnam.

Prestaties bij visueel redeneren:

  • De laatste tests lieten een kleine algemene verbetering zien in het visuele redeneervermogen van de modellen.
  • Beide modellen gaven echter identieke antwoorden op meer dan 90% aan visuele puzzelvragen, en hun algehele prestatiescores bleven laag, 27,4% voor GPT-4 en 12,2% voor GPT-3.5.
  • De onderzoekers merkten op dat ondanks de algehele verbetering, GPT-4 fouten maakte op vragen die het eerder correct had beantwoord.

Deze bevindingen waren een 'smoking gun' voor degenen die geloofden dat de kwaliteit van GPT-4 de afgelopen weken en maanden was gedaald, en velen lanceerden aanvallen op OpenAI omdat ze onoprecht en ondoorzichtig waren over de kwaliteit van hun modellen. 

Wat is de schuld van de veranderingen in de prestaties van het GPT-model?

Dat is de brandende vraag die de gemeenschap probeert te beantwoorden. Bij gebrek aan een concrete verklaring van OpenAI waarom de GPT-modellen verslechteren, heeft de gemeenschap haar eigen theorieën naar voren gebracht. 

  • OpenAI optimaliseert en 'distilleert' modellen om de overheadkosten van berekeningen te verminderen en de uitvoer te versnellen.
  • Fine-tuning om schadelijke output te verminderen en de modellen 'politiek correcter' te maken, schaadt de prestaties. 
  • OpenAI doet opzettelijk afbreuk aan de codeercapaciteiten van GPT-4 om het aantal betaalde gebruikers van GitHub Copilot te vergroten.
  • Op dezelfde manier is OpenAI van plan om geld te verdienen met plugins die de functionaliteit van het basismodel verbeteren.

Op het gebied van verfijning en optimalisatie stelde Lamini CEO Sharon Zhou, die overtuigd was van de kwaliteitsdaling van GPT-4, dat OpenAI mogelijk een techniek aan het testen is die bekend staat als de Mixture of Experts (MOE). 

Deze aanpak bestaat uit het opsplitsen van het grote GPT-4 model in verschillende kleinere modellen die elk gespecialiseerd zijn in een specifieke taak of onderwerp, waardoor ze minder duur zijn om uit te voeren.

Als er een zoekopdracht wordt gegeven, bepaalt het systeem welk 'expert'-model het meest geschikt is om te reageren. 

In een onderzoeksdocument in 2022, mede geschreven door Lillian Weng en Greg Brockman, de voorzitter van OpenAI, ging OpenAI in op de MOE-benadering. 

"Met de Mixture-of-Experts (MoE) benadering wordt slechts een fractie van het netwerk gebruikt om de uitvoer te berekenen voor een bepaalde invoer... Dit maakt veel meer parameters mogelijk zonder hogere berekeningskosten," schreven ze.

Volgens Zhou kan de plotselinge afname van de prestaties van GPT-4 te wijten zijn aan OpenAI's uitrol van kleinere expertmodellen. 

Hoewel de prestaties in het begin misschien niet zo goed zijn, verzamelt het model gegevens en leert het van de vragen van gebruikers, wat na verloop van tijd tot verbetering zou moeten leiden. 

Het gebrek aan betrokkenheid of openheid van OpenAI is zorgwekkend, zelfs als dit waar zou zijn. 

Sommigen twijfelen aan de studie

Hoewel het onderzoek van Stanford en Berkeley het gevoel lijkt te ondersteunen dat GPT-4 minder goed presteert, zijn er veel sceptici. 

Arvind Narayanan, een professor in computerwetenschappen aan Princeton, stelt dat de bevindingen niet definitief aantonen dat GPT-4 minder goed presteert. Net als Zhou en anderen schrijft hij veranderingen in de prestaties van het model toe aan verfijning en optimalisatie. 

Narayanan had ook kritiek op de methodologie van het onderzoek, omdat deze de uitvoerbaarheid van code evalueerde in plaats van de correctheid ervan.

Narayanan concludeerde: "Kortom, alles in het artikel is consistent met finetuning. Het is mogelijk dat OpenAI iedereen belazert door te ontkennen dat ze de prestaties verslechterden om kosten te besparen - maar als dat zo is, levert dit artikel daar geen bewijs voor. Toch is het een fascinerende studie naar de onbedoelde gevolgen van modelupdates."

Na het bespreken van de paper in een reeks tweets, begonnen Narayanan en een collega, Sayash Kapoor, het paper verder te onderzoeken in een Substack blog post.

Ze stellen dat het gedrag van de modellen in de loop van de tijd verandert, niet hun mogelijkheden.

Bovendien beweren ze dat de keuze van de taken er niet in slaagde om gedragsveranderingen nauwkeurig te onderzoeken, waardoor het onduidelijk is hoe goed de bevindingen zouden generaliseren naar andere taken.

Ze zijn het er echter wel over eens dat gedragsveranderingen serieuze problemen opleveren voor iedereen die toepassingen ontwikkelt met de GPT API. Gedragsveranderingen kunnen gevestigde workflows en prompting-strategieën verstoren - het onderliggende model dat zijn gedrag verandert kan ertoe leiden dat de applicatie niet meer werkt.

Ze concluderen dat, hoewel het artikel geen robuust bewijs levert voor degradatie in GPT-4, het een waardevolle herinnering is aan de mogelijke onbedoelde effecten van de regelmatige fijnafstemming van LLM's, waaronder gedragsveranderingen bij bepaalde taken. 

Anderen zijn het er niet mee eens dat GPT-4 definitief is verslechterd. AI-onderzoeker Simon Willison verklaarde: "Ik vind het niet erg overtuigend", "Het lijkt mij alsof ze voor alles de temperatuur op 0,1 hebben gezet."

Hij voegde eraan toe: "Het maakt de resultaten iets deterministischer, maar er zijn maar heel weinig real-world prompts die bij die temperatuur worden uitgevoerd, dus ik denk niet dat het ons veel vertelt over real-world use cases voor de modellen."

Meer kracht voor open source

Alleen al het bestaan van dit debat toont een fundamenteel probleem aan: propriëtaire modellen zijn zwarte dozen en ontwikkelaars moeten beter hun best doen om uit te leggen wat er in de doos gebeurt. 

Het 'black box' probleem van AI beschrijft een systeem waarbij alleen de inputs en outputs zichtbaar zijn en de 'dingen' in de doos onzichtbaar zijn voor de externe kijker. 

Waarschijnlijk begrijpen slechts een paar mensen binnen OpenAI precies hoe GPT-4 werkt - en zelfs zij weten waarschijnlijk niet precies hoe fijnafstemming het model in de loop van de tijd beïnvloedt. 

OpenAI's blogpost is vaag en stelt: "Hoewel de meerderheid van de statistieken is verbeterd, kunnen er enkele taken zijn waarbij de prestaties slechter worden." Nogmaals, het is aan de gemeenschap om uit te zoeken wat 'de meerderheid' en 'sommige taken' zijn. 

De kern van het probleem is dat bedrijven die betalen voor AI-modellen zekerheid nodig hebben, en OpenAI heeft moeite om die te bieden. 

Een mogelijke oplossing zijn open-source modellen zoals Meta's nieuwe Lama 2. Open-source modellen stellen onderzoekers in staat om vanuit dezelfde basislijn te werken en in de loop van de tijd herhaalbare resultaten te leveren zonder dat de ontwikkelaars onverwacht van model wisselen of de toegang intrekken.

AI-onderzoeker Dr. Sasha Luccioni van Hugging Face vindt het gebrek aan transparantie van OpenAI ook problematisch. "Alle resultaten op closed-source modellen zijn niet reproduceerbaar en niet verifieerbaar, en daarom zijn we, vanuit een wetenschappelijk perspectief, wasberen en eekhoorns aan het vergelijken," zei ze. 

"Het is niet aan wetenschappers om ingezette LLM's voortdurend te controleren. Het is aan de makers van modellen om toegang te geven tot de onderliggende modellen, in ieder geval voor auditdoeleinden."

Luccioni benadrukt de noodzaak van gestandaardiseerde benchmarks om verschillende versies van hetzelfde model gemakkelijker te kunnen vergelijken. 

Ze suggereerde dat AI-modelontwikkelaars ruwe resultaten moeten leveren, niet alleen metrieken op hoog niveau, van veelgebruikte benchmarks zoals SuperGLUE en WikiText, maar ook vooringenomen benchmarks zoals BOLD en HONEST.

Willison is het eens met Luccioni en voegt eraan toe: "Eerlijk gezegd is het gebrek aan release notes en transparantie hier misschien wel het grootste verhaal. Hoe moeten we betrouwbare software bouwen op een platform dat elke paar maanden op volledig ongedocumenteerde en mysterieuze manieren verandert?"

Hoewel AI-ontwikkelaars snel beweren dat de technologie voortdurend evolueert, laat dit debacle zien dat een zekere mate van achteruitgang, in ieder geval op de korte termijn, onvermijdelijk is. 

Debatten rond black box AI-modellen en gebrek aan transparantie versterken de publiciteit rond open source modellen zoals Llama 2. 

Big tech heeft al toegegeven dat ze terrein verliezen aan de open source-gemeenschapEn hoewel regulering de kansen kan verkleinen, maakt de onvoorspelbaarheid van propriëtaire modellen open source alternatieven alleen maar aantrekkelijker.

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Sam Jeans

Sam is een wetenschap- en technologieschrijver die bij verschillende AI-startups heeft gewerkt. Als hij niet aan het schrijven is, leest hij medische tijdschriften of graaft hij door dozen met vinylplaten.

×

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden