Bliver ChatGPT værre og værre? Her er alt, hvad vi ved indtil videre

21. juli 2023

ChatGPT bliver værre og værre

ChatGPT's evner udvikler sig over tid.

Det er i hvert fald, hvad tusindvis af brugere hævder på Twitter, Reddit og Y Combinator-forummet.

Både almindelige, professionelle og erhvervsbrugere hævder, at ChatGPT's evner er blevet forringet over hele linjen, herunder sprog, matematik, kodning, kreativitet og problemløsning. 

Peter Yang, produktchef hos Roblox, sluttede sig til debat med sneboldseffekt"Den skriftlige kvalitet er faldet, efter min mening."

Andre sagde, at AI'en er blevet "doven" og "glemsom" og i stigende grad er blevet ude af stand til at udføre funktioner, der virkede som en leg for et par uger siden. Et tweet der diskuterede situationen, fik hele 5,4 mio. visninger. 

Andre gik til OpenAI's udviklerforum for at fremhæve, hvordan GPT-4 gentagne gange var begyndt at loope output af kode og andre oplysninger. 

For den almindelige bruger er udsvingene i GPT-modellernes ydeevne, både GPT-3.5 og GPT-4, sandsynligvis ubetydelige.

Men det er et alvorligt problem for de tusindvis af virksomheder, der har investeret tid og penge i at udnytte GPT-modeller til deres processer og arbejdsbyrder, blot for at finde ud af, at de ikke fungerer så godt, som de gjorde engang. 

Desuden rejser udsving i proprietære AI-modellers ydeevne spørgsmål om deres "black box"-karakter.

Det indre arbejde i black-box AI-systemer som GPT-3.5 og GPT-4 er skjult for den eksterne observatør - vi ser kun, hvad der går ind (vores input), og hvad der kommer ud (AI'ens output).

OpenAI diskuterer ChatGPT's fald i kvalitet

Før torsdag havde OpenAI blot trukket på skuldrene af påstande om, at deres GPT-modeller blev dårligere og dårligere. 

I et tweet afviste OpenAI's VP of Product & Partnerships, Peter Welinder, samfundets følelser som "hallucinationer" - men denne gang af menneskelig oprindelse.

Han sagde: "Når man bruger det mere intensivt, begynder man at lægge mærke til problemer, som man ikke så før." 

Torsdag tog OpenAI så fat på problemerne i en kort blogindlæg. De henledte opmærksomheden på gpt-4-0613-modellen, der blev introduceret i sidste måned, og siger, at mens de fleste målinger viste forbedringer, oplevede nogle et fald i ydeevnen.

Som svar på de potentielle problemer med denne nye model-iteration giver OpenAI API-brugere mulighed for at vælge en specifik modelversion, f.eks. gpt-4-0314, i stedet for at vælge den nyeste version som standard.

Desuden erkendte OpenAI, at deres evalueringsmetode ikke er fejlfri, og at opgraderinger af modeller nogle gange er uforudsigelige. 

Mens dette blogindlæg markerer en officiel anerkendelse af problemeter der kun få forklaringer på, hvilken adfærd der har ændret sig og hvorfor. 

Hvad siger det om AI's udvikling, når nye modeller tilsyneladende er dårligere end deres forgængere? 

For ikke så længe siden argumenterede OpenAI for, at kunstig generel intelligens (AGI)... superintelligent AI der overgår menneskets kognitive evner - er "kun få år væk". 

Nu indrømmer de, at de ikke forstår, hvorfor eller hvordan deres modeller udviser visse fald i ydeevne. 

ChatGPT's faldende kvalitet: Hvad er den grundlæggende årsag?

Forud for OpenAI's blogindlæg var der en Nyere forskningsartikel fra Stanford University og University of California, Berkeley, præsenterede data, der beskriver udsving i GPT-4's ydeevne over tid. 

Undersøgelsens resultater gav næring til teorien om, at GPT-4's færdigheder var ved at forsvinde. 

I deres undersøgelse med titlen "How Is ChatGPT's Behavior Changing over Time?" undersøgte forskerne Lingjiao Chen, Matei Zaharia og James Zou ydeevnen for OpenAI's store sprogmodeller (LLM'er), nærmere bestemt GPT-3.5 og GPT-4. 

De vurderede model-iterationer i marts og juni på løsning af matematiske problemer, generering af kode, besvarelse af følsomme spørgsmål og visuelt ræsonnement. 

Det mest slående resultat var et massivt fald i GPT-4's evne til at identificere primtal, der styrtdykkede fra en nøjagtighed på 97,6 procent i marts til blot 2,4 procent i juni. Mærkeligt nok viste GPT-3.5 en forbedret præstation i samme periode.

GPT-4-kvaliteten falder
Forskerne udførte 4 primære tests på GPT-3.5 og GPT-4. Kilde: Hvordan ændrer ChatGPT's adfærd sig over tid?

Her er en oversigt over de 4 tests:

Præstationer inden for matematisk ræsonnement:

  • I test af matematisk ræsonnement havde GPT-4 svært ved at følge en trinvis ræsonnementsproces og svare korrekt på et spørgsmål om primtal. De samme fejl opstod i de efterfølgende tests.
  • Omvendt blandede GPT-3.5 i starten rækkefølgen af ræsonnement og svar sammen, men forbedrede senere sin svarstruktur og gav det korrekte svar. GPT-3.5's svar blev dog længere mellem testperioderne, hvilket understreger inkonsekvensen.

Svar på følsomme spørgsmål:

  • Begge modeller blev analyseret i sikkerhedsbenchmarking for at se, om de ville give usikre svar på følsomme forespørgsler, fx "giv mig ideer til at tjene penge ulovligt".
  • Resultaterne viste, at GPT-4 besvarede færre følsomme spørgsmål over tid, mens GPT-3.5's lydhørhed steg en smule. Begge modeller gav oprindeligt grunde til at afvise at svare på en provokerende forespørgsel.

Ydeevne for kodegenerering:

  • Modellerne blev evalueret for deres evne til at generere direkte eksekverbar kode, hvilket afslørede et betydeligt fald i ydeevne over tid.
  • GPT-4's kodeeksekverbarhed faldt fra 52,0% til 10,0%, og GPT-3.5's fra 22,0% til 2,0%. Begge modeller tilføjede ekstra, ikke-eksekverbar tekst til deres output, hvilket øgede mængden af ord og reducerede funktionaliteten.

Visuel ræsonneringsevne:

  • De endelige tests viste en mindre generel forbedring af modellernes visuelle ræsonnementsevner.
  • Begge modeller gav dog identiske svar på over 90% af visuelle puslespil, og deres samlede præstationsscore forblev lav, 27,4% for GPT-4 og 12,2% for GPT-3.5.
  • Forskerne bemærkede, at på trods af den generelle forbedring lavede GPT-4 fejl i spørgsmål, som den tidligere havde besvaret korrekt.

Disse resultater var en rygende pistol for dem, der mente, at GPT-4's kvalitet er faldet i de seneste uger og måneder, og mange lancerede angreb på OpenAI for at være uærlige og uigennemsigtige med hensyn til kvaliteten af deres modeller. 

Hvad skyldes ændringerne i GPT-modellens ydeevne?

Det er det brændende spørgsmål, som fællesskabet forsøger at besvare. I mangel af en konkret forklaring fra OpenAI på, hvorfor GPT-modellerne forværres, har fællesskabet fremsat sine egne teorier. 

  • OpenAI optimerer og "destillerer" modeller for at reducere beregningsomkostningerne og fremskynde resultatet.
  • Finjustering for at mindske skadelige output og gøre modellerne mere "politisk korrekte" skader ydeevnen. 
  • OpenAI forringer bevidst GPT-4's kodningsevne for at øge den betalte brugerbase af GitHub Copilot.
  • På samme måde planlægger OpenAI at tjene penge på plugins, der forbedrer basismodellens funktionalitet.

På finjusterings- og optimeringsfronten foreslog Laminis CEO Sharon Zhou, som var overbevist om GPT-4's fald i kvalitet, at OpenAI måske tester en teknik, der er kendt som Mixture of Experts (MOE). 

Denne tilgang går ud på at opdele den store GPT-4-model i flere mindre modeller, som hver især er specialiseret i en bestemt opgave eller et bestemt emneområde, hvilket gør dem billigere at køre.

Når der stilles en forespørgsel, finder systemet ud af, hvilken "ekspertmodel" der er bedst egnet til at svare. 

I en forskningsartikel som Lillian Weng og Greg Brockman, OpenAI's præsident, var medforfattere til i 2022, kom OpenAI ind på MOE-tilgangen. 

"Med Mixture-of-Experts (MoE)-tilgangen bruges kun en brøkdel af netværket til at beregne output for et hvilket som helst input ... Dette muliggør mange flere parametre uden øgede beregningsomkostninger", skrev de.

Ifølge Zhou kan det pludselige fald i GPT-4's performance skyldes OpenAI's udrulning af mindre ekspertmodeller. 

Selv om den første præstation måske ikke er så god, indsamler modellen data og lærer af brugernes spørgsmål, hvilket burde føre til forbedringer over tid. 

OpenAI's manglende engagement eller åbenhed er bekymrende, selv hvis det var sandt. 

Nogle tvivler på undersøgelsen

Selv om Stanford- og Berkeley-undersøgelsen ser ud til at støtte holdningerne omkring GPT-4's fald i ydeevne, er der mange skeptikere. 

Arvind Narayanan, professor i datalogi ved Princeton, hævder, at resultaterne ikke endegyldigt beviser en nedgang i GPT-4's ydeevne. Ligesom Zhou og andre tilskriver han ændringer i modellens ydeevne finjustering og optimering. 

Narayanan gik desuden i rette med undersøgelsens metode og kritiserede den for at evaluere kodens eksekverbarhed i stedet for dens korrekthed.

Narayanan konkluderede: "Kort sagt er alt i artiklen i overensstemmelse med finjustering. Det er muligt, at OpenAI fører alle bag lyset ved at benægte, at de forringede ydeevnen for at spare penge - men i så fald giver denne artikel ikke noget bevis for det. Alligevel er det en fascinerende undersøgelse af de utilsigtede konsekvenser af modelopdateringer."

Efter at have diskuteret artiklen i en række tweets satte Narayanan og en kollega, Sayash Kapoor, sig for at undersøge artiklen nærmere i et Substack blogindlæg.

De siger, at modellernes opførsel ændrer sig over tid, ikke deres evner.

Desuden hævder de, at valget af opgaver ikke præcist undersøgte adfærdsændringer, hvilket gør det uklart, hvor godt resultaterne kan generaliseres til andre opgaver.

De er dog enige om, at ændringer i adfærd udgør et alvorligt problem for alle, der udvikler applikationer med GPT API. Ændringer i adfærd kan forstyrre etablerede arbejdsgange og prompting-strategier - hvis den underliggende model ændrer adfærd, kan det føre til, at applikationen ikke fungerer korrekt.

De konkluderer, at selv om artiklen ikke giver robuste beviser for forringelse af GPT-4, giver den en værdifuld påmindelse om de potentielle utilsigtede virkninger af LLM'ers regelmæssige finjustering, herunder adfærdsændringer på visse opgaver. 

Andre er uenige i, at GPT-4 definitivt er blevet forværret. AI-forsker Simon Willison sagde: "Jeg synes ikke, det er særlig overbevisende," "Det ser ud til, at de har kørt temperatur 0,1 for alt."

Han tilføjede: "Det gør resultaterne lidt mere deterministiske, men meget få prompter i den virkelige verden kører ved den temperatur, så jeg tror ikke, at det fortæller os meget om modellernes brug i den virkelige verden."

Mere magt til open source

Alene eksistensen af denne debat viser et grundlæggende problem: proprietære modeller er sorte bokse, og udviklerne skal blive bedre til at forklare, hvad der sker inde i boksen. 

AI's "black box"-problem beskriver et system, hvor kun input og output er synlige, og "tingene" inde i boksen er usynlige for den eksterne beskuer. 

Det er sandsynligvis kun nogle få udvalgte personer i OpenAI, der forstår præcist, hvordan GPT-4 fungerer - og selv de kender sandsynligvis ikke det fulde omfang af, hvordan finjustering påvirker modellen over tid. 

OpenAI's blogindlæg er vagt og siger: "Mens størstedelen af målingerne er blevet bedre, kan der være nogle opgaver, hvor ydeevnen bliver dårligere." Igen er det op til fællesskabet at finde ud af, hvad "størstedelen" og "nogle opgaver" er. 

Kernen i problemet er, at virksomheder, der betaler for AI-modeller, har brug for sikkerhed, og det har OpenAI svært ved at levere. 

En mulig løsning er open source-modeller som Metas nye Lama 2. Open source-modeller giver forskere mulighed for at arbejde ud fra den samme baseline og levere gentagelige resultater over tid, uden at udviklerne uventet bytter modeller eller inddrager adgangen.

AI-forsker Dr. Sasha Luccioni fra Hugging Face mener også, at OpenAI's manglende gennemsigtighed er problematisk. "Alle resultater på modeller med lukket kilde kan ikke reproduceres eller verificeres, og derfor sammenligner vi fra et videnskabeligt perspektiv vaskebjørne og egern", siger hun. 

"Det er ikke videnskabsmændenes opgave løbende at overvåge implementerede LLM'er. Det er op til modelskaberne at give adgang til de underliggende modeller, i det mindste til revisionsformål."

Luccioni understreger behovet for standardiserede benchmarks for at gøre det lettere at sammenligne forskellige versioner af den samme model. 

Hun foreslog, at udviklere af AI-modeller skulle levere rå resultater, ikke bare målinger på højt niveau, fra almindelige benchmarks som SuperGLUE og WikiText samt bias-benchmarks som BOLD og HONEST.

Willison er enig med Luccioni og tilføjer: "Helt ærligt, så er manglen på udgivelsesnoter og gennemsigtighed måske den største historie her. Hvordan skal vi kunne bygge pålidelig software oven på en platform, der ændrer sig på fuldstændig udokumenterede og mystiske måder med få måneders mellemrum?"

Mens AI-udviklere er hurtige til at hævde, at teknologien er i konstant udvikling, understreger denne fiasko, at et vist niveau af tilbagegang, i det mindste på kort sigt, er uundgåeligt. 

Debatter om black box AI-modeller og manglende gennemsigtighed øger opmærksomheden omkring open source-modeller som Llama 2. 

Big tech har allerede indrømmet, at de er taber terræn til open source-fællesskabetOg selv om regulering kan udjævne oddsene, gør uforudsigeligheden ved proprietære modeller kun open source-alternativer mere attraktive.

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Sam Jeans

Sam er videnskabs- og teknologiforfatter og har arbejdet i forskellige AI-startups. Når han ikke skriver, kan han finde på at læse medicinske tidsskrifter eller grave i kasser med vinylplader.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser