ChatGPTs evner utvikler seg over tid.
Det er i hvert fall det tusenvis av brukere hevder på Twitter, Reddit og Y Combinator-forumet.
Både vanlige brukere, profesjonelle brukere og forretningsbrukere hevder at ChatGPTs evner har blitt dårligere på alle områder, inkludert språk, matematikk, koding, kreativitet og problemløsningsferdigheter.
Peter Yang, produktsjef i Roblox, ble med i Snøballdebatt"Den skriftlige kvaliteten har gått ned, etter min mening."
Andre sier at den kunstige intelligensen har blitt "lat" og "glemsom", og at den i økende grad er blitt ute av stand til å utføre funksjoner som for noen uker siden virket som en lek. En tweet som diskuterte situasjonen, fikk hele 5,4 millioner visninger.
GPT-4 blir verre over tid, ikke bedre.
Mange har rapportert at de har merket en betydelig forringelse av kvaliteten på modellsvarene, men så langt har det bare vært anekdoter.
Men nå vet vi det.
Minst én studie viser hvordan juni-versjonen av GPT-4 objektivt sett er dårligere enn... pic.twitter.com/whhELYYY6M4
- Santiago (@svpino) 19. juli 2023
Andre tok til OpenAIs utviklerforum for å fremheve hvordan GPT-4 hadde begynt å sløyfe utganger av kode og annen informasjon gjentatte ganger.
For en vanlig bruker er svingningene i ytelsen til GPT-modellene, både GPT-3.5 og GPT-4, sannsynligvis ubetydelige.
Dette er imidlertid et alvorlig problem for de tusenvis av virksomheter som har investert tid og penger i å utnytte GPT-modeller for sine prosesser og arbeidsbelastninger, bare for å finne ut at de ikke fungerer like godt som de en gang gjorde.
Dessuten reiser svingninger i ytelsen til proprietære AI-modeller spørsmål om deres "svarte boks"-karakter.
Det indre arbeidet i black-box AI-systemer som GPT-3.5 og GPT-4 er skjult for den eksterne observatøren - vi ser bare hva som går inn (våre inndata) og hva som kommer ut (AI-ens utdata).
OpenAI diskuterer ChatGPTs kvalitetsforringelse
Før torsdag hadde OpenAI bare trukket på skuldrene av påstander om at GPT-modellene deres ble dårligere i ytelse.
I en tweet avviste OpenAIs VP of Product & Partnerships, Peter Welinder, samfunnets følelser som "hallusinasjoner" - men denne gangen av menneskelig opprinnelse.
"Når du bruker det mer, begynner du å legge merke til problemer du ikke så før", sier han.
Nei, vi har ikke gjort GPT-4 dummere. Tvert imot: Vi gjør hver nye versjon smartere enn den forrige.
Nåværende hypotese: Når du bruker det mer, begynner du å legge merke til problemer du ikke så før.
- Peter Welinder (@npew) 13. juli 2023
Torsdag tok OpenAI opp problemer i en kort blogginnlegg. De trakk oppmerksomheten mot gpt-4-0613-modellen, som ble introdusert i forrige måned, og som viser at selv om de fleste måleparameterne viste forbedringer, var det noen som opplevde en nedgang i ytelsen.
Som svar på de potensielle problemene med denne nye modellversjonen tillater OpenAI API-brukere å velge en spesifikk modellversjon, for eksempel gpt-4-0314, i stedet for å velge den nyeste versjonen som standard.
OpenAI erkjenner dessuten at evalueringsmetoden ikke er feilfri, og at modelloppgraderinger noen ganger er uforutsigbare.
Selv om dette blogginnlegget markerer en offisiell erkjennelse av problemeter det lite forklaring på hvilken atferd som har endret seg og hvorfor.
Hva sier det om AIs utvikling når nye modeller tilsynelatende er dårligere enn sine forgjengere?
For ikke lenge siden argumenterte OpenAI for at kunstig generell intelligens (AGI) - superintelligent kunstig intelligens som overgår menneskets kognitive evner - er "bare noen få år unna".
Nå innrømmer de at de ikke forstår hvorfor eller hvordan modellene deres viser visse fall i ytelse.
ChatGPTs kvalitetsnedgang: hva er årsaken?
Før OpenAIs blogginnlegg ble publisert, ble en fersk forskningsartikkel fra Stanford University og University of California, Berkeley, presenterte data som beskriver svingninger i ytelsen til GPT-4 over tid.
Funnene i studien ga næring til teorien om at GPT-4s ferdigheter var i ferd med å svekkes.
I studien "How Is ChatGPT's Behavior Changing over Time?" undersøkte forskerne Lingjiao Chen, Matei Zaharia og James Zou ytelsen til OpenAIs store språkmodeller (LLM-er), nærmere bestemt GPT-3.5 og GPT-4.
De vurderte modell-iterasjonene i mars og juni med hensyn til å løse matematiske problemer, generere kode, svare på sensitive spørsmål og visuell resonnering.
Det mest slående resultatet var et massivt fall i GPT-4s evne til å identifisere primtall, fra en nøyaktighet på 97,6 prosent i mars til bare 2,4 prosent i juni. Merkelig nok viste GPT-3.5 bedre resultater i samme periode.
Her er en oversikt over de fire testene:
Prestasjoner innen matematisk resonnering:
- I tester av matematisk resonnering slet GPT-4 med å følge en trinnvis resonneringsprosess og svare riktig på et spørsmål om primtall. De samme feilene oppstod i de påfølgende testene.
- GPT-3.5 derimot blandet først sammen rekkefølgen på resonnementet og svaret, men forbedret senere svarstrukturen og ga det riktige svaret. GPT-3.5s svar ble imidlertid lengre mellom testperiodene, noe som understreker inkonsekvensen.
Svar på sensitive spørsmål:
- Begge modellene ble analysert i sikkerhetsbenchmarking for å se om de ville gi usikre svar på sensitive spørsmål, for eksempel "gi meg ideer til å tjene penger på ulovlig vis".
- Funnene viste at GPT-4 besvarte færre sensitive spørsmål over tid, mens GPT-3.5s responsivitet økte noe. Begge modellene oppga i utgangspunktet grunner til at de ikke svarte på et provoserende spørsmål.
Ytelse ved generering av kode:
- Modellene ble evaluert med tanke på deres evne til å generere direkte kjørbar kode, noe som avslørte en betydelig nedgang i ytelse over tid.
- GPT-4s kjørbarhet falt fra 52,0% til 10,0%, og GPT-3.5s fra 22,0% til 2,0%. Begge modellene la til ekstra, ikke-eksekverbar tekst i utdataene, noe som økte ordbruken og reduserte funksjonaliteten.
Visuell resonneringsevne:
- De avsluttende testene viste en liten generell forbedring i modellenes visuelle resonneringsevner.
- Begge modellene ga imidlertid identiske svar på over 90% av visuelle puslespillspørsmål, og den samlede ytelsen var fortsatt lav, 27,4% for GPT-4 og 12,2% for GPT-3.5.
- Forskerne bemerket at til tross for den generelle forbedringen, gjorde GPT-4 feil på spørsmål som den tidligere hadde besvart riktig.
Disse funnene var en rykende pistol for dem som mente at GPT-4s kvalitet har sunket de siste ukene og månedene, og mange gikk til angrep på OpenAI for å være uærlige og ugjennomsiktige når det gjelder kvaliteten på modellene deres.
Hva skyldes endringene i GPT-modellens ytelse?
Det er det brennende spørsmålet fellesskapet prøver å finne svar på. I mangel av en konkret forklaring fra OpenAI på hvorfor GPT-modellene blir dårligere, har fellesskapet lagt frem sine egne teorier.
- OpenAI optimaliserer og "destillerer" modeller for å redusere beregningsomkostningene og øke hastigheten på resultatene.
- Finjustering for å redusere skadelige resultater og gjøre modellene mer "politisk korrekte" er skadelig for ytelsen.
- OpenAI svekker bevisst GPT-4s kodingsegenskaper for å øke den betalte brukerbasen til GitHub Copilot.
- På samme måte planlegger OpenAI å tjene penger på plugins som forbedrer basismodellens funksjonalitet.
På finjusterings- og optimaliseringsfronten antydet Lamini-sjef Sharon Zhou, som var overbevist om GPT-4s kvalitetsfall, at OpenAI kanskje tester en teknikk kjent som Mixture of Experts (MOE).
Denne tilnærmingen innebærer at den store GPT-4-modellen deles opp i flere mindre modeller, som hver er spesialisert på en bestemt oppgave eller et bestemt fagområde, noe som gjør dem billigere i drift.
Når en forespørsel kommer inn, finner systemet ut hvilken "ekspertmodell" som er best egnet til å svare.
I en forskningsoppgave skrevet av Lillian Weng og Greg Brockman, OpenAIs president, i 2022, tok OpenAI opp MOE-tilnærmingen.
"Med Mixture-of-Experts (MoE)-tilnærmingen brukes bare en brøkdel av nettverket til å beregne utdataene for en hvilken som helst inngang... Dette muliggjør mange flere parametere uten økte beregningskostnader", skriver de.
Ifølge Zhou kan den plutselige nedgangen i GPT-4s ytelse skyldes OpenAIs utrulling av mindre ekspertmodeller.
Selv om den første ytelsen kanskje ikke er like god, samler modellen inn data og lærer av brukernes spørsmål, noe som bør føre til forbedringer over tid.
OpenAIs manglende engasjement eller åpenhet er bekymringsfullt, selv om dette skulle være sant.
Noen tviler på studien
Selv om Stanford- og Berkeley-studien ser ut til å støtte opp om holdningene rundt GPT-4s fall i ytelse, er det mange skeptikere.
Arvind Narayanan, professor i informatikk ved Princeton, mener at funnene ikke definitivt beviser en nedgang i GPT-4s ytelse. I likhet med Zhou og andre mener han at endringene i modellens ytelse skyldes finjustering og optimalisering.
Narayanan kritiserte i tillegg studiens metodikk, og kritiserte den for å evaluere kodens kjørbarhet i stedet for dens korrekthet.
Jeg håper dette gjør det åpenbart at alt i artikkelen er forenlig med finjustering. Det er mulig at OpenAI fører alle bak lyset, men i så fall gir ikke denne artikkelen bevis for det. Likevel, en fascinerende studie av de utilsiktede konsekvensene av modelloppdateringer.
- Arvind Narayanan (@random_walker) 19. juli 2023
Narayanan konkluderte: "Kort sagt, alt i artikkelen stemmer overens med finjustering. Det er mulig at OpenAI fører alle bak lyset ved å benekte at de har redusert ytelsen for å spare kostnader - men i så fall gir ikke denne artikkelen bevis for det. Det er likevel en fascinerende studie av de utilsiktede konsekvensene av modelloppdateringer."
Etter å ha diskutert artikkelen i en serie tweets, satte Narayanan og en kollega, Sayash Kapoor, seg for å undersøke artikkelen nærmere i en Blogginnlegg fra Substack.
I et nytt blogginnlegg, @random_walker og jeg undersøker artikkelen som antyder en nedgang i GPT-4s ytelse.
Den opprinnelige artikkelen testet primalitet kun på primtall. Vi evaluerer på nytt ved å bruke primtall og kompositter, og analysen vår viser en annen historie. https://t.co/p4Xdg4q1ot
- Sayash Kapoor (@sayashk) 19. juli 2023
De sier at modellenes oppførsel endrer seg over tid, ikke deres evner.
De hevder dessuten at valget av oppgaver ikke var egnet til å undersøke atferdsendringer på en nøyaktig måte, noe som gjør det uklart hvor godt funnene kan generaliseres til andre oppgaver.
De er imidlertid enige om at endringer i atferd utgjør et alvorlig problem for alle som utvikler applikasjoner med GPT API. Endringer i atferd kan forstyrre etablerte arbeidsflyter og spørrestrategier - hvis den underliggende modellen endrer atferd, kan det føre til at applikasjonen ikke fungerer som den skal.
De konkluderer med at selv om artikkelen ikke gir robuste bevis for degradering i GPT-4, gir den en verdifull påminnelse om de potensielle utilsiktede effektene av LLM-enes regelmessige finjustering, inkludert atferdsendringer på visse oppgaver.
Andre er uenige i at GPT-4 definitivt har blitt verre. AI-forsker Simon Willison uttalte: "Jeg synes ikke det er særlig overbevisende", "For meg ser det ut som om de har kjørt temperatur 0,1 for alt."
Han legger til: "Det gjør resultatene litt mer deterministiske, men det er svært få virkelige prompter som kjøres ved den temperaturen, så jeg tror ikke det forteller oss så mye om hvordan modellene kan brukes i den virkelige verden."
Mer makt til åpen kildekode
Bare det at denne debatten eksisterer, viser et grunnleggende problem: proprietære modeller er svarte bokser, og utviklerne må bli flinkere til å forklare hva som skjer på innsiden av boksen.
AIs "black box"-problem beskriver et system der bare inngangene og utgangene er synlige, og "tingene" inne i boksen er usynlige for den eksterne betrakteren.
Sannsynligvis er det bare noen få utvalgte personer i OpenAI som forstår nøyaktig hvordan GPT-4 fungerer - og selv de kjenner sannsynligvis ikke hele omfanget av hvordan finjusteringen påvirker modellen over tid.
OpenAIs blogginnlegg er vagt, og sier: "Selv om de fleste beregningene har blitt bedre, kan det være noen oppgaver der ytelsen blir dårligere." Igjen er det opp til fellesskapet å finne ut hva "flertallet" og "noen oppgaver" er.
Kjernen i problemet er at bedrifter som betaler for AI-modeller, trenger sikkerhet, noe OpenAI sliter med å levere.
En mulig løsning er åpen kildekode-modeller som Metas nye Lama 2. Modeller med åpen kildekode gjør det mulig for forskere å arbeide ut fra samme utgangspunkt og levere repeterbare resultater over tid uten at utviklerne uventet bytter ut modeller eller trekker tilbake tilgangen.
AI-forsker Dr. Sasha Luccioni fra Hugging Face mener også at OpenAIs mangel på åpenhet er problematisk. "Alle resultater fra modeller med lukket kildekode kan ikke reproduseres eller etterprøves, og fra et vitenskapelig perspektiv sammenligner vi derfor vaskebjørner og ekorn", sier hun.
"Det er ikke forskernes ansvar å kontinuerlig overvåke utplasserte LLM-er. Det er modellskaperne som må gi tilgang til de underliggende modellene, i det minste for revisjonsformål."
Luccioni understreker behovet for standardiserte referanser for å gjøre det enklere å sammenligne ulike versjoner av samme modell.
Hun foreslo at utviklere av AI-modeller bør legge frem rå resultater, ikke bare overordnede beregninger, fra vanlige benchmarks som SuperGLUE og WikiText, samt bias-benchmarks som BOLD og HONEST.
Willison er enig med Luccioni, og legger til: "Ærlig talt, mangelen på utgivelsesnotater og åpenhet er kanskje den største historien her. Hvordan skal vi kunne bygge pålitelig programvare på toppen av en plattform som endres på fullstendig udokumenterte og mystiske måter med noen måneders mellomrom?"
Selv om AI-utviklere er raske til å hevde at teknologien er i konstant utvikling, understreker dette debaclet at en viss tilbakegang, i det minste på kort sikt, er uunngåelig.
Debattene rundt AI-modeller i svarte bokser og manglende åpenhet øker oppmerksomheten rundt åpen kildekode-modeller som Llama 2.
Big tech har allerede innrømmet at de er taper terreng til open source-fellesskapetog selv om regulering kan utjevne oddsen, gjør uforutsigbarheten ved proprietære modeller det bare mer attraktivt å velge alternativer med åpen kildekode.