Gebruikers geven de prestaties van de GPT-4 Turbo een ijzige ontvangst

12 november 2023

GPT-4 Turbo

Sinds de recente lancering van GPT-4 Turbo, OpenAI's nieuwste iteratie van zijn taalmodel, gonst het in de AI-gemeenschap van de gemengde reacties. 

Hoewel OpenAI GPT-4 Turbo aanprijst als een bekwamere en efficiëntere versie van zijn voorganger, wijst anekdotisch bewijs van gebruikers op een gevarieerde ervaring, vooral op gebieden die high-level redeneren en programmeervaardigheden vereisen.

Concrete bewijzen uit benchmarktests beginnen nog maar net boven water te komen. 

In een onafhankelijke benchmarktest evalueerde een gebruiker GPT-4 Turbo tegen GPT-4 en GPT-3.5 aan de hand van secties uit een officiële SAT-leestest van 2008-2009.

De resultaten wezen op een opmerkelijk verschil in prestaties:

  • GPT-3.5 scoorde 690, met 10 foute antwoorden.
  • GPT-4 scoorde 770, met slechts 3 foute antwoorden.
  • GPT-4 Turbo, getest in twee modi, scoorde respectievelijk 740 (5 fout) en 730 (6 fout).

Andere vroege benchmarks zeggen iets anders

Er werd nog een voorafgaande testbenchmarking uitgevoerd om de codebewerkingsvaardigheden van deze nieuwe versie te beoordelen, met behulp van Aider, een open-source commandoregeltool ontworpen voor AI-ondersteunde codebewerking.

GPT-4 Turbo (GPT-4-1106) bleek beter te presteren in coderingstaken, wat natuurlijk een andere taak is dan de natuurlijke taaltest hierboven.

De benchmark gebruikte Aider om interacties tussen de gebruiker en het GPT-4 model te faciliteren voor het bewerken van code in lokale git repositories. De test bestond uit het voltooien van 133 Python-coderingsoefeningen, waarmee een gestructureerde en kwantitatieve beoordeling werd gegeven van de efficiëntie en nauwkeurigheid van het bewerken van code door het model.

Het proces bestond uit twee fasen:

  1. Aider voorzag het GPT-4 model van het initiële codebestand met functiestubs en probleembeschrijvingen in natuurlijke taal. De eerste reactie van het model werd direct toegepast om de code te bewerken.
  2. Als de code niet slaagde voor de testsuite, presenteerde Aider de foutuitvoer van de test aan het model met de vraag om de code te corrigeren.

GPT-4-1106-Voorbeeld resultaten

  • Snelheidsverbetering: Het GPT-4-1106-previewmodel liet een duidelijke toename in verwerkingssnelheid zien vergeleken met zijn voorgangers.
  • Nauwkeurigheid eerste poging: Het model toonde een slagingspercentage van 53% in het correct oplossen van de oefeningen bij de eerste poging, wat een verbetering is ten opzichte van het slagingspercentage van 46 tot 47% van eerdere GPT-4-versies.
  • Prestaties na correcties: Na een tweede kans te hebben gekregen om de code te corrigeren op basis van fouten in de testsuite, bereikte het nieuwe model een vergelijkbaar prestatieniveau (~62%) als de oudere GPT-4 modellen, met succespercentages van ongeveer 63 tot 64%. 

Gebruikerservaringen bij programmeertaken

Ontwikkelaars die GPT-4 Turbo gebruiken voor coderingstaken hebben gemengde ervaringen gerapporteerd.

Verschillende gebruikers op X en Reddit hebben opgemerkt dat het model minder goed instructies kan opvolgen of de context niet goed kan vasthouden in programmeringsscenario's. Sommige gebruikers zijn teruggekeerd naar GPT-4 nadat ze problemen hadden ondervonden met het nieuwe model. Sommigen zijn teruggekeerd naar GPT-4 nadat ze problemen hadden ondervonden met het nieuwe model.

Een gebruiker uitte zijn frustratie op Reddit door te zeggen: "Ja, het is behoorlijk slecht. Ik voer GPT-4 uit op een aantal scripts en houd voorbeeldtests om er zeker van te zijn dat het hetzelfde presteert. Al die tests mislukten met de nieuwe GPT-4-preview en ik moest terug naar de oude. Het kan niet goed redeneren."

Een ander merkte op: "Het is krankzinnig wat sommige reacties zijn, het zorgt ervoor dat ik mijn abonnement wil opzeggen."

De anekdotes zijn bijna eindeloos, een ander zegt: "Ik plakte een stuk of 100 regels code en vroeg het gewoon wat simpele dingen. De code die het terugstuurde was compleet anders dan wat ik het net had laten zien, en bijna helemaal fout. Ik heb het nog nooit zo erg zien hallucineren."

Ondanks gebruikersrapporten heeft OpenAI de nadruk gelegd op de vooruitgang in GPT-4 Turbomet de nadruk op de kennisuitbreiding tot april 2023 en een groter contextvenster dat meer dan 300 pagina's tekst aankan. 

OpenAI wees ook op de geoptimaliseerde prestaties van het model, waardoor het kosteneffectiever is. Details over de specifieke optimalisatietechnieken en hun impact op de mogelijkheden van het model blijven echter beperkt.

OpenAI CEO Sam Altman kondigde vandaag aan dat Turbo was aangepast en vroeg gebruikers om het model opnieuw te proberen, waarbij hij toegaf dat er problemen waren.

Het bedrijf werd geconfronteerd met soortgelijke kritiek op versies van GPT-4, die leken te prestatiedaling sinds de release

OpenAI krijgt te maken met kritiek rond censuur

ChatGPT, ontwikkeld door OpenAI, is kritisch bekeken vanwege de manier waarop het omgaat met censuur en mogelijke politieke vooringenomenheid. 

Critici beweren dat het model soms de neiging vertoont om specifieke onderwerpen te vermijden of scheef te trekken, vooral onderwerpen die als politiek gevoelig of controversieel worden beschouwd. 

Dit gedrag wordt vaak toegeschreven aan de trainingsgegevens en de moderatierichtlijnen die de AI-respons vormen. 

Deze richtlijnen zijn bedoeld om de verspreiding van verkeerde informatie, haatzaaiende taal en bevooroordeelde inhoud te voorkomen, maar sommige gebruikers hebben het gevoel dat deze aanpak leidt tot overcorrectie, wat resulteert in vermeende censuur of vooringenomenheid in de reacties van de AI.

In tegenstelling, xAI's Grok staat bekend om zijn schijnbaar minder restrictieve benadering van inhoudsmoderatie. 

Gebruikers van Grok hebben gemerkt dat het platform meer bereid lijkt om zich bezig te houden met een breder scala aan onderwerpen, waaronder onderwerpen die mogelijk worden gefilterd of voorzichtiger worden behandeld door ChatGPT. 

Grok, aangewakkerd door de pittige capriolen van Elon Musk, wordt gezien als "het zwaard" tegen "woke AI", waarvoor ChatGPT een vlaggenschip is. 

Samenvattend zijn benchmarktests voor de prestaties van GPT-4 Turbo op dit moment zeer beperkt en is vertrouwen op anekdotische rapporten problematisch.

Het toenemende succes van OpenAI heeft het bedrijf stevig in het vizier van mensen gebracht, vooral met de release van xAI's Grok en de weerstand tegen 'woke AI'. 

Een objectief beeld krijgen van de prestaties van GPT-4 Turbo is op dit moment uitzonderlijk moeilijk, maar het debat over de vraag of de prestaties van ChatGPT echt beter worden, zal blijven bestaan. 

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Sam Jeans

Sam is een wetenschap- en technologieschrijver die bij verschillende AI-startups heeft gewerkt. Als hij niet aan het schrijven is, leest hij medische tijdschriften of graaft hij door dozen met vinylplaten.

×

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden