Brukerne gir GPT-4 Turbo en kjølig mottakelse

12. november 2023

GPT-4 Turbo

Siden lanseringen av GPT-4 Turbo, OpenAIs nyeste iterasjon av språkmodellen, har AI-miljøet vært preget av blandede reaksjoner. 

Selv om OpenAI fremhevet GPT-4 Turbo som en mer kapabel og effektiv versjon av forgjengeren, tyder anekdotiske bevis fra brukerne på en variert opplevelse, særlig på områder som krever resonnering på høyt nivå og programmeringsevner.

Konkrete bevis fra referansetester har bare så vidt begynt å dukke opp. 

I en uavhengig referansetest evaluerte en bruker GPT-4 Turbo opp mot GPT-4 og GPT-3.5 ved hjelp av deler fra en offisiell SAT-lesetest fra 2008-2009.

Resultatene viste en merkbar forskjell i ytelse:

  • GPT-3.5 fikk 690 poeng, med 10 feil svar.
  • GPT-4 fikk 770 poeng, med bare tre feil svar.
  • GPT-4 Turbo, som ble testet i to moduser, fikk henholdsvis 740 (5 feil) og 730 (6 feil).

Andre tidlige benchmarks sier noe annet

En annen innledende test ble gjennomført for å vurdere koderedigeringsferdighetene til denne nye versjonen, bruker Aider, et kommandolinjeverktøy med åpen kildekode som er utviklet for AI-assistert kodedigering.

Den viste at GPT-4 Turbo (GPT-4-1106) gir bedre resultater i kodingsoppgaver, som selvsagt er en annen oppgave enn den naturlige språktesten ovenfor.

Referansetesten brukte Aider for å legge til rette for interaksjon mellom brukeren og GPT-4-modellen for redigering av kode i lokale git-arkiver. Testen omfattet 133 Exercism Python-kodingsøvelser, noe som ga en strukturert og kvantitativ vurdering av modellens effektivitet og nøyaktighet når det gjaldt å redigere kode.

Prosessen var strukturert i to faser:

  1. Aider forsynte GPT-4-modellen med den opprinnelige kodefilen som inneholdt funksjonsstubber og problembeskrivelser i naturlig språk. Modellens første respons ble brukt direkte til å redigere koden.
  2. Hvis koden ikke besto testen, presenterte Aider modellen for testfeilene og ba den om å fikse koden.

GPT-4-1106-Resultater fra forhåndsvisning

  • Forbedring av hastigheten: GPT-4-1106-preview-modellen viste en merkbar økning i prosesseringshastighet sammenlignet med sine forgjengere.
  • Nøyaktighet ved første forsøk: Modellen viste en suksessrate på 53% når det gjaldt å løse oppgavene på første forsøk, noe som er en forbedring i forhold til suksessraten på 46 til 47% i tidligere GPT-4-versjoner.
  • Ytelse etter korrigeringer: Etter å ha fått en ny sjanse til å korrigere koden basert på feil i testpakken, oppnådde den nye modellen et ytelsesnivå (~62%) som ligner på de eldre GPT-4-modellene, med suksessrater på rundt 63 til 64%. 

Brukeropplevelser i programmeringsoppgaver

Utviklere som bruker GPT-4 Turbo til kodingsrelaterte oppgaver, har rapportert om blandede erfaringer.

En rekke brukere på tvers av X og Reddit har bemerket en nedgang i modellens evne til å følge instruksjoner nøyaktig eller beholde kontekst effektivt i programmeringsscenarier. Noen har gått tilbake til å bruke GPT-4 etter å ha møtt utfordringer med den nye modellen.

En bruker uttrykte frustrasjon på Reddit og sa: "Ja, det er ganske ille. Jeg kjører GPT-4 på noen skript og holder prøvetester for å sikre at det fungerer på samme måte. Alle disse testene mislyktes med den nye GPT-4-preview, og jeg måtte gå tilbake til den gamle. Den kan ikke resonnere ordentlig."

En annen bemerket: "Det er helt vanvittig hva noen av svarene er, det får meg til å ville si opp abonnementet mitt."

Anekdotene er nesten uendelige, en annen sier: "Jeg limte inn 100 eller så linjer med kode og spurte den bare om noen ganske grunnleggende ting. Koden den sendte tilbake til meg var helt annerledes enn det jeg nettopp hadde vist den, og nesten helt feil. Jeg har aldri sett den hallusinere så mye."

Til tross for brukerrapporter har OpenAI lagt vekt på fremskrittene innen GPT-4 Turboog fremhever den utvidede kunnskapsgrensen til april 2023 og et økt kontekstvindu som kan håndtere over 300 sider med tekst. 

OpenAI bemerket også at modellens ytelse er optimalisert, noe som gjør den mer kostnadseffektiv. Det er imidlertid fortsatt begrenset med detaljer om de spesifikke optimaliseringsteknikkene og deres innvirkning på modellens kapasitet.

OpenAIs administrerende direktør Sam Altman kunngjorde at Turbo hadde blitt redigert i dag, og ba brukerne om å prøve modellen igjen, og innrømmet at det er problemer.

Selskapet møtte lignende kritikk rundt versjoner av GPT-4, som så ut til å fall i ytelse siden lanseringen

OpenAI møter kritikk rundt sensur

ChatGPT, som er utviklet av OpenAI, har blitt gransket for sin håndtering av sensur og potensiell politisk partiskhet. 

Kritikerne hevder at modellen noen ganger har en tendens til å unngå eller forvrenge bestemte temaer, særlig de som anses som politisk følsomme eller kontroversielle. 

Denne oppførselen tilskrives ofte opplæringsdataene og modereringsretningslinjene som former AI-responsene. 

Disse retningslinjene har som mål å forhindre spredning av feilinformasjon, hatefulle ytringer og tendensiøst innhold, men noen brukere mener at denne tilnærmingen fører til overkorrigering, noe som kan føre til at den kunstige intelligensen oppleves som sensurert eller partisk i sine svar.

I motsetning til dette, xAI's Grok har blitt lagt merke til for sin tilsynelatende mindre restriktive tilnærming til innholdsmoderering. 

Brukere av Grok har observert at plattformen virker mer villig til å engasjere seg i et bredere spekter av temaer, inkludert temaer som kanskje blir filtrert eller håndtert mer forsiktig av ChatGPT. 

Grok, som er drevet av Elon Musks temperamentsfulle krumspring, har blitt sett på som "å sette sverdet" mot "woke AI", som ChatGPT er et flaggskip for. 

For å oppsummere er referansetester av ytelsen til GPT-4 Turbo ekstremt begrenset akkurat nå, og det er problematisk å basere seg på anekdotiske rapporter.

OpenAIs økende suksess har satt selskapet i søkelyset, særlig med lanseringen av xAIs Grok og motstanden mot "woke AI". 

Det er foreløpig svært vanskelig å få et objektivt syn på GPT-4 Turbos ytelse, men debatten om hvorvidt ChatGPTs resultater virkelig blir bedre, vil fortsette. 

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Sam Jeans

Sam er en vitenskaps- og teknologiskribent som har jobbet i ulike oppstartsbedrifter innen kunstig intelligens. Når han ikke skriver, leser han medisinske tidsskrifter eller graver seg gjennom esker med vinylplater.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser