Brugerne giver GPT-4 Turbos ydeevne en kølig modtagelse

12. november 2023

GPT-4 Turbo

Siden den nylige lancering af GPT-4 Turbo, OpenAI's seneste iteration af sin sprogmodel, har AI-samfundet været fyldt med blandede reaktioner. 

Mens OpenAI udråbte GPT-4 Turbo som en mere kompetent og effektiv version af sin forgænger, tyder anekdotiske beviser fra brugere på en varieret oplevelse, især inden for områder, der kræver ræsonnement på højt niveau og programmeringsevner.

Konkrete beviser fra benchmark-tests er kun lige begyndt at dukke op. 

I en uafhængig benchmark-test evaluerede en bruger GPT-4 Turbo i forhold til GPT-4 og GPT-3.5 ved hjælp af afsnit fra en officiel SAT-læseprøve fra 2008-2009.

Resultaterne viste en bemærkelsesværdig forskel i performance:

  • GPT-3.5 fik 690 point med 10 forkerte svar.
  • GPT-4 fik 770 point med kun 3 forkerte svar.
  • GPT-4 Turbo, der blev testet i to tilstande, scorede henholdsvis 740 (5 forkerte) og 730 (6 forkerte).

Andre tidlige benchmarks siger noget andet

Der blev gennemført endnu en indledende test-benchmarking for at vurdere den nye versions evner til at redigere kode, ved hjælp af Aideret open source-kommandolinjeværktøj, der er designet til AI-assisteret kodedigering.

Det viste sig, at GPT-4 Turbo (GPT-4-1106) udviser bedre præstationer i kodningsopgaver, hvilket naturligvis er en anden opgave end den naturlige sprogtest ovenfor.

Benchmarken anvendte Aider til at lette interaktionen mellem brugeren og GPT-4-modellen til redigering af kode i lokale git-arkiver. Testen involverede gennemførelse af 133 Exercism Python-kodningsøvelser, hvilket gav en struktureret og kvantitativ vurdering af modellens effektivitet og nøjagtighed i forbindelse med koderedigering.

Processen var struktureret i to faser:

  1. Aider forsynede GPT-4-modellen med den oprindelige kodefil, der indeholdt funktionsstubbe og problembeskrivelser på naturligt sprog. Modellens første svar blev anvendt direkte til at redigere koden.
  2. Hvis koden ikke bestod testsuiten, præsenterede Aider modellen for testens fejloutput og bad den om at rette koden.

GPT-4-1106-Fremvisning af resultater

  • Forbedring af hastigheden: GPT-4-1106-preview-modellen viste en mærkbar stigning i behandlingshastigheden i forhold til sine forgængere.
  • Nøjagtighed i første forsøg: Modellen viste en succesrate på 53% for korrekt løsning af opgaverne i første forsøg, hvilket er en forbedring i forhold til succesraten på 46-47% i tidligere GPT-4-versioner.
  • Ydeevne efter korrektioner: Efter at have fået endnu en chance for at rette koden baseret på fejl i testpakken, opnåede den nye model et lignende ydelsesniveau (~62%) som de ældre GPT-4-modeller, med succesrater på omkring 63 til 64%. 

Brugeroplevelser i programmeringsopgaver

Udviklere, der bruger GPT-4 Turbo til kodningsrelaterede opgaver, har rapporteret om blandede erfaringer.

En række brugere på tværs af X og Reddit har bemærket en nedgang i modellens evne til at følge instruktioner nøjagtigt eller fastholde kontekst effektivt i programmeringsscenarier. Nogle er vendt tilbage til at bruge GPT-4 efter at have oplevet udfordringer med den nye model.

En bruger udtrykte frustration på Reddit og sagde: "Ja, det er ret slemt. Jeg kører GPT-4 på nogle scripts og holder prøver for at sikre, at det fungerer på samme måde. Alle disse tests mislykkedes med den nye GPT-4-preview, og jeg var nødt til at gå tilbage til den gamle. Den kan ikke ræsonnere ordentligt."

En anden bemærkede: "Det er vanvittigt, hvad nogle af svarene er, det giver mig lyst til at opsige mit abonnement."

Anekdoterne er næsten uendelige, en anden siger: "Jeg indsatte omkring 100 kodelinjer og spurgte den bare om nogle ret grundlæggende ting. Den kode, den sendte tilbage til mig, var helt anderledes end det, jeg lige havde vist den, og næsten helt forkert. Jeg har aldrig set den hallucinere så meget."

På trods af brugerrapporter har OpenAI understreget fremskridtene i GPT-4 Turboog fremhæver den udvidede vidensgrænse til april 2023 og et øget kontekstvindue, der kan håndtere over 300 siders tekst. 

OpenAI bemærkede også modellens optimerede ydeevne, hvilket gør den mere omkostningseffektiv. Men detaljerne om de specifikke optimeringsteknikker og deres indvirkning på modellens evner er stadig begrænsede.

OpenAI's CEO Sam Altman meddelte, at Turbo var blevet redigeret i dag, og bad brugerne om at prøve modellen igen, idet han indrømmede, at der var problemer.

Virksomheden stod over for lignende kritik omkring versioner af GPT-4, som så ud til at fald i performance siden udgivelsen

OpenAI møder kritik omkring censur

ChatGPT, der er udviklet af OpenAI, er blevet gransket for sin håndtering af censur og potentiel politisk partiskhed. 

Kritikere hævder, at modellen nogle gange udviser en tendens til at undgå eller skævvride bestemte emner, især dem, der anses for at være politisk følsomme eller kontroversielle. 

Denne adfærd tilskrives ofte træningsdataene og moderationsretningslinjerne, der former AI-reaktioner. 

Disse retningslinjer har til formål at forhindre spredning af misinformation, hadefuld tale og forudindtaget indhold, men nogle brugere mener, at denne tilgang fører til overkorrektion, hvilket resulterer i opfattet censur eller forudindtagethed i AI'ens svar.

I modsætning hertil, xAI's Grok er blevet bemærket for sin tilsyneladende mindre restriktive tilgang til indholdsmoderation. 

Brugere af Grok har observeret, at platformen virker mere villig til at engagere sig i en bredere vifte af emner, herunder dem, der måske bliver filtreret eller håndteret mere forsigtigt af ChatGPT. 

Grok, der er drevet af Elon Musks temperamentsfulde narrestreger, er blevet betragtet som "at sætte sværdet" til "woke AI", som ChatGPT er et flagskib for. 

For at opsummere er benchmark-tests af GPT-4 Turbos ydeevne ekstremt begrænsede lige nu, og det er problematisk at stole på anekdotiske rapporter.

OpenAI's stigende succes har bragt virksomheden i folks søgelys, især med udgivelsen af xAI's Grok og dens modstand mod 'woke AI'. 

Det er usædvanligt svært at få et objektivt billede af GPT-4 Turbos præstationer lige nu, men debatten om, hvorvidt ChatGPT's resultater virkelig bliver bedre, vil fortsætte. 

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Sam Jeans

Sam er videnskabs- og teknologiforfatter og har arbejdet i forskellige AI-startups. Når han ikke skriver, kan han finde på at læse medicinske tidsskrifter eller grave i kasser med vinylplader.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser