Sedan lanseringen av GPT-4 Turbo, OpenAI:s senaste iteration av sin språkmodell, har AI-communityt varit fyllt av blandade reaktioner.
OpenAI framställde GPT-4 Turbo som en mer kapabel och effektiv version av sin föregångare, men anekdotiska bevis från användare tyder på en varierad upplevelse, särskilt inom områden som kräver resonemang på hög nivå och programmeringsförmåga.
Konkreta bevis från benchmarkingtester har bara börjat dyka upp.
I ett oberoende jämförelsetest utvärderade en användare GPT-4 Turbo mot GPT-4 och GPT-3.5 med hjälp av avsnitt från ett officiellt SAT-läsningsprov 2008-2009.
Resultaten visade på en anmärkningsvärd skillnad i prestanda:
- GPT-3.5 fick 690 poäng, med 10 felaktiga svar.
- GPT-4 fick 770 poäng, med endast 3 felaktiga svar.
- GPT-4 Turbo, som testades i två lägen, fick 740 (5 fel) respektive 730 (6 fel) poäng.
OpenAI hävdar att GPT4-turbo är "bättre" än GPT4, men jag gjorde mina egna tester och tror inte att det är sant.
Jag benchmarkade på SAT-läsning, vilket är en trevlig mänsklig referens för resonemangsförmåga. Tog 3 avsnitt (67 frågor) från ett officiellt 2008-2009-test (2400 skala) och fick ... pic.twitter.com/LzIYS3R9ny
- Jeffrey Wang (@wangzjeff) 7 november 2023
Andra tidiga riktmärken säger annorlunda
En annan preliminär test-benchmarking genomfördes för att bedöma kodredigeringsförmågan i den nya versionen, med hjälp av Aider, ett kommandoradsverktyg med öppen källkod som är utformat för AI-assisterad kodredigering.
Det visade sig att GPT-4 Turbo (GPT-4-1106) uppvisar bättre prestanda i kodningsuppgifter, vilket naturligtvis är en annan uppgift än det naturliga språktestet ovan.
I jämförelsetestet användes Aider för att underlätta interaktionen mellan användaren och GPT-4-modellen vid kodredigering i lokala git-arkiv. Testet innebar att 133 Exercism Python-kodningsövningar slutfördes, vilket gav en strukturerad och kvantitativ bedömning av modellens kodredigeringseffektivitet och noggrannhet.
Processen var strukturerad i två faser:
- Aider försåg GPT-4-modellen med den ursprungliga kodfilen som innehöll funktionsstubbar och problembeskrivningar på naturligt språk. Modellens första svar användes direkt för att redigera koden.
- Om koden inte klarade testsviten presenterade Aider modellen med testets felutdata och bad den att korrigera koden.
GPT-4-1106-Granska resultat
- Förbättrad hastighet: GPT-4-1106-preview-modellen visade en märkbar ökning av bearbetningshastigheten jämfört med sina föregångare.
- Noggrannhet vid första försöket: Modellen visade en framgångsgrad på 53% när det gäller att lösa övningarna korrekt på första försöket, vilket är en förbättring jämfört med framgångsgraden på 46-47% i tidigare GPT-4-versioner.
- Prestanda efter korrigeringar: Efter att ha fått en andra chans att korrigera koden baserat på fel i testsviten, uppnådde den nya modellen en liknande prestandanivå (~62%) som de äldre GPT-4-modellerna, med framgångsgrader på cirka 63 till 64%.
Användarupplevelser vid programmeringsuppgifter
Utvecklare som använder GPT-4 Turbo för kodningsrelaterade uppgifter har rapporterat blandade erfarenheter.
En mängd olika användare över X och Reddit har noterat en nedgång i modellens förmåga att följa instruktioner exakt eller behålla sammanhanget effektivt i programmeringsscenarier. Vissa återgick till att använda GPT-4 efter att ha mött utmaningar med den nya modellen.
En användare uttryckte frustration på Reddit och sa: "Ja, det är ganska illa. Jag kör GPT-4 på vissa skript och håller provtest för att säkerställa att det fungerar på samma sätt. Alla dessa tester misslyckades med den nya GPT-4-previewen, och jag var tvungen att återgå till den gamla. Det kan inte resonera ordentligt."
En annan kommenterade: "Det är vansinnigt vad en del av svaren är, det får mig att vilja säga upp min prenumeration."
Anekdoterna är nästan oändliga, en annan säger: "Jag klistrade in 100 eller så rader kod och frågade den bara några ganska grundläggande saker. Koden som den skickade tillbaka till mig var helt annorlunda än vad jag just hade visat den, och nästan helt fel. Jag har aldrig sett den hallucinera så här illa."
Tyvärr har jag märkt några tydliga bakslag i GPT-4 Turbo jämfört med GPT-4,
särskilt när det gäller att följa instruktioner.
Jag är inte den enda i samhället som känner så här.
Har inte testat i detalj, men hoppas att ni noterar och förbättrar.
Annars är det en stor besvikelse.- Augusdin (@augusdin) 12 november 2023
Trots användarnas rapporter har OpenAI betonat framstegen inom GPT-4 Turbooch lyfte fram den förlängda kunskapsfristen till april 2023 och ett utökat kontextfönster som kan hantera över 300 sidor text.
OpenAI noterade också att modellens prestanda har optimerats, vilket gör den mer kostnadseffektiv. Detaljerna om de specifika optimeringsteknikerna och deras inverkan på modellens kapacitet är dock fortfarande begränsade.
OpenAI:s VD Sam Altman meddelade att Turbo hade redigerats idag och bad användarna att prova modellen igen och medgav att det finns problem.
Bolaget mötte liknande kritik kring versioner av GPT-4, som tycktes ha minskad prestanda sedan lanseringen.
OpenAI möter kritik kring censur
ChatGPT, som utvecklats av OpenAI, har granskats för sin hantering av censur och potentiell politisk partiskhet.
Kritiker menar att modellen ibland uppvisar en tendens att undvika eller vinkla specifika ämnen, särskilt sådana som anses vara politiskt känsliga eller kontroversiella.
Detta beteende tillskrivs ofta utbildningsdata och de modereringsriktlinjer som formar AI:s svar.
Dessa riktlinjer syftar till att förhindra spridning av felaktig information, hatpropaganda och partiskt innehåll, men vissa användare anser att detta tillvägagångssätt leder till överkorrigering, vilket resulterar i upplevd censur eller partiskhet i AI:ns svar.
I motsats till detta, xAI:s Grok har uppmärksammats för sin till synes mindre restriktiva inställning till innehållsmoderering.
Användare av Grok har observerat att plattformen verkar mer villig att engagera sig i ett bredare spektrum av ämnen, inklusive de som kan filtreras eller hanteras mer försiktigt av ChatGPT.
Grok, som drivs av Elon Musks häftiga upptåg, har setts som att "sätta svärdet" mot "woke AI", som ChatGPT är ett flaggskepp för.
Sammanfattningsvis är benchmarktester av GPT-4 Turbos prestanda extremt begränsade just nu, och det är problematiskt att förlita sig på anekdotiska rapporter.
OpenAI:s ökande framgångar har gjort att företaget hamnat i skottgluggen, särskilt i och med lanseringen av xAI:s Grok och dess motstånd mot "woke AI".
Att få en objektiv bild av GPT-4 Turbos prestanda är exceptionellt svårt för tillfället, men debatten om huruvida ChatGPT:s resultat verkligen förbättras kommer att fortsätta.