Forskare upptäcker att Gemini inte ens kan slå GPT-3.5 Turbo

22 december 2023

När Google tillkännagav lanseringen av sina Gemini-modeller var det mycket spänning eftersom företaget sa att dessa var i nivå med erbjudanden från OpenAI. Det kanske inte är helt sant.

Google sa att dess Gemini Ultra modellen är bättre än GPT-4. Modellen har ännu inte släppts så vi får ta deras resultat från benchmarktesterna för vad de är. Gemini Pro har släppts och Google säger att den är i nivå med GPT-3.5.

Forskare från Carnegie Mellon University och AI-mjukvaruplattformen BerriAI lät Gemini Pro genomgå en rad uppgifter för att testa dess språkförståelse och genereringsförmåga.

De körde samma tester med GPT-3.5 Turbo, GPT-4 Turbo och Mistral AI:s nya Mixtral 8x7B modell.

Resultat

Föga förvånande vann GPT-4 men Google kommer att vara mindre spända på att se hur Gemini Pro stod sig mot GPT 3.5 Turbo. I en sammanfattning av teamets resultat, tidningen "Geminis Pro-modell uppnådde jämförbar men något sämre noggrannhet jämfört med den nuvarande versionen av OpenAI:s GPT 3.5 Turbo."

Här följer en sammanfattning av resultaten.

Jämförelse av modellpoäng för olika uppgifter. Källa: arXiv

Modellerna uppmanades att använda BerriAI:s LiteLLM-gränssnitt och varje modell fick exakt samma uppmaningar och utvärderingsprotokoll.

Modellerna testades på flervalsfrågor, allmänna resonemang, matematiska resonemang, kodgenerering, språköversättning och att fungera som en webbagent.

En av anledningarna till att Gemini Pro fick dåliga resultat i flervalsfrågorna är att den hade en stark positionsbias. Den valde ofta svaret i position D, oavsett om det var korrekt eller inte. Intressant nog är detta något som Microsofts Medprompt löses med shuffling.

Trots att Gemini Pro förlorade i några av testerna slog den GPT-3.5 Turbo på två områden, nämligen ordsortering och symbolmanipulation och översättning.

I alla de översättningsuppgifter som Gemini Pro slutförde överträffade den alla andra modeller, inklusive GPT-4. Gemini Pros slutpoäng på översättningstesterna blev dock lägre än GPT-3.5 eftersom den avböjde att slutföra vissa förfrågningar när dess övernitiska innehållsmodereringsskydd slog till.

Än sen?

Google bestrider de siffror som forskarna kom till och insisterar på att dess siffror visar att Gemini Pro är i nivå eller bättre än GPT-3.5. Om vi tillåter den myriad av variabler och skär Google lite slack, kan vi dela skillnaden och säga att Gemini Pro och GPT-3.5 är ganska mycket samma.

Det viktigaste här är att Gemini Pro, en helt ny modell som Google tillbringade månader på att utveckla, inte slår en modell som har funnits ute i mer än ett år och är gratis att använda via ChatGPT.

Gemini Ultra förväntas lanseras i början av 2024. Kommer den att leva upp till sitt påstående att vara bättre än GPT-4? Låt oss hoppas att professor Graham Neubig och hans team får köra liknande benchmarkingtester snart.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Eugene van der Watt

Eugene kommer från en bakgrund som elektronikingenjör och älskar allt som har med teknik att göra. När han tar en paus från att konsumera AI-nyheter hittar du honom vid snookerbordet.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar