Microsoft skuggar Gemini med GPT-4 som förstärks av Medprompt

16 december 2023

Tidigare den här månaden kunde Google stolt meddela att deras mest kraftfulla Gemini-modell slog GPT-4 i Massive Multitask Language Understanding MMLU benchmark-test. Microsofts nya prompting-teknik gör att GPT-4 återtar förstaplatsen, om än med en bråkdel av en procent.

Förutom dramatiken kring marknadsföringsvideon är Googles Gemini en stor sak för företaget och dess MMLU-benchmarkresultat är imponerande. Men Microsoft, OpenAI:s största investerare, väntade inte länge med att kasta skugga över Googles ansträngningar.

Rubriken är att Microsoft fick GPT-4 att slå Gemini Ultras MMLU-resultat. Verkligheten är att det slog Geminis resultat på 90,04% med bara 0,06%.

Bakgrundshistorien om vad som gjorde detta möjligt är mer spännande än det inkrementella överlägsenhet som vi ser på dessa topplistor. Microsofts nya prompttekniker kan öka prestandan hos äldre AI-modeller.

Medprompt

När man talar om att "styra" en modell menar man bara att man med försiktiga uppmaningar kan styra en modell så att den ger ett resultat som är bättre anpassat till det man ville ha.

Microsoft utvecklade en kombination av prompttekniker som visade sig vara riktigt bra på detta. Medprompt startade som ett projekt för att få GPT-4 att ge bättre svar på medicinska utmaningsriktmärken som MultiMedQA-testsviten.

Medprompt förbättrar MedQA:s testprestanda. Microsoft

Microsoft-forskarna tänkte att om Medprompt fungerade bra i specialiserade medicinska tester skulle det också kunna förbättra GPT-4:s generalistiska prestanda. Och därmed återfick Microsoft och OpenAI skryträttigheterna med GPT-4 över Gemini Ultra.

Hur fungerar Medprompt?

Medprompt är en kombination av smarta prompttekniker i ett och samma program. Den bygger på tre huvudtekniker.

Dynamisk inlärning av få skott (DFSL)

"Few-shot learning" innebär att man ger GPT-4 några exempel innan man ber den att lösa ett liknande problem. När du ser en referens som "5-shot" betyder det att modellen fick 5 exempel. "Zero-shot" betyder att den var tvungen att svara utan några exempel.

I Medprompt-dokumentet förklaras att "för enkelhetens och effektivitetens skull är de få exempel som används för att uppmana till en viss uppgift vanligtvis fasta; de är oförändrade i alla testexempel."

Resultatet blir att de exempel som modellerna presenteras med ofta bara är relevanta eller representativa i stora drag.

Om din träningsuppsättning är tillräckligt stor kan du få modellen att titta igenom alla exempel och välja de som är semantiskt lika det problem som den måste lösa. Resultatet är att de få inlärningsexemplen är mer specifikt inriktade på ett visst problem.

Självgenererad tankekedja (CoT)

Chain of Thought (CoT) är ett utmärkt sätt att styra en LLM. När du uppmanar dem att "tänka efter noga" eller "lösa det steg för steg" blir resultaten mycket bättre.

Du kan bli mycket mer specifik i ditt sätt att styra tankekedjan som modellen ska följa, men det kräver manuell prompt engineering.

Forskarna fann att de "helt enkelt kunde be GPT-4 att generera tankekedjor för träningsexemplen". Deras tillvägagångssätt säger i princip till GPT-4: "Här är en fråga, svarsalternativen och det rätta svaret. Vilken CoT ska vi inkludera i en prompt som skulle komma fram till det här svaret?

Val Shuffle Ensembling

De flesta av MMLU:s riktmärkestester är flervalsfrågor. När en AI-modell svarar på dessa frågor kan den bli offer för positionell partiskhet. Med andra ord kan den gynna alternativ B över tid även om det inte alltid är rätt svar.

Choice Shuffle Ensembling blandar om svarsalternativens positioner och låter GPT-4 svara på frågan igen. Detta görs flera gånger och sedan väljs det mest konsekvent valda svaret som det slutliga svaret.

Kombinationen av dessa tre snabba tekniker är vad som gav Microsoft möjlighet att kasta lite skugga på Geminis resultat. Det kommer att bli intressant att se vilka resultat Gemini Ultra skulle uppnå om det använde ett liknande tillvägagångssätt.

Medprompt är spännande eftersom det visar att äldre modeller kan prestera ännu bättre än vi trodde om vi uppmanar dem på smarta sätt. Den extra processorkraft som krävs för dessa extra steg kanske dock inte gör det till ett genomförbart tillvägagångssätt i de flesta scenarier.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Eugene van der Watt

Eugene kommer från en bakgrund som elektronikingenjör och älskar allt som har med teknik att göra. När han tar en paus från att konsumera AI-nyheter hittar du honom vid snookerbordet.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar