Anthropic udgiver Claude 3, som slår GPT-4 i benchmarks

5. marts 2024

Den San Francisco-baserede AI-startup Anthropic har udgivet sin seneste LLM med sin familie af Claude 3-modeller.

Claude 3 findes i tre varianter: Haiku, Sonnet og Opus. For de mindre poetiske blandt os betyder det small, medium og large. Claude 3 Opus er Anthropics mest avancerede model og er den første i branchen, der hævder at slå OpenAI's GPT-4 i en lang række benchmarks.

GPT-4 har været guldstandarden, som AI-virksomheder længe har brugt til at sammenligne deres LLM-performance. I disse sammenligninger blev der ofte brugt ord som "nærmer sig" eller "næsten", men Anthropic kan endelig hævde at overgå GPT-4's kapacitet.

Her er benchmarktallene for Claude 3 sammenlignet med GPT-4, GPT-3 og Gemini Ultra og Pro.

Claude 3-benchmarktal sammenlignet med GPT-4, GPT-3.5, Gemini Ultra og Gemini Pro. kilde: Anthropic

Det er værd at bemærke, at GPT-4-tallene ovenfor er dem, som OpenAI leverede i sin tekniske rapport, før GPT-4 blev udgivet. De Claude 3 modelkort anerkender, at der er rapporteret om højere score for GPT-4 Turbo.

Alligevel er Claude 3 Opus-figurerne en stor sag. På trods af de uundgåelige diskussioner om, hvordan virksomheden kom frem til disse tal, siger Anthropic, at Claude 3 Opus repræsenterer "højere intelligens end nogen anden tilgængelig model".

Claude 3 Opus input/output API-omkostninger vil koste dig $15 / $75 pr. million tokens. Det er meget sammenlignet med GPT-4 Turbo, som koster $10 / $30. Claude 3 Sonnet ($3 / $15) og Claude 3 Haiku ($0,25 / $1,25) giver virkelig god værdi, når man ser på præstationstallene for disse mindre modeller.

Hvis du vil prøve Claude 3 gratis, kan du gøre det på Anthropic's claude.ai chatbot, når serverne er kommet sig over trafikpresset. Den drives af Claude 3 Sonnet, hvor betalte Pro-brugere får adgang til Opus.

Claude 3-modellerne er ikke multimodale, men de har imponerende synsfunktioner. De kan ikke generere et billede for dig, men benchmarks viser, at Opus er god til at analysere fotos, diagrammer, grafer og tekniske diagrammer.

Claude 3's synsfunktioner sammenlignet med GPT-4V, Gemini Ultra og Gemini Pro. Kilde: Anthropic: Anthropic

Anthropic siger, at Claude 3-modellerne er i stand til at acceptere input på over 1 million tokens, men for de fleste brugere vil kontekstvinduet indtil videre være begrænset til 200k tokens. Det er stadig meget mere end GPT-4 Turbos 128k kontekst.

Et stort kontekstvindue er kun nyttigt, når det kombineres med god genkaldelse, og Anthropic hævder, at Opus leverer "næsten perfekt genkaldelse, der overgår 99%-nøjagtighed".

Der skete noget interessant under "nålen i høstakken"-hukommelsestesten af Claude 3 Opus. Da den blev stillet et spørgsmål, som kun kunne besvares, hvis den så den indsatte "nålesætning", viste den, at den forstod, at den blev testet. Imponerende og lidt skræmmende.

Claude 3 Opus opdagede, at den blev testet. Kilde: X

Anthropic er en stor fortaler for det, de kalder "Konstitutionel AI" som har til formål at forbedre sikkerheden og gennemsigtigheden i sine modeller. Med Claude 2Denne stræben efter sikkerhed resulterede i mange afvisninger af at reagere på opfordringer, som faktisk var harmløse.

Claude 3 er bedre til at forstå nuancerne i beskeder for bedre at kunne beslutte, hvad der er i strid med Anthropics sikkerhedsnet og hvad der ikke er. Claude 3 opnår også meget bedre nøjagtighed og reducerer hallucinationer sammenlignet med Claude 2.1.

Et eksempel på en forespørgsel, som Claude 2.1 nægter at besvare, mens Claude 3 anerkender den som sikker.

Nogle AI-pessimister hævder, at vi er på vej mod en AI-vinter, og at LLM-modellernes ydeevne er ved at nå et plateau, men Anthropic er uenig. Virksomheden siger, at den ikke tror på, at "modelintelligens er i nærheden af sine grænser."

Der er planer om flere interessante opgraderinger af Claude 3 i fremtiden med tilføjelse af mere avancerede agentiske funktioner, herunder Tool Use samt interaktiv kodning (REPL).

Den høje pris kan betyde, at det første marked for Claude 3 Opus bliver inden for mere nichepræget forskning eller professionelle applikationer. De priser og den ydeevne, som Sonnet og Haiku tilbyder, vil sandsynligvis være der, hvor den største udbredelse sker lige nu.

Vil vi se et prisfald fra OpenAI? Med OpenAI i toppen af benchmarks må vi være meget tæt på en GPT-5-annoncering.

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Eugene van der Watt

Eugene har en baggrund som elektronikingeniør og elsker alt, hvad der har med teknologi at gøre. Når han tager en pause fra at læse AI-nyheder, kan du finde ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser