Anthropic brengt Claude 3 uit die GPT-4 verslaat in benchmarks

5 maart 2024

Het in San Francisco gevestigde AI-bedrijf Anthropic heeft zijn nieuwste LLM uitgebracht met zijn familie van Claude 3-modellen.

Claude 3 is er in drie varianten: Haiku, Sonnet en Opus. Voor de minder poëtische onder ons, dat vertaalt zich naar klein, middelgroot en groot. Claude 3 Opus is Anthropic's meest geavanceerde model en is de eerste in de industrie die claimt OpenAI's GPT-4 te verslaan in een groot aantal benchmarks.

GPT-4 is lang de gouden standaard geweest die AI-bedrijven hebben gebruikt om hun LLM-prestaties te vergelijken. In die vergelijkingen werden vaak woorden gebruikt als "bijna" of "bijna", maar Anthropic kan eindelijk claimen dat het de mogelijkheden van GPT-4 overtreft.

Hier zijn de benchmarkcijfers voor Claude 3 vergeleken met GPT-4, GPT-3 en Gemini Ultra en Pro.

Claude 3 benchmarkcijfers vergeleken met GPT-4, GPT-3.5, Gemini Ultra en Gemini Pro. Bron: Antropisch

Het is de moeite waard om op te merken dat de GPT-4-cijfers hierboven de cijfers zijn die OpenAI in zijn technische rapport gaf voordat GPT-4 werd uitgebracht. De Claude 3 modelkaart erkent dat er hogere scores voor GPT-4 Turbo zijn gerapporteerd.

Toch zijn de Claude 3 Opus figuren een grote deal. Ondanks de onvermijdelijke ruzies over hoe het bedrijf aan deze cijfers is gekomen, zegt Anthropic dat Claude 3 Opus een "hogere intelligentie vertegenwoordigt dan elk ander model dat beschikbaar is".

De kosten van Claude 3 Opus input/output API bedragen $15 / $75 per miljoen tokens. Dat is veel vergeleken met GPT-4 Turbo, dat $10 / $30 kost. Claude 3 Sonnet ($3 / $15) en Claude 3 Haiku ($0.25 / $1.25) bieden echt goede waarde als je kijkt naar de prestatiecijfers voor deze kleinere modellen.

Als je Claude 3 gratis wilt proberen, kun je dat doen op Anthropic's claude.ai chatbot zodra de servers zijn hersteld van de drukte. Het wordt aangedreven door Claude 3 Sonnet, waarbij betaalde Pro-gebruikers toegang krijgen tot Opus.

Claude 3 modellen zijn niet multimodaal, maar ze hebben indrukwekkende zichtmogelijkheden. Ze kunnen geen beeld voor je genereren, maar de benchmarks geven aan dat Opus goed is in het analyseren van foto's, grafieken, diagrammen en technische diagrammen.

Claude 3 zichtmogelijkheden vergeleken met GPT-4V, Gemini Ultra en Gemini Pro. Bron: Antropisch

Anthropic zegt dat de Claude 3 modellen in staat zijn om invoer van meer dan 1 miljoen tokens te accepteren, maar voor de meeste gebruikers zal het contextvenster voorlopig beperkt blijven tot 200k tokens. Dat is nog steeds veel meer dan de 128k context van GPT-4 Turbo.

Een groot contextvenster is alleen nuttig als het gepaard gaat met een goede recall en Anthropic beweert dat Opus "bijna perfecte recall levert, met een nauwkeurigheid die 99% overtreft".

Er gebeurde iets interessants tijdens de "naald in hooiberg" terughaaltest van Claude 3 Opus. Toen er een vraag werd gesteld die alleen beantwoord kon worden als het de ingevoegde "naald"-zin herkende, gaf het aan dat het begreep dat het getest werd. Indrukwekkend en een beetje eng.

Claude 3 Opus realiseerde zich dat het werd getest. Bron: X

Anthropic is een groot voorstander van wat het noemt "Constitutionele AI" die de veiligheid en transparantie van haar modellen wil verbeteren. Met Claude 2Dit streven naar veiligheid resulteerde in veel weigeringen om te reageren op vragen die eigenlijk onschuldig waren.

Claude 3 is beter in het begrijpen van de nuance van aanwijzingen om beter te kunnen beslissen wat wel en niet onder de vangrails van Anthropic valt. Claude 3 bereikt ook een veel betere nauwkeurigheid en minder hallucinaties vergeleken met Claude 2.1.

Een voorbeeld van een prompt die Claude 2.1 weigert te beantwoorden terwijl Claude 3 het als veilig herkent.

Sommige AI-pessimisten beweren dat we afstevenen op een AI-winter en dat de prestaties van LLM-modellen een plateau bereiken, maar Anthropic is het daar niet mee eens. Het bedrijf zegt dat het niet gelooft dat "modelintelligentie ergens in de buurt van zijn limiet is".

Het is van plan om Claude 3 in de toekomst een aantal interessante upgrades te geven met de toevoeging van meer geavanceerde agentische mogelijkheden, waaronder Tool Use en interactief coderen (REPL).

Door de hoge prijs zal de initiële markt voor Claude 3 Opus wellicht meer gericht zijn op nicheonderzoek of professionele toepassingen. De prijzen en prestaties van Sonnet en Haiku zullen voorlopig waarschijnlijk de grootste adoptie opleveren.

Krijgen we een prijsdaling van OpenAI? Nu OpenAI het zwaar te verduren heeft in de top van de benchmarks, moeten we wel heel dicht in de buurt komen van een GPT-5 aankondiging.

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Eugene van der Watt

Eugene heeft een achtergrond in elektrotechniek en houdt van alles wat met techniek te maken heeft. Als hij even pauzeert van het consumeren van AI-nieuws, kun je hem aan de snookertafel vinden.

×

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden