Anthropic brengt Claude 3 uit die GPT-4 verslaat in benchmarks

Het in San Francisco gevestigde AI-bedrijf Anthropic heeft zijn nieuwste LLM uitgebracht met zijn familie van Claude 3-modellen.

Claude 3 is er in drie varianten: Haiku, Sonnet en Opus. Voor de minder poëtische onder ons, dat vertaalt zich naar klein, middelgroot en groot. Claude 3 Opus is Anthropic's meest geavanceerde model en is de eerste in de industrie die claimt OpenAI's GPT-4 te verslaan in een groot aantal benchmarks.

GPT-4 is lang de gouden standaard geweest die AI-bedrijven hebben gebruikt om hun LLM-prestaties te vergelijken. In die vergelijkingen werden vaak woorden gebruikt als "bijna" of "bijna", maar Anthropic kan eindelijk claimen dat het de mogelijkheden van GPT-4 overtreft.

Hier zijn de benchmarkcijfers voor Claude 3 vergeleken met GPT-4, GPT-3 en Gemini Ultra en Pro.

Claude 3 benchmarkcijfers vergeleken met GPT-4, GPT-3.5, Gemini Ultra en Gemini Pro. Bron: Antropisch

Het is de moeite waard om op te merken dat de GPT-4-cijfers hierboven de cijfers zijn die OpenAI in zijn technische rapport gaf voordat GPT-4 werd uitgebracht. De Claude 3 modelkaart erkent dat er hogere scores voor GPT-4 Turbo zijn gerapporteerd.

Toch zijn de Claude 3 Opus figuren een grote deal. Ondanks de onvermijdelijke ruzies over hoe het bedrijf aan deze cijfers is gekomen, zegt Anthropic dat Claude 3 Opus een "hogere intelligentie vertegenwoordigt dan elk ander model dat beschikbaar is".

De kosten van Claude 3 Opus input/output API bedragen $15 / $75 per miljoen tokens. Dat is veel vergeleken met GPT-4 Turbo, dat $10 / $30 kost. Claude 3 Sonnet ($3 / $15) en Claude 3 Haiku ($0.25 / $1.25) bieden echt goede waarde als je kijkt naar de prestatiecijfers voor deze kleinere modellen.

Als je Claude 3 gratis wilt proberen, kun je dat doen op Anthropic's claude.ai chatbot zodra de servers zijn hersteld van de drukte. Het wordt aangedreven door Claude 3 Sonnet, waarbij betaalde Pro-gebruikers toegang krijgen tot Opus.

Claude 3 modellen zijn niet multimodaal, maar ze hebben indrukwekkende zichtmogelijkheden. Ze kunnen geen beeld voor je genereren, maar de benchmarks geven aan dat Opus goed is in het analyseren van foto's, grafieken, diagrammen en technische diagrammen.

Claude 3 zichtmogelijkheden vergeleken met GPT-4V, Gemini Ultra en Gemini Pro. Bron: Antropisch

Anthropic zegt dat de Claude 3 modellen in staat zijn om invoer van meer dan 1 miljoen tokens te accepteren, maar voor de meeste gebruikers zal het contextvenster voorlopig beperkt blijven tot 200k tokens. Dat is nog steeds veel meer dan de 128k context van GPT-4 Turbo.

Een groot contextvenster is alleen nuttig als het gepaard gaat met een goede recall en Anthropic beweert dat Opus "bijna perfecte recall levert, met een nauwkeurigheid die 99% overtreft".

Er gebeurde iets interessants tijdens de "naald in hooiberg" terughaaltest van Claude 3 Opus. Toen er een vraag werd gesteld die alleen beantwoord kon worden als het de ingevoegde "naald"-zin herkende, gaf het aan dat het begreep dat het getest werd. Indrukwekkend en een beetje eng.

Claude 3 Opus realiseerde zich dat het werd getest. Bron: X

Anthropic is een groot voorstander van wat het noemt "Constitutionele AI" die de veiligheid en transparantie van haar modellen wil verbeteren. Met Claude 2Dit streven naar veiligheid resulteerde in veel weigeringen om te reageren op vragen die eigenlijk onschuldig waren.

Claude 3 is beter in het begrijpen van de nuance van aanwijzingen om beter te kunnen beslissen wat wel en niet onder de vangrails van Anthropic valt. Claude 3 bereikt ook een veel betere nauwkeurigheid en minder hallucinaties vergeleken met Claude 2.1.

Een voorbeeld van een prompt die Claude 2.1 weigert te beantwoorden terwijl Claude 3 het als veilig herkent.

Sommige AI-pessimisten beweren dat we afstevenen op een AI-winter en dat de prestaties van LLM-modellen een plateau bereiken, maar Anthropic is het daar niet mee eens. Het bedrijf zegt dat het niet gelooft dat "modelintelligentie ergens in de buurt van zijn limiet is".

Het is van plan om Claude 3 in de toekomst een aantal interessante upgrades te geven met de toevoeging van meer geavanceerde agentische mogelijkheden, waaronder Tool Use en interactief coderen (REPL).

Door de hoge prijs zal de initiële markt voor Claude 3 Opus wellicht meer gericht zijn op nicheonderzoek of professionele toepassingen. De prijzen en prestaties van Sonnet en Haiku zullen voorlopig waarschijnlijk de grootste adoptie opleveren.

Krijgen we een prijsdaling van OpenAI? Nu OpenAI het zwaar te verduren heeft in de top van de benchmarks, moeten we wel heel dicht in de buurt komen van een GPT-5 aankondiging.

Anthropic brengt Claude 3 uit die GPT-4 verslaat in benchmarks

Doe mee met de toekomst

Eugene van der Watt

GERELATEERDE ARTIKELEN

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

Anthropic brengt Claude 3 uit die GPT-4 verslaat in benchmarks

Doe mee met de toekomst

Eugene van der Watt

GERELATEERDE ARTIKELEN

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

GRATIS PDF EXCLUSIEFBlijf voorop met DailyAI

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI