Anthropic släpper Claude 3 som slår GPT-4 i benchmarks

San Francisco-baserade AI-startupen Anthropic har släppt sin senaste LLM med sin familj av Claude 3-modeller.

Claude 3 finns i tre varianter: Haiku, Sonnet och Opus. För de mindre poetiska bland oss översätts det till liten, medium och stor. Claude 3 Opus är Anthropics mest avancerade modell och är den första i branschen som hävdar att den slår OpenAI:s GPT-4 i ett brett spektrum av benchmarks.

GPT-4 har varit den guldstandard som AI-företag länge har använt för att jämföra sina LLM-prestanda. I dessa jämförelser användes ofta ord som "närmar sig" eller "nästan", men Anthropic kan äntligen hävda att man överträffar GPT-4:s kapacitet.

Här är jämförelsetalen för Claude 3 jämfört med GPT-4, GPT-3 och Gemini Ultra och Pro.

Claude 3:s jämförelsetal jämfört med GPT-4, GPT-3.5, Gemini Ultra och Gemini Pro. Källan är: Antropisk

Det är värt att notera att GPT-4-siffrorna ovan är de som OpenAI angav i sin tekniska rapport innan GPT-4 släpptes. De Claude 3 modellkort medger att högre poäng för GPT-4 Turbo har rapporterats.

Trots detta är Claude 3 Opus-figurerna en stor sak. Trots de oundvikliga argumenten om hur företaget kom fram till dessa siffror, säger Anthropic att Claude 3 Opus representerar "högre intelligens än någon annan tillgänglig modell".

Claude 3 Opus API-kostnader för inmatning / utmatning kommer att kosta dig $15 / $75 per miljon tokens. Det är brant jämfört med GPT-4 Turbo som kostar $10 / $30. Claude 3 Sonnet ($3 / $15) och Claude 3 Haiku ($0,25 / $1,25) erbjuder riktigt bra värde när man tittar på prestandasiffrorna för dessa mindre modeller.

Om du vill prova Claude 3 gratis kan du göra det på Anthropic's claude.ai chatbot när dess servrar återhämtar sig från trafikrusningen. Den drivs av Claude 3 Sonnet, med betalda Pro-användare som får tillgång till Opus.

Claude 3-modellerna är inte multimodala, men de har imponerande synfunktioner. De kan inte generera en bild åt dig, men benchmarks visar att Opus är bra på att analysera foton, diagram, grafer och tekniska diagram.

Claude 3:s synfunktioner jämfört med GPT-4V, Gemini Ultra och Gemini Pro. Källan är: Antropisk

Anthropic säger att Claude 3-modellerna kan acceptera inmatningar som överstiger 1 miljon tokens, men för de flesta användare kommer kontextfönstret att vara begränsat till 200k tokens för tillfället. Det är fortfarande mycket mer än GPT-4 Turbos 128k-kontext.

Ett stort kontextfönster är bara användbart när det kombineras med god minnesförmåga och Anthropic hävdar att Opus ger "nästan perfekt minnesförmåga och överträffar 99%-noggrannhet".

Något intressant hände under "nålen i höstacken"-testet av Claude 3 Opus. När den fick en fråga som bara kunde besvaras om den upptäckte den infogade "nål"-meningen visade den att den förstod att den testades. Imponerande och lite skrämmande.

Claude 3 Opus insåg att den testades. Källa: X X

Anthropic är en stor förespråkare för vad den kallar "Konstitutionell AI" som syftar till att förbättra säkerheten och transparensen i sina modeller. Med Claude 2Denna strävan efter säkerhet resulterade i att många vägrade att svara på uppmaningar som egentligen var harmlösa.

Claude 3 är bättre på att förstå nyanserna i uppmaningarna för att bättre kunna avgöra vad som faller och inte faller på Anthropics skyddsräcken. Claude 3 uppnår också mycket bättre noggrannhet och minskad hallucinationer jämfört med Claude 2.1.

Ett exempel på en fråga som Claude 2.1 vägrar att svara på medan Claude 3 anser att den är säker.

Vissa AI-pessimister hävdar att vi är på väg mot en AI-vinter och att LLM-modellens prestanda når en platå, men Anthropic håller inte med. Företaget säger att det inte tror att "modellintelligens är någonstans nära sina gränser."

Man planerar att göra flera intressanta uppgraderingar av Claude 3 i framtiden med tillägg av mer avancerade agentfunktioner, inklusive Tool Use samt interaktiv kodning (REPL).

Den höga prissättningen kan leda till att den första marknaden för Claude 3 Opus blir mer nischad inom forskning eller professionella tillämpningar. De priser och den prestanda som Sonnet och Haiku erbjuder kommer sannolikt att vara de som får störst genomslag för närvarande.

Kommer vi att få se ett prisfall från OpenAI? Med OpenAI i toppen av benchmarktesterna måste vi vara väldigt nära ett tillkännagivande av GPT-5.

Anthropic släpper Claude 3 som slår GPT-4 i benchmarks

Bli en del av framtiden

Eugene van der Watt

RELATERADE ARTIKLAR

Spelbranschen står inför en medelålderskris - är AI dess framtid?

OpenAI presenterar Realtime API och andra funktioner för utvecklare

Kaliforniens guvernör Gavin Newsom lägger in sitt veto mot SB 1047 Lagförslag om AI-säkerhet

Hur går det för Kina i AI-racet? Teknikjättar och nystartade företag tänjer på gränserna

Anthropic släpper Claude 3 som slår GPT-4 i benchmarks

Bli en del av framtiden

Eugene van der Watt

RELATERADE ARTIKLAR

Spelbranschen står inför en medelålderskris - är AI dess framtid?

OpenAI presenterar Realtime API och andra funktioner för utvecklare

Kaliforniens guvernör Gavin Newsom lägger in sitt veto mot SB 1047 Lagförslag om AI-säkerhet

Hur går det för Kina i AI-racet? Teknikjättar och nystartade företag tänjer på gränserna

GRATIS PDF EXKLUSIVLigg steget före med DailyAI

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI