Anthropic släpper Claude 3 som slår GPT-4 i benchmarks

5 mars 2024

San Francisco-baserade AI-startupen Anthropic har släppt sin senaste LLM med sin familj av Claude 3-modeller.

Claude 3 finns i tre varianter: Haiku, Sonnet och Opus. För de mindre poetiska bland oss översätts det till liten, medium och stor. Claude 3 Opus är Anthropics mest avancerade modell och är den första i branschen som hävdar att den slår OpenAI:s GPT-4 i ett brett spektrum av benchmarks.

GPT-4 har varit den guldstandard som AI-företag länge har använt för att jämföra sina LLM-prestanda. I dessa jämförelser användes ofta ord som "närmar sig" eller "nästan", men Anthropic kan äntligen hävda att man överträffar GPT-4:s kapacitet.

Här är jämförelsetalen för Claude 3 jämfört med GPT-4, GPT-3 och Gemini Ultra och Pro.

Claude 3:s jämförelsetal jämfört med GPT-4, GPT-3.5, Gemini Ultra och Gemini Pro. Källan är: Antropisk

Det är värt att notera att GPT-4-siffrorna ovan är de som OpenAI angav i sin tekniska rapport innan GPT-4 släpptes. De Claude 3 modellkort medger att högre poäng för GPT-4 Turbo har rapporterats.

Trots detta är Claude 3 Opus-figurerna en stor sak. Trots de oundvikliga argumenten om hur företaget kom fram till dessa siffror, säger Anthropic att Claude 3 Opus representerar "högre intelligens än någon annan tillgänglig modell".

Claude 3 Opus API-kostnader för inmatning / utmatning kommer att kosta dig $15 / $75 per miljon tokens. Det är brant jämfört med GPT-4 Turbo som kostar $10 / $30. Claude 3 Sonnet ($3 / $15) och Claude 3 Haiku ($0,25 / $1,25) erbjuder riktigt bra värde när man tittar på prestandasiffrorna för dessa mindre modeller.

Om du vill prova Claude 3 gratis kan du göra det på Anthropic's claude.ai chatbot när dess servrar återhämtar sig från trafikrusningen. Den drivs av Claude 3 Sonnet, med betalda Pro-användare som får tillgång till Opus.

Claude 3-modellerna är inte multimodala, men de har imponerande synfunktioner. De kan inte generera en bild åt dig, men benchmarks visar att Opus är bra på att analysera foton, diagram, grafer och tekniska diagram.

Claude 3:s synfunktioner jämfört med GPT-4V, Gemini Ultra och Gemini Pro. Källan är: Antropisk

Anthropic säger att Claude 3-modellerna kan acceptera inmatningar som överstiger 1 miljon tokens, men för de flesta användare kommer kontextfönstret att vara begränsat till 200k tokens för tillfället. Det är fortfarande mycket mer än GPT-4 Turbos 128k-kontext.

Ett stort kontextfönster är bara användbart när det kombineras med god minnesförmåga och Anthropic hävdar att Opus ger "nästan perfekt minnesförmåga och överträffar 99%-noggrannhet".

Något intressant hände under "nålen i höstacken"-testet av Claude 3 Opus. När den fick en fråga som bara kunde besvaras om den upptäckte den infogade "nål"-meningen visade den att den förstod att den testades. Imponerande och lite skrämmande.

Claude 3 Opus insåg att den testades. Källa: X X

Anthropic är en stor förespråkare för vad den kallar "Konstitutionell AI" som syftar till att förbättra säkerheten och transparensen i sina modeller. Med Claude 2Denna strävan efter säkerhet resulterade i att många vägrade att svara på uppmaningar som egentligen var harmlösa.

Claude 3 är bättre på att förstå nyanserna i uppmaningarna för att bättre kunna avgöra vad som faller och inte faller på Anthropics skyddsräcken. Claude 3 uppnår också mycket bättre noggrannhet och minskad hallucinationer jämfört med Claude 2.1.

Ett exempel på en fråga som Claude 2.1 vägrar att svara på medan Claude 3 anser att den är säker.

Vissa AI-pessimister hävdar att vi är på väg mot en AI-vinter och att LLM-modellens prestanda når en platå, men Anthropic håller inte med. Företaget säger att det inte tror att "modellintelligens är någonstans nära sina gränser."

Man planerar att göra flera intressanta uppgraderingar av Claude 3 i framtiden med tillägg av mer avancerade agentfunktioner, inklusive Tool Use samt interaktiv kodning (REPL).

Den höga prissättningen kan leda till att den första marknaden för Claude 3 Opus blir mer nischad inom forskning eller professionella tillämpningar. De priser och den prestanda som Sonnet och Haiku erbjuder kommer sannolikt att vara de som får störst genomslag för närvarande.

Kommer vi att få se ett prisfall från OpenAI? Med OpenAI i toppen av benchmarktesterna måste vi vara väldigt nära ett tillkännagivande av GPT-5.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Eugene van der Watt

Eugene kommer från en bakgrund som elektronikingenjör och älskar allt som har med teknik att göra. När han tar en paus från att konsumera AI-nyheter hittar du honom vid snookerbordet.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar