Anthropic lanserer Claude 3, som slår GPT-4 i benchmarks

San Francisco-baserte AI-oppstart Anthropic har lansert sin nyeste LLM med sin familie av Claude 3-modeller.

Claude 3 kommer i tre varianter: Haiku, Sonnet og Opus. For de mindre poetiske blant oss betyr det small, medium og large. Claude 3 Opus er Anthropics mest avanserte modell, og er den første i bransjen som hevder å slå OpenAIs GPT-4 i en lang rekke benchmarks.

GPT-4 har lenge vært gullstandarden som AI-selskaper har brukt for å sammenligne LLM-ytelsen sin. I disse sammenligningene ble det ofte brukt ord som "nærmer seg" eller "nesten", men Anthropic kan endelig hevde at de overgår GPT-4s kapasitet.

Her er referansetallene for Claude 3 sammenlignet med GPT-4, GPT-3 og Gemini Ultra og Pro.

Claude 3-referansetall sammenlignet med GPT-4, GPT-3.5, Gemini Ultra og Gemini Pro. Kilde: Anthropic: Anthropic

Det er verdt å merke seg at GPT-4-tallene ovenfor er de samme som OpenAI leverte i sin tekniske rapport før GPT-4 ble lansert. De Claude 3 modellkort erkjenner at det har blitt rapportert om høyere score for GPT-4 Turbo.

Claude 3 Opus-figurene er likevel en stor sak. Til tross for de uunngåelige diskusjonene om hvordan selskapet kom frem til disse tallene, sier Anthropic at Claude 3 Opus representerer "høyere intelligens enn noen annen tilgjengelig modell".

Claude 3 Opus API-kostnader for inngang / utgang vil koste deg $15 / $75 per million tokens. Det er bratt sammenlignet med GPT-4 Turbo som koster $10 / $30. Claude 3 Sonnet ($3 / $15) og Claude 3 Haiku ($0,25 / $1,25) gir virkelig god verdi når du ser på ytelsestallene for disse mindre modellene.

Hvis du vil prøve Claude 3 gratis, kan du gjøre det på Anthropics claude.ai chatbot når serverne har kommet seg etter trafikkrushet. Den drives av Claude 3 Sonnet, med betalte Pro-brukere som får tilgang til Opus.

Claude 3-modellene er ikke multimodale, men de har imponerende synsfunksjoner. De kan ikke generere et bilde for deg, men referanseverdiene indikerer at Opus er god til å analysere bilder, diagrammer, grafer og tekniske diagrammer.

Claude 3-synsfunksjoner sammenlignet med GPT-4V, Gemini Ultra og Gemini Pro. Kilde: Anthropic: Anthropic

Anthropic sier at Claude 3-modellene er i stand til å akseptere inndata på over 1 million tokens, men for de fleste brukere vil kontekstvinduet foreløpig være begrenset til 200 000 tokens. Det er fortsatt mye mer enn GPT-4 Turbos 128 000 kontekster.

Et stort kontekstvindu er bare nyttig når det kombineres med god gjenkalling, og Anthropic hevder at Opus leverer "nesten perfekt gjenkalling, med en nøyaktighet som overgår 99%".

Noe interessant skjedde under "nålen i høystakken"-testen av Claude 3 Opus. Da den ble stilt et spørsmål som bare kunne besvares hvis den fikk øye på den innsatte "nålesetningen", viste den at den forsto at den ble testet. Imponerende, og litt skremmende.

Claude 3 Opus skjønte at den ble testet. Kilde: X

Anthropic er en stor forkjemper for det de kaller "Konstitusjonell AI" som har som mål å forbedre sikkerheten og åpenheten i modellene sine. Med Claude 2Denne jakten på sikkerhet resulterte i at mange nektet å svare på beskjeder som egentlig var ufarlige.

Claude 3 er bedre til å forstå nyansene i instruksjonene, slik at man bedre kan avgjøre hva som er i strid med Anthropics retningslinjer. Claude 3 oppnår også mye bedre nøyaktighet og redusert hallusinasjoner sammenlignet med Claude 2.1.

Et eksempel på en ledetekst som Claude 2.1 nekter å svare på, mens Claude 3 anerkjenner den som trygg.

Noen AI-pessimister hevder at vi er på vei mot en AI-vinter, og at LLM-modellenes ytelse er i ferd med å nå et platå, men Anthropic er uenig i dette. Selskapet sier at de ikke tror at "modellintelligensen er i nærheten av sine grenser".

Det planlegges flere interessante oppgraderinger av Claude 3 i fremtiden, blant annet med mer avanserte agentfunksjoner som Tool Use og interaktiv koding (REPL).

Den høye prisen kan føre til at Claude 3 Opus i første omgang vil bli brukt i mer nisjepregede forsknings- eller profesjonelle bruksområder. Sonnet og Haiku vil sannsynligvis få størst utbredelse på grunn av prisene og ytelsen som tilbys av Sonnet og Haiku.

Vil vi se et prisfall fra OpenAI? Med OpenAI i toppen av referanseindeksene, må vi virkelig nærme oss en kunngjøring av GPT-5.

Anthropic lanserer Claude 3, som slår GPT-4 i referanseindekser

Bli med i fremtiden

Eugene van der Watt

RELATERTE ARTIKLER

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter