Anthropic veröffentlicht Claude 3, das das GPT-4 in Benchmarks schlägt

März 5, 2024

Das in San Francisco ansässige KI-Startup Anthropic hat sein neuestes LLM mit seiner Familie von Claude 3-Modellen veröffentlicht.

Claude 3 gibt es in drei Varianten: Haiku, Sonnet und Opus. Für die weniger poetischen unter uns bedeutet das: klein, mittel und groß. Claude 3 Opus ist das fortschrittlichste Modell von Anthropic und das erste in der Branche, das behauptet, OpenAIs GPT-4 in einer Vielzahl von Benchmarks zu schlagen.

GPT-4 war lange Zeit der Goldstandard, den KI-Unternehmen zum Vergleich ihrer LLM-Leistung herangezogen haben. Bei diesen Vergleichen wurden oft Worte wie "annähernd" oder "fast" verwendet, aber Anthropic kann endlich behaupten, die Leistungsfähigkeit von GPT-4 zu übertreffen.

Hier sind die Benchmarkwerte für Claude 3 im Vergleich zu GPT-4, GPT-3 und Gemini Ultra und Pro.

Claude 3 Benchmarkergebnisse im Vergleich zu GPT-4, GPT-3.5, Gemini Ultra und Gemini Pro. Quelle: Anthropic

Es ist erwähnenswert, dass die obigen GPT-4-Zahlen diejenigen sind, die OpenAI in seinem technischen Bericht vor der Veröffentlichung von GPT-4 vorgelegt hat. Die Claude 3 Modellkarte räumt ein, dass höhere Werte für GPT-4 Turbo gemeldet wurden.

Dennoch sind die Claude-3-Opus-Figuren eine große Sache. Trotz der unvermeidlichen Diskussionen darüber, wie das Unternehmen zu diesen Zahlen gekommen ist, sagt Anthropic, dass Claude 3 Opus "eine höhere Intelligenz als jedes andere verfügbare Modell" darstellt.

Die Kosten der Claude 3 Opus Input/Output API betragen $15 / $75 pro Million Token. Das ist happig im Vergleich zu GPT-4 Turbo, das $10 / $30 kostet. Claude 3 Sonnet ($3 / $15) und Claude 3 Haiku ($0,25 / $1,25) bieten ein wirklich gutes Preis-Leistungs-Verhältnis, wenn man die Leistungsdaten dieser kleineren Modelle betrachtet.

Wenn Sie Claude 3 kostenlos ausprobieren möchten, können Sie dies auf der Website von Anthropic tun claude.ai Chatbot, sobald sich die Server von dem Verkehrsansturm erholt haben. Er wird von Claude 3 Sonnet angetrieben, wobei zahlende Pro-Nutzer Zugang zu Opus erhalten.

Die Modelle von Claude 3 sind nicht multimodal, aber sie haben beeindruckende Sehfähigkeiten. Sie können zwar kein Bild für Sie erzeugen, aber die Benchmarks zeigen, dass Opus Fotos, Diagramme, Grafiken und technische Diagramme gut analysieren kann.

Claude 3 Bildverarbeitungsfunktionen im Vergleich zu GPT-4V, Gemini Ultra und Gemini Pro. Quelle: Anthropic

Anthropic sagt, dass die Claude-3-Modelle in der Lage sind, Eingaben von mehr als 1 Million Token zu akzeptieren, aber für die meisten Benutzer wird das Kontextfenster vorerst auf 200k Token begrenzt sein. Das ist immer noch viel mehr als der 128k-Kontext von GPT-4 Turbo.

Ein großes Kontextfenster ist nur dann nützlich, wenn es mit einer guten Erkennungsleistung gekoppelt ist. Anthropic behauptet, dass Opus eine "nahezu perfekte Erkennungsleistung bietet, die die Genauigkeit von 99% übertrifft".

Während des "Nadel im Heuhaufen"-Rückruftests von Claude 3 Opus geschah etwas Interessantes. Als ihm eine Frage gestellt wurde, die nur beantwortet werden konnte, wenn er den eingefügten "Nadel"-Satz entdeckte, zeigte er an, dass er verstanden hatte, dass er getestet wurde. Beeindruckend und ein wenig beängstigend.

Claude 3 Opus erkannte, dass es getestet wurde. Quelle: X

Anthropic ist ein großer Befürworter dessen, was es als "Konstitutionelle KI" die darauf abzielt, die Sicherheit und Transparenz ihrer Modelle zu verbessern. Mit Claude 2Dieses Streben nach Sicherheit führte dazu, dass sich viele weigerten, auf eigentlich harmlose Aufforderungen zu reagieren.

Claude 3 ist besser in der Lage, die Nuancen der Aufforderungen zu verstehen, um besser zu entscheiden, was gegen die anthropischen Leitplanken verstößt und was nicht. Claude 3 erreicht auch eine viel bessere Genauigkeit und weniger Halluzinationen im Vergleich zu Claude 2.1.

Ein Beispiel für eine Aufforderung, die Claude 2.1 nicht beantworten will, während Claude 3 sie als sicher erkennt.

Einige KI-Pessimisten behaupten, dass wir auf einen KI-Winter zusteuern und dass die Leistung von LLM-Modellen ein Plateau erreicht, aber Anthropic ist da anderer Meinung. Das Unternehmen sagt, dass es nicht glaubt, dass "die Modellintelligenz irgendwo in der Nähe ihrer Grenzen ist".

Für die Zukunft sind mehrere interessante Erweiterungen von Claude 3 geplant, u. a. die Hinzufügung fortgeschrittener Agentenfähigkeiten wie die Verwendung von Werkzeugen und die interaktive Codierung (REPL).

Der hohe Preis könnte dazu führen, dass Claude 3 Opus zunächst eher in Nischenanwendungen in der Forschung oder im professionellen Bereich eingesetzt wird. Das Preis- und Leistungsangebot von Sonnet und Haiku wird wahrscheinlich vorerst die größte Verbreitung finden.

Werden wir eine Preissenkung von OpenAI sehen? Da OpenAI bei den Benchmarks an der Spitze steht, müssen wir kurz vor der Ankündigung eines GPT-5 stehen.

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Eugene van der Watt

Eugene kommt aus der Elektronikbranche und liebt alles, was mit Technik zu tun hat. Wenn er eine Pause vom Konsum von KI-Nachrichten einlegt, findet man ihn am Snookertisch.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen