Anthropic lance Claude 3 qui bat GPT-4 dans les benchmarks

Anthropic, société d'intelligence artificielle basée à San Francisco, a lancé son dernier LLM avec sa famille de modèles Claude 3.

Claude 3 se décline en trois variantes : Haiku, Sonnet et Opus. Pour les moins poétiques d'entre nous, cela se traduit par petit, moyen et grand. Claude 3 Opus est le modèle le plus avancé d'Anthropic et le premier de l'industrie à prétendre battre le GPT-4 d'OpenAI dans une large gamme de tests.

GPT-4 a été l'étalon-or que les entreprises d'IA ont longtemps utilisé pour comparer leurs performances en matière de LLM. Ces comparaisons utilisaient souvent des termes tels que "proche" ou "presque", mais Anthropic peut enfin prétendre dépasser les capacités de GPT-4.

Voici les valeurs de référence de Claude 3 par rapport à GPT-4, GPT-3 et Gemini Ultra et Pro.

Comparaison des résultats de Claude 3 avec GPT-4, GPT-3.5, Gemini Ultra et Gemini Pro. Source : Anthropic

Il convient de noter que les chiffres du GPT-4 ci-dessus sont ceux qu'OpenAI a fournis dans son rapport technique avant la publication du GPT-4. Les Carte de modèle Claude 3 reconnaît que des scores plus élevés pour le GPT-4 Turbo ont été rapportés.

Néanmoins, les chiffres de Claude 3 Opus sont importants. Malgré les inévitables discussions sur la manière dont l'entreprise est parvenue à ces chiffres, Anthropic affirme que Claude 3 Opus représente "une intelligence supérieure à celle de tous les autres modèles disponibles".

Les coûts de l'API d'entrée/sortie de Claude 3 Opus s'élèvent à $15 / $75 par million de jetons. C'est très élevé comparé à GPT-4 Turbo qui coûte $10 / $30. Claude 3 Sonnet ($3 / $15) et Claude 3 Haiku ($0.25 / $1.25) offrent un très bon rapport qualité/prix si l'on considère les performances de ces petits modèles.

Si vous voulez essayer Claude 3 gratuitement, vous pouvez le faire sur le site d'Anthropic. claude.ai une fois que ses serveurs se seront remis de l'afflux de trafic. Il est alimenté par Claude 3 Sonnet, les utilisateurs Pro payants ayant accès à Opus.

Les modèles Claude 3 ne sont pas multimodaux, mais ils ont des capacités de vision impressionnantes. Ils ne peuvent pas générer une image pour vous, mais les tests indiquent qu'Opus est capable d'analyser des photos, des tableaux, des graphiques et des diagrammes techniques.

Capacités de vision de Claude 3 comparées à celles de GPT-4V, Gemini Ultra et Gemini Pro. Source : Anthropic

Anthropic indique que les modèles Claude 3 sont capables d'accepter des entrées dépassant 1 million de jetons mais, pour la plupart des utilisateurs, la fenêtre de contexte sera limitée à 200 000 jetons pour l'instant. C'est toujours beaucoup plus que le contexte de 128k de GPT-4 Turbo.

Une grande fenêtre contextuelle n'est utile que si elle est associée à une bonne mémoire et Anthropic affirme qu'Opus offre "une mémoire presque parfaite, dépassant la précision de 99%".

Il s'est passé quelque chose d'intéressant pendant le test de rappel "aiguille dans botte de foin" de Claude 3 Opus. Lorsqu'on lui a posé une question à laquelle il ne pouvait répondre que s'il avait repéré la phrase "aiguille" insérée, il a indiqué qu'il comprenait qu'il faisait l'objet d'un test. Impressionnant et un peu effrayant.

Claude 3 Opus s'est rendu compte qu'il était testé. Source : X

Anthropic est un fervent partisan de ce qu'il appelle "L'IA constitutionnelle qui vise à améliorer la sécurité et la transparence de ses modèles. Avec Claude 2Cette recherche de sécurité s'est traduite par un grand nombre de refus de répondre à des messages qui étaient en fait inoffensifs.

Claude 3 est plus à même de comprendre la nuance des invites pour mieux décider ce qui tombe ou non sous le coup des garde-fous d'Anthropic. Claude 3 obtient également une bien meilleure précision et une réduction du nombre d'erreurs. hallucinations par rapport à Claude 2.1.

Exemple d'une invite à laquelle Claude 2.1 refuse de répondre alors que Claude 3 la reconnaît comme sûre.

Certains pessimistes de l'IA affirment que nous nous dirigeons vers un hiver de l'IA et que les performances des modèles LLM atteignent un plateau, mais Anthropic n'est pas de cet avis. L'entreprise affirme qu'elle ne croit pas que "l'intelligence des modèles soit proche de ses limites".

Il prévoit d'apporter plusieurs améliorations intéressantes à Claude 3 à l'avenir, avec l'ajout de capacités agentiques plus avancées, notamment l'utilisation d'outils et le codage interactif (REPL).

Le prix élevé pourrait faire en sorte que le marché initial de Claude 3 Opus se situe dans des niches de recherche ou d'applications professionnelles. Le prix et la performance offerts par Sonnet et Haiku sont susceptibles d'être le point de départ de la plus grande adoption pour le moment.

OpenAI va-t-il baisser son prix ? Avec OpenAI en tête des benchmarks, l'annonce d'une GPT-5 doit être imminente.

Anthropic lance Claude 3 qui bat GPT-4 dans les benchmarks

Rejoindre l'avenir

Eugène van der Watt

ARTICLES ASSOCIÉS

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

Anthropic lance Claude 3 qui bat GPT-4 dans les benchmarks

Rejoindre l'avenir

Eugène van der Watt

ARTICLES ASSOCIÉS

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

PDF GRATUIT EXCLUSIFGardez une longueur d'avance avec DailyAI

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI