Anthropic lanza Claude 3, que supera a GPT-4 en pruebas de rendimiento

La startup de IA Anthropic, con sede en San Francisco, ha lanzado su último LLM con su familia de modelos Claude 3.

Claude 3 se presenta en tres variantes: Haiku, Soneto y Opus. Para los menos poéticos, eso significa pequeño, mediano y grande. Claude 3 Opus es el modelo más avanzado de Anthropic y el primero de la industria que supera al GPT-4 de OpenAI en una amplia gama de pruebas.

GPT-4 ha sido durante mucho tiempo el patrón oro que las empresas de IA han utilizado para comparar el rendimiento de sus LLM. Esas comparaciones solían utilizar palabras como "aproximándose" o "casi", pero Anthropic puede afirmar por fin que supera la capacidad de GPT-4.

Estas son las cifras de referencia de Claude 3 en comparación con GPT-4, GPT-3 y Gemini Ultra y Pro.

Cifras de referencia de Claude 3 comparadas con GPT-4, GPT-3.5, Gemini Ultra y Gemini Pro. Fuente: Antropic

Vale la pena señalar que las cifras de GPT-4 anteriores son las que OpenAI facilitó en su informe técnico antes de que se publicara GPT-4. En Tarjeta modelo Claude 3 reconoce que se han notificado puntuaciones más altas para GPT-4 Turbo.

Aun así, las cifras de Claude 3 Opus son un gran negocio. A pesar de las inevitables discusiones sobre cómo ha llegado la empresa a estas cifras, Anthropic afirma que Claude 3 Opus representa "una inteligencia superior a la de cualquier otro modelo disponible."

Los costes de la API de entrada/salida de Claude 3 Opus te costarán $15 / $75 por millón de tokens. Es un precio elevado comparado con GPT-4 Turbo, que cuesta $10 / $30. Claude 3 Sonnet ($3 / $15) y Claude 3 Haiku ($0,25 / $1,25) ofrecen una relación calidad-precio realmente buena si nos fijamos en las cifras de rendimiento de estos modelos más pequeños.

Si quieres probar Claude 3 gratis, puedes hacerlo en la página web de Anthropic claude.ai una vez que sus servidores se recuperen de la avalancha de tráfico. Funciona con Claude 3 Sonnet, y los usuarios Pro de pago tienen acceso a Opus.

Los modelos Claude 3 no son multimodales, pero tienen una capacidad de visión impresionante. No pueden generar una imagen por ti, pero los puntos de referencia indican que Opus es bueno analizando fotos, tablas, gráficos y diagramas técnicos.

Capacidades de visión de Claude 3 comparadas con GPT-4V, Gemini Ultra y Gemini Pro. Fuente: Anthropic

Anthropic dice que los modelos Claude 3 son capaces de aceptar entradas superiores a 1 millón de tokens pero, para la mayoría de los usuarios, la ventana de contexto se limitará por ahora a 200k tokens. Eso sigue siendo mucho más que el contexto de 128k de GPT-4 Turbo.

Una ventana contextual amplia sólo es útil si va acompañada de una buena capacidad de recuperación, y Anthropic afirma que Opus ofrece "una capacidad de recuperación casi perfecta, superando la precisión de 99%".

Algo interesante ocurrió durante la prueba de recuerdo "aguja en el pajar" de Claude 3 Opus. Cuando se le hizo una pregunta a la que sólo podía responder si localizaba la frase de la "aguja" insertada, indicó que entendía que se le estaba poniendo a prueba. Impresionante, y un poco aterrador.

Claude 3 Opus se dio cuenta de que estaba siendo probado. Fuente: X

Anthropic es un gran defensor de lo que llama "Inteligencia Artificial Constitucional" cuyo objetivo es mejorar la seguridad y transparencia de sus modelos. Con Claude 2Sin embargo, esta búsqueda de la seguridad se tradujo en muchas negativas a responder a preguntas que en realidad eran inofensivas.

Claude 3 entiende mejor los matices de las indicaciones para decidir mejor qué entra y qué no entra en los guardarraíles de Anthropic. Claude 3 también consigue una precisión mucho mayor y reduce alucinaciones en comparación con el Claude 2.1.

Ejemplo de pregunta a la que Claude 2.1 se niega a responder mientras que Claude 3 la reconoce como segura.

Algunos pesimistas de la IA afirman que nos dirigimos hacia un invierno de IA y que el rendimiento de los modelos LLM está alcanzando una meseta, pero Anthropic no está de acuerdo. La empresa afirma que no cree que "la inteligencia de los modelos esté cerca de sus límites".

En el futuro, Claude 3 recibirá varias actualizaciones interesantes con la incorporación de funciones agenticas más avanzadas, como el uso de herramientas y la codificación interactiva (REPL).

El elevado precio puede hacer que el mercado inicial de Claude 3 Opus se sitúe en un nicho de investigación o en aplicaciones profesionales. El precio y las prestaciones que ofrecen Sonnet y Haiku probablemente sean los que más se adopten por ahora.

¿Veremos una bajada de precio de OpenAI? Con OpenAI sintiendo el calor en la parte superior de los puntos de referencia, debemos estar muy cerca de un anuncio GPT-5.

Anthropic lanza Claude 3, que supera a GPT-4 en los benchmarks

Únete al futuro

Eugene van der Watt

ENTRADAS RELACIONADAS

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter