Google, OpenAI y Mistral han publicado nuevas versiones de sus vanguardistas modelos de IA en apenas 12 horas.
Meta también se unirá a la fiesta con su próximo modelo Llama 3, y el esperado GPT-5 de OpenAI está en camino.
Lo que empezó como una categoría de nicho dominada por ChatGPT está ahora inundada de alternativas que trascienden la Gran Tecnología y la división entre código abierto y cerrado.
Google Gemini Pro 1.5
Gemini Pro 1.5 de Google fue el primero en dar la campanada, introduciendo avances en la comprensión de contextos largos que desafían a Claude 3 Opus, que tiene los ases en esa categoría.
Nuestro modelo de IA de nueva generación Gemini 1.5 Pro ya está disponible en vista previa pública en @GoogleCloud's #VertexAI plataforma.
Su ventana de contexto largo ya está ayudando a las empresas a analizar grandes cantidades de datos, crear agentes de atención al cliente impulsados por IA & más. → https://t.co/CLMN3wNmeP pic.twitter.com/RpRVUul3eg
- Google DeepMind (@GoogleDeepMind) 9 de abril de 2024
Con capacidad para procesar hasta 1 millón de fichas, Gemini Pro 1.5 puede manejar grandes cantidades de información simultáneamente, incluidas 700.000 palabras, una hora de vídeo u 11 horas de audio.
Su arquitectura de Mezcla de Expertos (MoE) mejora la eficacia y el rendimiento utilizando modelos especializados para tareas específicas.
La lista de modelos Gemini de Google es bastante compleja, pero este es su modelo más capaz para las tareas habituales.
Google también está permitiendo a los desarrolladores realizar 50 peticiones gratuitas diarias a la API, lo que una persona en X estimó que costaría hasta $1.400.
Actualmente, Gemini 1.5 Pro está disponible en 180 países.
Nueva versión de GPT-4 Turbo
OpenAI lanzó entonces una nueva versión, GPT-4 Turbo, con un procesamiento matemático y de visión superior.
Según un post de X, "GPT-4 Turbo con Vision ya está disponible de forma general en la API. Las solicitudes de Vision ahora también pueden usar el modo JSON y la llamada a funciones".
GPT-4 Turbo con Vision ya está disponible de forma general en la API. Las solicitudes de Vision ahora también pueden utilizar el modo JSON y la llamada a funciones.https://t.co/cbvJjij3uL
A continuación se presentan algunas grandes maneras los desarrolladores están construyendo con la visión. Envía el tuyo en una respuesta 🧵
- Desarrolladores de OpenAI (@OpenAIDevs) 9 de abril de 2024
OpenAI tiene previsto lanzar GPT -5 en breve, así como su modelo de conversión de texto en vídeo Sora, que por ahora no tiene competidores notables (aunque eso cambiará).
Mixtral 8x22B
Sin embargo, quizá la mayor sorpresa vino de Mistralque se atrevió a publicar su modelo Mixtral 8x22B como un archivo de 281 GB de descarga gratuita a través de torrent.
magnet:?xt=urn:btih:9238b09245d0d8cd915be09927769d5f7584c1c9&dn=mixtral-8x22b&tr=udp%3A%2F%https://t.co/2UepcMGLGd%3A1337%2Fannounce&tr=http%3A%2F%https://t.co/OdtBUsbeV5%3A1337%2Fannounce
- Mistral AI (@MistralAI) 10 de abril de 2024
Con la impresionante cifra de 176.000 millones de parámetros y una longitud de contexto de 65.000 tokens, se espera que este modelo de código abierto con licencia Apache 2.0 supere al anterior modelo Mixtral 8x7B de Mistral, que ya había superado a competidores como Llama 2 70B en varias pruebas comparativas.
La avanzada arquitectura MoE de Mixtral 8x22B permite un cálculo eficiente y un rendimiento mejorado respecto a iteraciones anteriores.
Llega Meta Llama 3
Para no quedarse atrás, los informes sugieren que Meta podría lanzar una versión reducida de su esperado modelo Llama 3 la semana que viene, mientras que el modelo completo de código abierto está previsto para julio.
Se espera que Llama 3 se presente en varios tamaños, desde modelos muy pequeños que compitan con Claude Haiku o Gemini Nano hasta modelos más grandes, con plena capacidad de respuesta y razonamiento, que rivalicen con GPT-4 o Claude 3 Opus.
Multiplicación de modelos
El ecosistema de la IA generativa, antes dominado por ChatGPT, está ahora inundado de alternativas.
Prácticamente todas las grandes empresas tecnológicas están implicadas, ya sea directamente o a través de importantes inversiones. Y a medida que se suman nuevos participantes, disminuye la esperanza de que una sola facción domine el mercado.
También estamos viendo cómo se acorta la distancia entre los modelos de código cerrado de OpenAI, Anthropic, Google, etc., y las alternativas de código cerrado de Mistral, Meta y otros.
Los modelos de código abierto siguen siendo bastante inaccesibles para la población en general, pero es probable que esto también cambie.
Entonces, ¿alguno de estos modelos representa un auténtico avance en el aprendizaje automático, o simplemente más de lo mismo pero mejor? Depende de a quién se le pregunte.
Algunos, como Elon Musk, predicen que la IA superará a la inteligencia humana en el plazo de un año.
Otros, como el jefe científico de Meta Yann LeCun, sostienen que la IA está muy por detrás de nosotros en cualquier medida sólida de inteligencia.
LeCun explicado en febrero sobre los actuales LLM: "Básicamente, no pueden inventar cosas nuevas. Van a regurgitar aproximadamente todo aquello en lo que fueron formados a partir de datos públicos, lo que significa que puedes conseguirlo en Google. La gente ha estado diciendo: 'Dios mío, tenemos que regular a los LLM porque van a ser muy peligrosos'. Eso no es cierto".
Meta pretende crear una IA "basada en objetos" que comprenda mejor el mundo e intente planificarlo y razonar en torno a él.
Nos esforzamos por averiguar cómo conseguir que estos modelos no sólo hablen, sino que razonen, planifiquen..."... que tengan memoria". explicó Joelle Pineauvicepresidente de investigación en IA de Meta.
El director de operaciones de OpenAI, Brad Lightcap, también dijo que su empresa se está centrando en mejorar la capacidad de la IA para razonar y manejar tareas más complejas.
"Vamos a empezar a ver IA que puede asumir tareas más complejas de una forma más sofisticada", dijo en un evento reciente. "Creo que con el tiempo... veremos a los modelos ir hacia tareas más largas, más complejas, y eso requiere implícitamente la mejora de su capacidad de razonar."
A medida que se acerca el verano de 2024, la comunidad de la IA y la sociedad en general estarán muy atentas a los avances revolucionarios que surjan de los laboratorios de estos gigantes tecnológicos.
Va a ser una selección bastante colorida para finales de año.