Todo lo que necesita saber sobre el nuevo modelo insignia de OpenAI, el GPT-4o

13 de mayo de 2024

  • OpenAI anuncia su nuevo modelo multimodal insignia llamado GPT-4o
  • La O significa "omni", lo que denota el excelente rendimiento audiovisual de este modelo.
  • GPT-4o puede realizar una impresionante traducción de voz en tiempo real
OpenAI

OpenAI acaba de hacer una demostración de su nuevo modelo fundacional insignia, GPT-4o, con increíbles capacidades de reconocimiento de voz y traducción. 

Como director general, Sam Altman mismo declaró, sabíamos OpenAILa última "actualización de primavera" no estaba relacionada con GPT-5 o búsqueda de IA.

Pero hoy, a las 10 de la mañana PT, cientos de miles de personas se unieron a la presentación en directo del nuevo modelo, en la que la Directora de Tecnología Mira Murati demostró sus ventajas frente a su predecesor, el GPT-4.

Entre los principales anuncios de la sesión de demostración figuran:

  • GPT-4o (la o significa omni) pretende sustituir al GPT-4, con OpenAI llamándolo su nuevo modelo fundacional insignia. 
  • Aunque en líneas generales es similar a GPT-4, GPT-4o ofrece un procesamiento multilingüe y audiovisual superior. Puede procesar y traducir audio casi en tiempo real. Pruebas posteriores demostraron que GPT-4o es peor que GPT-4 en algunas "tareas difíciles".
  • OpenAI está haciendo GPT-4o disponible gratuitamente, con límites. Los usuarios Pro siguen teniendo prioridad y un tope de mensajes más alto.
  • OpenAI también lanza una versión de escritorio de ChatGPTinicialmente sólo para Mac, que se está desplegando inmediatamente.
  • Los usuarios libres también podrán acceder a GPT personalizadas.
  • GPT-4o y sus funciones de voz se irán desplegando poco a poco en las próximas semanas y meses.

GPT-4otraducción de audio en tiempo real

El titular que más ha dado que hablar es el impresionante procesamiento y traducción de audio de GPT-4o, que funcionan prácticamente en tiempo real. 

Las demostraciones mostraron que la IA participaba en conversaciones de voz extraordinariamente naturales, ofreciendo traducciones inmediatas, contando historias y proporcionando consejos de codificación. 

Por ejemplo, el modelo puede analizar una imagen de un menú en un idioma extranjero, traducirla y ofrecer ideas y recomendaciones culturales. 

También puede reconocer emociones a través de la respiración, las expresiones y otras señales visuales. 

Las habilidades de reconocimiento emocional de GPT-4o probablemente suscitarán polémica una vez que se asiente el polvo.

La IA emocionalmente consciente podría desarrollar casos de uso potencialmente nefastos basados en la imitación humana, como las falsificaciones profundas, la ingeniería social, etc. 

Otra impresionante habilidad demostrada por el equipo es la asistencia de codificación en tiempo real proporcionada por voz.

En una demostración incluso se vieron dos instancias del modelo cantando entre sí.

La esencia general de OpenAIes que la empresa pretende hacer que la multimodalidad de la IA sea realmente útil en situaciones cotidianas, desafiando en el proceso a herramientas como Google Translate. 

Otro punto clave es que estas demostraciones son fieles a la realidad. OpenAI señaló: "Todos los vídeos de esta página son en 1x tiempo real", posiblemente aludiendo a Google, que editó en gran medida su Gemini vídeo de demostración exagerar sus habilidades multimodales.

Con GPT-4o, las aplicaciones multimodales de IA podrían dejar de ser una novedad enterrada en lo más profundo de las interfaces de IA para convertirse en algo con lo que el usuario medio pueda interactuar a diario.

Aunque la demostración fue impresionante, no deja de ser una demostración, y los resultados de los usuarios medios "in the wild" revelarán realmente lo competentes que son estas funciones.

Aparte del procesamiento y la traducción de voz en tiempo real, que está acaparando todo el protagonismo, el hecho de que OpenAI es hacer que este nuevo modelo esté libre de limitaciones es enorme. 

Wunque GPT-4o es *sólo* un GPT-4 ligeramente mejor, equipará a cualquiera con un modelo de IA de la máxima calidad, igualando las condiciones para millones de personas en todo el mundo.

Puede ver el anuncio y la demostración a continuación:

Todo lo que sabemos sobre GPT-4o

He aquí un resumen de todo lo que sabemos hasta ahora sobre GPT-4o:

  • Integración multimodal: GPT-4o procesa y genera rápidamente datos de texto, audio e imagen, lo que permite interacciones dinámicas en distintos formatos. 
  • Respuestas en tiempo real: El modelo ofrece tiempos de respuesta impresionantes, comparables a la velocidad de reacción humana en una conversación, con respuestas de audio que comienzan en tan solo 232 milisegundos.
  • Capacidades lingüísticas y de codificación: GPT-4o iguala el rendimiento de GPT-4 Turbo en tareas de inglés y codificación y lo supera en el procesamiento de textos no ingleses.
  • Mejoras audiovisuales: En comparación con los modelos anteriores, GPT-4o muestra una comprensión superior de las tareas de visión y audio, lo que mejora su capacidad para interactuar con contenidos multimedia.
  • Interacciones naturales: Las demostraciones incluyeron a dos GPT-4os participando en una canción, ayudando en la preparación de entrevistas, jugando a juegos como piedra, papel o tijeras, e incluso creando humor con chistes de papá.
  • Costes reducidos para los promotores: OpenAI ha reducido el coste para los desarrolladores que utilicen GPT-4o en 50% y ha duplicado su velocidad de procesamiento.
  • Rendimiento de referencia: Puntos de referencia GPT-4o sobresale en tareas multilingües, de audio y visuales, aunque pruebas independientes confirman que está por detrás de GPT-4 en algunas tareas de codificación, matemáticas y otras "difíciles". 

GPT-4o es un anuncio significativo para OpenAI, particularly as its the most powerful free closed model available by a sizeable margin.

Podría marcar una era de multimodalidad de IA práctica y útil con la que la gente empiece a comprometerse en masa.

Sería un gran hito tanto para la empresa como para el sector de la IA generativa en su conjunto.

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Sam Jeans

Sam es un escritor de ciencia y tecnología que ha trabajado en varias startups de IA. Cuando no está escribiendo, se le puede encontrar leyendo revistas médicas o rebuscando en cajas de discos de vinilo.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales