OpenAI acaba de hacer una demostración de su nuevo modelo fundacional insignia, GPT-4o, con increíbles capacidades de reconocimiento de voz y traducción.
Como director general, Sam Altman mismo declaró, sabíamos OpenAILa última "actualización de primavera" no estaba relacionada con GPT-5 o búsqueda de IA.
Pero hoy, a las 10 de la mañana PT, cientos de miles de personas se unieron a la presentación en directo del nuevo modelo, en la que la Directora de Tecnología Mira Murati demostró sus ventajas frente a su predecesor, el GPT-4.
Entre los principales anuncios de la sesión de demostración figuran:
- GPT-4o (la o significa omni) pretende sustituir al GPT-4, con OpenAI llamándolo su nuevo modelo fundacional insignia.
- Aunque en líneas generales es similar a GPT-4, GPT-4o ofrece un procesamiento multilingüe y audiovisual superior. Puede procesar y traducir audio casi en tiempo real. Pruebas posteriores demostraron que GPT-4o es peor que GPT-4 en algunas "tareas difíciles".
- OpenAI está haciendo GPT-4o disponible gratuitamente, con límites. Los usuarios Pro siguen teniendo prioridad y un tope de mensajes más alto.
- OpenAI también lanza una versión de escritorio de ChatGPTinicialmente sólo para Mac, que se está desplegando inmediatamente.
- Los usuarios libres también podrán acceder a GPT personalizadas.
- GPT-4o y sus funciones de voz se irán desplegando poco a poco en las próximas semanas y meses.
GPT-4otraducción de audio en tiempo real
El titular que más ha dado que hablar es el impresionante procesamiento y traducción de audio de GPT-4o, que funcionan prácticamente en tiempo real.
Las demostraciones mostraron que la IA participaba en conversaciones de voz extraordinariamente naturales, ofreciendo traducciones inmediatas, contando historias y proporcionando consejos de codificación.
Por ejemplo, el modelo puede analizar una imagen de un menú en un idioma extranjero, traducirla y ofrecer ideas y recomendaciones culturales.
OpenAI acaba de demostrar su nuevo modelo GPT-4o haciendo traducciones en tiempo real 🤯. pic.twitter.com/Cl0gp9v3kN
- Tom Warren (@tomwarren) 13 de mayo de 2024
También puede reconocer emociones a través de la respiración, las expresiones y otras señales visuales.
Clip de conversación en tiempo real con GPT4-o funcionando en ChatGPT aplicación
NUEVO: en lugar de limitarse a convertir el DISCURSO en texto, GPT-4o también puede comprender y etiquetar otras características del audio, como la RESPIRACIÓN y la EMOCIÓN. No estoy seguro de cómo se expresa esto en el modelo de respuesta.#openai https://t.co/CpvCkjI0iA pic.twitter.com/24C8rhMFAw
- Andrew Gao (@itsandrewgao) 13 de mayo de 2024
Las habilidades de reconocimiento emocional de GPT-4o probablemente suscitarán polémica una vez que se asiente el polvo.
La IA emocionalmente consciente podría desarrollar casos de uso potencialmente nefastos basados en la imitación humana, como las falsificaciones profundas, la ingeniería social, etc.
Otra impresionante habilidad demostrada por el equipo es la asistencia de codificación en tiempo real proporcionada por voz.
Con el GPT-4o/ChatGPT puedes tener un compañero de programación (círculo negro) que hable contigo y vea lo que tú ves.#openai hilo de anuncios https://t.co/CpvCkjI0iA pic.twitter.com/Tfh81mBHCv
- Andrew Gao (@itsandrewgao) 13 de mayo de 2024
En una demostración incluso se vieron dos instancias del modelo cantando entre sí.
Esta demo de dos GPT-4o cantándose es una de las cosas más locas que he visto nunca. pic.twitter.com/UXFfbIpuF6
- Matt Shumer (@mattshumer_) 13 de mayo de 2024
La esencia general de OpenAIes que la empresa pretende hacer que la multimodalidad de la IA sea realmente útil en situaciones cotidianas, desafiando en el proceso a herramientas como Google Translate.
Otro punto clave es que estas demostraciones son fieles a la realidad. OpenAI señaló: "Todos los vídeos de esta página son en 1x tiempo real", posiblemente aludiendo a Google, que editó en gran medida su Gemini vídeo de demostración exagerar sus habilidades multimodales.
Con GPT-4o, las aplicaciones multimodales de IA podrían dejar de ser una novedad enterrada en lo más profundo de las interfaces de IA para convertirse en algo con lo que el usuario medio pueda interactuar a diario.
Aunque la demostración fue impresionante, no deja de ser una demostración, y los resultados de los usuarios medios "in the wild" revelarán realmente lo competentes que son estas funciones.
Aparte del procesamiento y la traducción de voz en tiempo real, que está acaparando todo el protagonismo, el hecho de que OpenAI es hacer que este nuevo modelo esté libre de limitaciones es enorme.
Wunque GPT-4o es *sólo* un GPT-4 ligeramente mejor, equipará a cualquiera con un modelo de IA de la máxima calidad, igualando las condiciones para millones de personas en todo el mundo.
Puede ver el anuncio y la demostración a continuación:
Todo lo que sabemos sobre GPT-4o
He aquí un resumen de todo lo que sabemos hasta ahora sobre GPT-4o:
- Integración multimodal: GPT-4o procesa y genera rápidamente datos de texto, audio e imagen, lo que permite interacciones dinámicas en distintos formatos.
- Respuestas en tiempo real: El modelo ofrece tiempos de respuesta impresionantes, comparables a la velocidad de reacción humana en una conversación, con respuestas de audio que comienzan en tan solo 232 milisegundos.
- Capacidades lingüísticas y de codificación: GPT-4o iguala el rendimiento de GPT-4 Turbo en tareas de inglés y codificación y lo supera en el procesamiento de textos no ingleses.
- Mejoras audiovisuales: En comparación con los modelos anteriores, GPT-4o muestra una comprensión superior de las tareas de visión y audio, lo que mejora su capacidad para interactuar con contenidos multimedia.
- Interacciones naturales: Las demostraciones incluyeron a dos GPT-4os participando en una canción, ayudando en la preparación de entrevistas, jugando a juegos como piedra, papel o tijeras, e incluso creando humor con chistes de papá.
- Costes reducidos para los promotores: OpenAI ha reducido el coste para los desarrolladores que utilicen GPT-4o en 50% y ha duplicado su velocidad de procesamiento.
- Rendimiento de referencia: Puntos de referencia GPT-4o sobresale en tareas multilingües, de audio y visuales, aunque pruebas independientes confirman que está por detrás de GPT-4 en algunas tareas de codificación, matemáticas y otras "difíciles".
GPT-4o es un anuncio significativo para OpenAI, particularly as its the most powerful free closed model available by a sizeable margin.
Podría marcar una era de multimodalidad de IA práctica y útil con la que la gente empiece a comprometerse en masa.
Sería un gran hito tanto para la empresa como para el sector de la IA generativa en su conjunto.