OpenAI ha presentado funciones de voz e imagen para ChatGPT, que se implementarán en las próximas semanas tanto en la aplicación como en el navegador.
Es justo decir que OpenAI se ha dormido en los laureles con ChatGPT, que no incorpora el mismo nivel de funcionalidad que sus competidores Claude de Anthropic y Bard de Google.
OpenAI añadió a principios de año una función de búsqueda en el navegador para ChatGPT, que permitía a la herramienta acceder a Internet, pero no funcionó especialmente bien y fue eliminado por posible violación de los derechos de autor al "imprimir" textos de sitios web de pago.
Dicho esto, GPT-4 es, con diferencia, el modelo de lenguaje de gran tamaño (LLM) más complejo que existe, lo que ha mantenido a OpenAI en lo más alto de la jerarquía de la IA generativa.
OpenAI ha potenciado las funciones del chatbot y mantiene a ChatGPT en el candelero mientras la competencia en el sector se recrudece.
¿Qué hay de nuevo?
OpenAI está añadiendo lo siguiente a ChatGPT:
- Interacción por voz: Ahora los usuarios pueden hablar directamente a ChatGPT y, a cambio, la IA puede responder de forma audible utilizando una de sus cinco voces sintetizadas. Esta función de voz se basa en un avanzado modelo de texto a voz que OpenAI ha entrenado utilizando muestras de actores de doblaje. ChatGPT aprovecha Susurroel sistema de reconocimiento de voz de código abierto de OpenAI.
- Interacción de imágenes: Además de la voz, los usuarios pueden proporcionar imágenes a ChatGPT, lo que añade una dimensión visual a la conversación. Por ejemplo, si un usuario comparte una foto de un electrodoméstico averiado, ChatGPT podría diagnosticar el problema y sugerir soluciones. En las plataformas móviles, se ha integrado una herramienta de dibujo que permite a los usuarios rodear o señalar áreas específicas de una imagen para que la IA se centre en ellas. Las funciones de imagen se basan en una versión multimodal de los modelos GPT-3.5 y GPT-4, que se han perfeccionado para interpretar y razonar sobre datos visuales.
Con estas nuevas incorporaciones, los usuarios pueden mantener una conversación de ida y vuelta con ese chatbot y pedirle información específica sobre el contenido de las imágenes, entre otras cosas.
No cabe duda de que la comunidad encontrará formas interesantes de poner a prueba los límites del nuevo ChatGPT.
OpenAI ha publicado la siguiente demo promocional en X:
Utiliza tu voz para entablar una conversación de ida y vuelta con ChatGPT. Habla con él sobre la marcha, pídele un cuento para dormir o zanja un debate en la mesa.
Sonido encendido 🔊 pic.twitter.com/3tuWzX0wtS
- OpenAI (@OpenAI) 25 de septiembre de 2023
Riesgos y plan de implantación
Las nuevas funciones conllevan nuevos riesgos. Por ejemplo, la tecnología de voz podría utilizarse indebidamente para suplantar la identidad de personajes públicos. Como medida de precaución, OpenAI ha restringido la función de voz únicamente al chat conversacional.
En cuanto a las imágenes, OpenAI ha limitado deliberadamente la capacidad de ChatGPT para analizar directamente a las personas en las fotos.
OpenAI planea un despliegue gradual, siendo los usuarios de ChatGPT Plus y Enterprise los primeros en recibir acceso.
La función de voz estará disponible en las aplicaciones móviles, mientras que las funciones de imagen serán accesibles en todas las plataformas.
El anuncio de OpenAI entra en un popurrí de lanzamientos de productos de IA generativa recientes e inminentes, entre los que se incluyen herramientas de YouTube, Copiloto de Microsoft de herramientas y asistentes de IA, y una importante actualización de Google Bard.