El asistente de voz de Kyutai se adelanta a OpenAI en su lanzamiento público

Todavía estamos esperando a que OpenAI lance su asistente de voz GPT-4o, pero un laboratorio francés de investigación en IA sin ánimo de lucro se le ha adelantado con el lanzamiento de Moshi.

Moshi es un asistente de voz en tiempo real basado en el modelo Helium 7B que Kyutai desarrolló y entrenó con una mezcla de datos de texto y audio sintéticos. A continuación, Moshi se perfeccionó con diálogos sintéticos para enseñarle a interactuar.

Moshi puede entender y expresar 70 emociones diferentes y hablar en varios estilos y acentos. La demostración de su latencia de 200 milisegundos de extremo a extremo es muy impresionante. Al escuchar, pensar y hablar simultáneamente, las interacciones en tiempo real son fluidas y sin pausas incómodas.

Puede que no suene tan sensual como GPT-4o's Sky, que según OpenAI no está imitando a Scarlett Johanssonpero Moshi responde más rápido y está a disposición del público.

Moshi obtuvo su voz al ser entrenado con muestras de audio producidas por un actor de doblaje al que Kyutai se refirió como "Alice", sin dar más detalles.

La forma en que Moshi interrumpe y responde con pausas imperceptibles hace que las interacciones con el modelo de IA resulten muy naturales.

Aquí tienes un ejemplo de Moshi participando en un juego de rol de ciencia ficción.

Moshi y Alex se van de aventura espacial 🚀. pic.twitter.com/WRkPCScZ9F

- kyutai (@kyutai_labs) 3 de julio de 2024

Helium 7B es mucho más pequeño que GPT-4o, pero su reducido tamaño permite ejecutarlo en hardware de consumo o en la nube utilizando GPU de bajo consumo.

Durante la demostración, un ingeniero de Kyutai utilizó un MacBook Pro para mostrar cómo Moshi podía ejecutarse en el dispositivo.

Tuvo algunos fallos, pero es una señal prometedora de que pronto tendremos un asistente de voz de IA de baja latencia funcionando en nuestros teléfonos u ordenadores sin enviar nuestros datos privados a la nube.

La compresión de audio es crucial para que Moshi sea lo más pequeño posible. Utiliza un códec de audio llamado Mimi que comprime el audio 300 veces menos de lo que lo hace el códec MP3. Mimi captura tanto la información acústica como los datos semánticos del audio.

Si quieres chatear con Moshi puedes probarlo aquí: https://kyutai.org/

Es importante recordar que Moshi es un prototipo experimental y que fue creado en sólo 6 meses por un equipo de 8 ingenieros.

La versión web tiene muchos fallos, pero probablemente se deba a que sus servidores están saturados de usuarios que quieren probarla.

Kyutai dice que pronto hará públicos el modelo, el códec, el código y los pesos. Puede que tengamos que esperar hasta entonces para obtener un rendimiento similar al de la demo.

Aunque tiene algunos fallos, la demo fue refrescantemente honesta en comparación con los teasers de Big Tech sobre características que no llegan a publicarse.

Moshi es un gran ejemplo de lo que puede hacer un pequeño equipo de ingenieros de IA y hace que te preguntes por qué seguimos esperando a que GPT-4o nos hable.

El asistente de voz de Kyutai se adelanta a OpenAI en su lanzamiento público

Únete al futuro

Eugene van der Watt

ENTRADAS RELACIONADAS

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

El asistente de voz de Kyutai se adelanta a OpenAI en su lanzamiento público

Únete al futuro

Eugene van der Watt

ENTRADAS RELACIONADAS

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

PDF GRATUITO EXCLUSIVOAdelántese con DailyAI

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI