El asistente de voz de Kyutai se adelanta a OpenAI en su lanzamiento público

7 de julio de 2024

  • Kyutai, un laboratorio francés sin ánimo de lucro dedicado a la investigación de la inteligencia artificial, presenta Moshi, un asistente de voz en tiempo real.
  • Moshi procesa las emociones y habla en varios estilos y acentos mientras escucha simultáneamente
  • Moshi ofrece una latencia de 200 ms de extremo a extremo para interacciones en tiempo real utilizando hardware de consumo.

Todavía estamos esperando a que OpenAI lance su asistente de voz GPT-4o, pero un laboratorio francés de investigación en IA sin ánimo de lucro se le ha adelantado con el lanzamiento de Moshi.

Moshi es un asistente de voz en tiempo real basado en el modelo Helium 7B que Kyutai desarrolló y entrenó con una mezcla de datos de texto y audio sintéticos. A continuación, Moshi se perfeccionó con diálogos sintéticos para enseñarle a interactuar.

Moshi puede entender y expresar 70 emociones diferentes y hablar en varios estilos y acentos. La demostración de su latencia de 200 milisegundos de extremo a extremo es muy impresionante. Al escuchar, pensar y hablar simultáneamente, las interacciones en tiempo real son fluidas y sin pausas incómodas.

Puede que no suene tan sensual como GPT-4o's Sky, que según OpenAI no está imitando a Scarlett Johanssonpero Moshi responde más rápido y está a disposición del público.

Moshi obtuvo su voz al ser entrenado con muestras de audio producidas por un actor de doblaje al que Kyutai se refirió como "Alice", sin dar más detalles.

La forma en que Moshi interrumpe y responde con pausas imperceptibles hace que las interacciones con el modelo de IA resulten muy naturales.

Aquí tienes un ejemplo de Moshi participando en un juego de rol de ciencia ficción.

Helium 7B es mucho más pequeño que GPT-4o, pero su reducido tamaño permite ejecutarlo en hardware de consumo o en la nube utilizando GPU de bajo consumo.

Durante la demostración, un ingeniero de Kyutai utilizó un MacBook Pro para mostrar cómo Moshi podía ejecutarse en el dispositivo.

Tuvo algunos fallos, pero es una señal prometedora de que pronto tendremos un asistente de voz de IA de baja latencia funcionando en nuestros teléfonos u ordenadores sin enviar nuestros datos privados a la nube.

La compresión de audio es crucial para que Moshi sea lo más pequeño posible. Utiliza un códec de audio llamado Mimi que comprime el audio 300 veces menos de lo que lo hace el códec MP3. Mimi captura tanto la información acústica como los datos semánticos del audio.

Si quieres chatear con Moshi puedes probarlo aquí: https://kyutai.org/

Es importante recordar que Moshi es un prototipo experimental y que fue creado en sólo 6 meses por un equipo de 8 ingenieros.

La versión web tiene muchos fallos, pero probablemente se deba a que sus servidores están saturados de usuarios que quieren probarla.

Kyutai dice que pronto hará públicos el modelo, el códec, el código y los pesos. Puede que tengamos que esperar hasta entonces para obtener un rendimiento similar al de la demo.

Aunque tiene algunos fallos, la demo fue refrescantemente honesta en comparación con los teasers de Big Tech sobre características que no llegan a publicarse.

Moshi es un gran ejemplo de lo que puede hacer un pequeño equipo de ingenieros de IA y hace que te preguntes por qué seguimos esperando a que GPT-4o nos hable.

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Eugene van der Watt

Eugene es ingeniero electrónico y le encanta todo lo relacionado con la tecnología. Cuando descansa de consumir noticias sobre IA, lo encontrará jugando al billar.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales