L'assistente vocale AI di Kyutai batte OpenAI per il rilascio pubblico

7 luglio 2024

  • Il laboratorio francese no-profit di ricerca sull'intelligenza artificiale Kyutai ha rilasciato Moshi, un assistente vocale AI in tempo reale
  • Moshi elabora le emozioni e parla in vari stili e accenti mentre ascolta simultaneamente.
  • Moshi offre una latenza end-to-end di 200 ms per interazioni in tempo reale utilizzando hardware di livello consumer

Stiamo ancora aspettando che OpenAI rilasci il suo assistente vocale GPT-4o, ma un laboratorio di ricerca francese no-profit sull'intelligenza artificiale lo ha battuto sul tempo con il rilascio di Moshi.

Moshi è un assistente vocale AI in tempo reale basato sul modello Helium 7B che Kyutai ha sviluppato e addestrato utilizzando un mix di testo sintetico e dati audio. Moshi è stato poi messo a punto con dialoghi sintetici per insegnargli a interagire.

Moshi è in grado di comprendere ed esprimere 70 emozioni diverse e di parlare in vari stili e accenti. La dimostrazione della sua latenza end-to-end di 200 milli-secondi è davvero impressionante. Ascoltando, pensando e parlando simultaneamente, le interazioni in tempo reale sono fluide, senza pause imbarazzanti.

Potrebbe non sembrare così afoso come il GPT-4o's Sky, che secondo OpenAI non sta imitando Scarlett Johanssonma Moshi risponde più velocemente ed è disponibile pubblicamente.

Moshi ha ottenuto la sua voce grazie all'addestramento su campioni audio prodotti da una doppiatrice che Kyutai ha definito "Alice", senza fornire ulteriori dettagli.

Il modo in cui Moshi interrompe e risponde con pause impercettibili rende le interazioni con il modello AI molto naturali.

Ecco un esempio di Moshi che si unisce a un gioco di ruolo fantascientifico.

Helium 7B è molto più piccolo di GPT-4o, ma le sue dimensioni ridotte consentono di eseguirlo su hardware di livello consumer o nel cloud utilizzando GPU a basso consumo.

Durante la dimostrazione, un ingegnere di Kyutai ha utilizzato un MacBook Pro per mostrare come Moshi possa essere eseguito sul dispositivo.

Era un po' difettoso, ma è un segno promettente che presto avremo un assistente vocale AI a bassa latenza che funzionerà sui nostri telefoni o computer senza inviare i nostri dati privati al cloud.

La compressione audio è fondamentale per rendere Moshi il più piccolo possibile. Utilizza un codec audio chiamato Mimi che comprime l'audio 300 volte più piccolo di quanto faccia il codec MP3. Mimi cattura sia le informazioni acustiche che i dati semantici dell'audio.

Se volete chattare con Moshi, potete provare qui: https://kyutai.org/

È importante ricordare che Moshi è un prototipo sperimentale e che è stato creato in soli 6 mesi da un team di 8 ingegneri.

La versione web è davvero difettosa, ma probabilmente è perché i loro server sono affollati di utenti che vogliono provarla.

Kyutai afferma che presto rilascerà pubblicamente il modello, il codec, il codice e i pesi. Forse dovremo aspettare fino ad allora per ottenere prestazioni simili a quelle della demo.

Anche se è un po' buggata, la demo è stata più onesta rispetto ai teaser di Big Tech sulle funzionalità che poi non vengono rilasciate.

Moshi è un ottimo esempio di ciò che può fare un piccolo team di ingegneri AI e ci fa chiedere perché stiamo ancora aspettando che GPT-4o ci parli.

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Eugene van der Watt

Eugene proviene da un background di ingegneria elettronica e ama tutto ciò che è tecnologico. Quando si prende una pausa dal consumo di notizie sull'intelligenza artificiale, lo si può trovare al tavolo da biliardo.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni