Stiamo ancora aspettando che OpenAI rilasci il suo assistente vocale GPT-4o, ma un laboratorio di ricerca francese no-profit sull'intelligenza artificiale lo ha battuto sul tempo con il rilascio di Moshi.
Moshi è un assistente vocale AI in tempo reale basato sul modello Helium 7B che Kyutai ha sviluppato e addestrato utilizzando un mix di testo sintetico e dati audio. Moshi è stato poi messo a punto con dialoghi sintetici per insegnargli a interagire.
Moshi è in grado di comprendere ed esprimere 70 emozioni diverse e di parlare in vari stili e accenti. La dimostrazione della sua latenza end-to-end di 200 milli-secondi è davvero impressionante. Ascoltando, pensando e parlando simultaneamente, le interazioni in tempo reale sono fluide, senza pause imbarazzanti.
Potrebbe non sembrare così afoso come il GPT-4o's Sky, che secondo OpenAI non sta imitando Scarlett Johanssonma Moshi risponde più velocemente ed è disponibile pubblicamente.
Moshi ha ottenuto la sua voce grazie all'addestramento su campioni audio prodotti da una doppiatrice che Kyutai ha definito "Alice", senza fornire ulteriori dettagli.
Il modo in cui Moshi interrompe e risponde con pause impercettibili rende le interazioni con il modello AI molto naturali.
Ecco un esempio di Moshi che si unisce a un gioco di ruolo fantascientifico.
Moshi e Alex in un'avventura spaziale 🚀 pic.twitter.com/WRkPCScZ9F
- kyutai (@kyutai_labs) 3 luglio 2024
Helium 7B è molto più piccolo di GPT-4o, ma le sue dimensioni ridotte consentono di eseguirlo su hardware di livello consumer o nel cloud utilizzando GPU a basso consumo.
Durante la dimostrazione, un ingegnere di Kyutai ha utilizzato un MacBook Pro per mostrare come Moshi possa essere eseguito sul dispositivo.
Era un po' difettoso, ma è un segno promettente che presto avremo un assistente vocale AI a bassa latenza che funzionerà sui nostri telefoni o computer senza inviare i nostri dati privati al cloud.
La compressione audio è fondamentale per rendere Moshi il più piccolo possibile. Utilizza un codec audio chiamato Mimi che comprime l'audio 300 volte più piccolo di quanto faccia il codec MP3. Mimi cattura sia le informazioni acustiche che i dati semantici dell'audio.
Se volete chattare con Moshi, potete provare qui: https://kyutai.org/
È importante ricordare che Moshi è un prototipo sperimentale e che è stato creato in soli 6 mesi da un team di 8 ingegneri.
La versione web è davvero difettosa, ma probabilmente è perché i loro server sono affollati di utenti che vogliono provarla.
Kyutai afferma che presto rilascerà pubblicamente il modello, il codec, il codice e i pesi. Forse dovremo aspettare fino ad allora per ottenere prestazioni simili a quelle della demo.
Anche se è un po' buggata, la demo è stata più onesta rispetto ai teaser di Big Tech sulle funzionalità che poi non vengono rilasciate.
Moshi è un ottimo esempio di ciò che può fare un piccolo team di ingegneri AI e ci fa chiedere perché stiamo ancora aspettando che GPT-4o ci parli.