Meta onthult Voicebox, een geavanceerde audio-georiënteerde AI

17 juni 2023

AI Meta

Meta heeft onthuld Voicebox, een geavanceerd generatief AI-model voor spraak. Het werkt op dezelfde manier als tekstgeneratoren, zoals ChatGPT, maar genereert audio in plaats van tekstreacties. 

Voicebox kan audio vanaf nul genereren of bestaande audio aanpassen. Het is een zeer flexibele tool die een audioclip van 2 seconden van iemands stem kan nemen en die kan gebruiken om spraak in een andere taal te genereren met behoud van de intonatie van de stem.

Dit wordt gecombineerd met het genereren van tekst-naar-spraak. Je kunt dus je stem 'invoegen' in de AI en deze gebruiken voor het genereren van tekst-naar-spraak met je eigen stem. Als je bijvoorbeeld op vakantie bent en moet communiceren in het Engels, Frans, Spaans, Duits, Pools of Portugees, typ je gewoon je bericht in de Voicebox en hij spreekt voor je.

Het model is getraind met meer dan 50.000 uur opgenomen spraak en transcripties in 6 talen: Engels, Frans, Spaans, Duits, Pools en Portugees. Het is aanzienlijk sneller en nauwkeuriger dan vergelijkbare audio-gerichte AI's, zoals VALL-E.  

Hier zijn de 4 belangrijkste gebruiksmogelijkheden van Voicebox:

  1. In-context tekst-naar-spraaksynthese: Voicebox kan realistische audio uit tekst genereren. Dit zou gebruikt kunnen worden om meertalige virtuele assistenten te creëren zodat mensen met stem- en gehoorproblemen op een meer natuurlijke manier met elkaar kunnen praten. 
  2. Taaloverstijgende stijloverdracht: De AI kan tekst vertalen in 6 verschillende talen, waardoor authentieke en natuurlijke meertalige communicatie mogelijk wordt.
  3. Spraakdenoisatie en -bewerking: Voicebox kan spraak genereren om segmenten binnen audio-opnames te bewerken. Het kan bijvoorbeeld delen van spraak die door ruis zijn aangetast opnieuw synthetiseren. 
  4. Diverse spraakmonsters: Voicebox kan representatieve spraak genereren in 6 talen, wat ideaal is voor het genereren van synthetische data voor andere spraak- en audiomodellen met indrukwekkende resultaten. Spraakherkenningsmodellen getraind op Voicebox gegenereerde synthetische spraak presteren bijna net zo goed als modellen getraind op echte spraak, met een marginale 1% foutdegradatie, een enorme sprong voorwaarts ten opzichte van de 45 tot 70% degradatie die werd waargenomen in vergelijkbare modellen. 

Meta heeft Voicebox nog niet vrijgegeven omdat ze zich zorgen maken over misbruik. Ze hebben echter wel een uitgebreid artikel over het model gepubliceerd, hier verkrijgbaar

Hoewel er geen officiële schatting is wanneer mensen Voicebox kunnen gebruiken, zegt Meta dat de tool makers zal helpen om audiotracks te bewerken, de communicatie met mensen met een visuele beperking zal verbeteren en mensen in staat zal stellen om een vreemde taal met hun eigen stem te spreken.

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Sam Jeans

Sam is een wetenschap- en technologieschrijver die bij verschillende AI-startups heeft gewerkt. Als hij niet aan het schrijven is, leest hij medische tijdschriften of graaft hij door dozen met vinylplaten.

×

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden