Meta presenterar Voicebox, en banbrytande ljudcentrerad AI

17 juni 2023

AI Meta

Meta har presenterat Voiceboxär en toppmodern generativ AI-modell för tal. Den fungerar på samma sätt som textgeneratorer, som ChatGPT, men genererar ljud i stället för textsvar. 

Voicebox kan generera ljud från grunden eller modifiera befintligt ljud. Det är ett mycket flexibelt verktyg som kan ta ett 2-sekunders ljudklipp av någons röst och använda det för att generera tal på ett annat språk samtidigt som röstintonationen bibehålls.

Detta kombineras med text-till-tal-generering. Du kan alltså "sätta in" din röst i AI:n och använda den för att generera text-till-tal med din egen röst. Om du till exempel är på semester och behöver kommunicera på engelska, franska, spanska, tyska, polska eller portugisiska, skriver du bara in ditt meddelande i Voicebox, så talar den åt dig.

Modellen tränades med över 50.000 timmars inspelat tal och utskrifter på 6 språk: Engelska, franska, spanska, tyska, polska och portugisiska. Den är betydligt snabbare och mer exakt än liknande ljudcentrerade AI:er, som VALL-E.  

Här är Voicebox 4 huvudsakliga användningsområden:

  1. Text-till-tal-syntes i kontext: Voicebox kan generera realistiskt ljud från text. Detta kan användas för att skapa flerspråkiga virtuella assistenter som gör det möjligt för personer med röst- och hörselproblem att konversera mer naturligt. 
  2. Överföring av stilar mellan olika språk: AI kan översätta text till 6 olika språk, vilket möjliggör autentisk och naturlig flerspråkig kommunikation.
  3. Denoising och redigering av tal: Voicebox kan generera tal för att redigera segment i ljudinspelningar. Den kan t.ex. återskapa delar av tal som skadats av brus. 
  4. Sampling av olika tal: Voicebox kan generera representativt tal på 6 språk, vilket är idealiskt för att generera syntetiska data för andra tal- och ljudmodeller med imponerande resultat. Taligenkänningsmodeller som tränats på Voicebox-genererat syntetiskt tal presterar nästan lika bra som modeller som tränats på riktigt tal, med en marginell försämring av felprocenten på 1%, ett stort steg från den försämring på 45 till 70% som observerats i liknande modeller. 

Meta har inte släppt Voicebox ännu, med hänvisning till oro för missbruk. De har dock publicerat ett fördjupat papper om modellen, tillgänglig här

Även om det inte finns någon officiell uppskattning av när människor kommer att kunna använda Voicebox, säger Meta att verktyget kommer att hjälpa skapare att redigera ljudspår, förbättra kommunikationen med synskadade och göra det möjligt för människor att tala alla främmande språk med sin egen röst.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Sam Jeans

Sam är en vetenskaps- och teknikskribent som har arbetat i olika AI-startups. När han inte skriver läser han medicinska tidskrifter eller gräver igenom lådor med vinylskivor.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar