Meta presenterer Voicebox, en banebrytende lydsentrert AI

17. juni 2023

AI Meta

Meta har avduket VoiceboxChatGPT er en avansert generativ AI-modell for tale. Den fungerer på samme måte som tekstgeneratorer, som ChatGPT, men genererer lyd i stedet for tekstsvar. 

Voicebox kan generere lyd fra bunnen av eller modifisere eksisterende lyd. Det er et svært fleksibelt verktøy som kan ta et lydklipp på to sekunder av en persons stemme og bruke det til å generere tale på et annet språk, samtidig som stemmeintonasjonen beholdes.

Dette kombineres med tekst-til-tale-generering. Du kan altså "sette inn" stemmen din i AI-en og bruke den til å generere tekst-til-tale med din egen stemme. Hvis du for eksempel er på ferie og trenger å kommunisere på engelsk, fransk, spansk, tysk, polsk eller portugisisk, kan du bare skrive inn meldingen din i Voicebox, så snakker den for deg.

Modellen ble trent med over 50 000 timer med innspilt tale og transkripsjoner på seks språk: Engelsk, fransk, spansk, tysk, polsk og portugisisk. Den er betydelig raskere og mer nøyaktig enn lignende lydsentrerte AI-er, som VALL-E.  

Her er Voicebox' fire viktigste bruksområder:

  1. Tekst-til-tale-syntese i kontekst: Voicebox kan generere realistisk lyd fra tekst. Dette kan brukes til å skape flerspråklige virtuelle assistenter som gjør det mulig for personer med stemme- og hørselsproblemer å føre en mer naturlig samtale. 
  2. Stiloverføring på tvers av språk: Den kunstige intelligensen kan oversette tekst til seks forskjellige språk, noe som muliggjør autentisk og naturlig flerspråklig kommunikasjon.
  3. Denoising og redigering av tale: Voicebox kan generere tale for å redigere segmenter i lydopptak. Den kan for eksempel resyntetisere deler av tale som er ødelagt av støy. 
  4. Ulike taleprøver: Voicebox kan generere representativ tale på tvers av seks språk, noe som er ideelt for å generere syntetiske data for andre tale- og lydmodeller med imponerende resultater. Talegjenkjenningsmodeller som er trent på Voicebox-generert syntetisk tale, presterer nesten like bra som modeller som er trent på ekte tale, med en marginal feilrateforringelse på 1%, et stort sprang fra 45 til 70% som er observert i lignende modeller. 

Meta har ikke gitt ut Voicebox ennå, med henvisning til bekymringer om misbruk. De har imidlertid publisert en grundig artikkel om modellen, tilgjengelig her

Det er ikke offisielt anslått når folk vil kunne bruke Voicebox, men Meta sier at verktøyet vil hjelpe skaperne med å redigere lydspor, forbedre kommunikasjonen med synshemmede og gjøre det mulig for folk å snakke et hvilket som helst fremmedspråk med sin egen stemme.

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Sam Jeans

Sam er en vitenskaps- og teknologiskribent som har jobbet i ulike oppstartsbedrifter innen kunstig intelligens. Når han ikke skriver, leser han medisinske tidsskrifter eller graver seg gjennom esker med vinylplater.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser