Meta presenterer Voicebox, en banebrytende lydsentrert AI

Meta har avduket VoiceboxChatGPT er en avansert generativ AI-modell for tale. Den fungerer på samme måte som tekstgeneratorer, som ChatGPT, men genererer lyd i stedet for tekstsvar.

Voicebox kan generere lyd fra bunnen av eller modifisere eksisterende lyd. Det er et svært fleksibelt verktøy som kan ta et lydklipp på to sekunder av en persons stemme og bruke det til å generere tale på et annet språk, samtidig som stemmeintonasjonen beholdes.

Dette kombineres med tekst-til-tale-generering. Du kan altså "sette inn" stemmen din i AI-en og bruke den til å generere tekst-til-tale med din egen stemme. Hvis du for eksempel er på ferie og trenger å kommunisere på engelsk, fransk, spansk, tysk, polsk eller portugisisk, kan du bare skrive inn meldingen din i Voicebox, så snakker den for deg.

Modellen ble trent med over 50 000 timer med innspilt tale og transkripsjoner på seks språk: Engelsk, fransk, spansk, tysk, polsk og portugisisk. Den er betydelig raskere og mer nøyaktig enn lignende lydsentrerte AI-er, som VALL-E.

Her er Voicebox' fire viktigste bruksområder:

Tekst-til-tale-syntese i kontekst: Voicebox kan generere realistisk lyd fra tekst. Dette kan brukes til å skape flerspråklige virtuelle assistenter som gjør det mulig for personer med stemme- og hørselsproblemer å føre en mer naturlig samtale.
Stiloverføring på tvers av språk: Den kunstige intelligensen kan oversette tekst til seks forskjellige språk, noe som muliggjør autentisk og naturlig flerspråklig kommunikasjon.
Denoising og redigering av tale: Voicebox kan generere tale for å redigere segmenter i lydopptak. Den kan for eksempel resyntetisere deler av tale som er ødelagt av støy.
Ulike taleprøver: Voicebox kan generere representativ tale på tvers av seks språk, noe som er ideelt for å generere syntetiske data for andre tale- og lydmodeller med imponerende resultater. Talegjenkjenningsmodeller som er trent på Voicebox-generert syntetisk tale, presterer nesten like bra som modeller som er trent på ekte tale, med en marginal feilrateforringelse på 1%, et stort sprang fra 45 til 70% som er observert i lignende modeller.

Meta har ikke gitt ut Voicebox ennå, med henvisning til bekymringer om misbruk. De har imidlertid publisert en grundig artikkel om modellen, tilgjengelig her.

Det er ikke offisielt anslått når folk vil kunne bruke Voicebox, men Meta sier at verktøyet vil hjelpe skaperne med å redigere lydspor, forbedre kommunikasjonen med synshemmede og gjøre det mulig for folk å snakke et hvilket som helst fremmedspråk med sin egen stemme.

Meta presenterer Voicebox, en banebrytende lydsentrert AI

Bli med i fremtiden

Sam Jeans

RELATERTE ARTIKLER

AI May Soon Help You Understand What Your Pet Is Trying to Say

Netflix Adds ChatGPT-Powered AI to Stop You From Scrolling Forever

New Skechers AI Store Assistant Rates Outfit and Suggests What to Buy

Ferrari Just Launched an AI App That Lets Fans Experience F1 Like Never Before

Meta presenterer Voicebox, en banebrytende lydsentrert AI

Bli med i fremtiden

Sam Jeans

RELATERTE ARTIKLER

AI May Soon Help You Understand What Your Pet Is Trying to Say

Netflix Adds ChatGPT-Powered AI to Stop You From Scrolling Forever

New Skechers AI Store Assistant Rates Outfit and Suggests What to Buy

Ferrari Just Launched an AI App That Lets Fans Experience F1 Like Never Before

GRATIS PDF EKSKLUSIVHold deg i forkant med DailyAI

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI