Meta afslører Voicebox, en banebrydende lydcentreret AI

Meta har løftet sløret for VoiceboxEn state-of-the-art generativ AI-model til tale. Den fungerer på samme måde som tekstgeneratorer som ChatGPT, men genererer lyd i stedet for tekstsvar.

Voicebox kan generere lyd fra bunden eller ændre eksisterende lyd. Det er et meget fleksibelt værktøj, der kan tage et 2-sekunders lydklip af en persons stemme og bruge det til at generere tale på et andet sprog, samtidig med at stemmeintonationen bevares.

Dette kombineres med tekst-til-tale-generering. Så du kan "indsætte" din stemme i AI'en og bruge den til tekst-til-tale-generering med din egen stemme. Hvis du f.eks. er på ferie og har brug for at kommunikere på engelsk, fransk, spansk, tysk, polsk eller portugisisk, skal du bare skrive din besked i Voicebox, så taler den for dig.

Modellen blev trænet med over 50.000 timers optaget tale og udskrifter på 6 sprog: Engelsk, fransk, spansk, tysk, polsk og portugisisk. Den er betydeligt hurtigere og mere præcis end lignende lydcentrerede AI'er som VALL-E.

Her er Voicebox' 4 vigtigste anvendelsesmuligheder:

Tekst-til-tale-syntese i kontekst: Voicebox kan generere realistisk lyd ud fra tekst. Det kan bruges til at skabe flersprogede virtuelle assistenter, så folk med stemme- og høreproblemer kan tale mere naturligt sammen.
Overførsel af stil på tværs af sprog: Den kunstige intelligens kan oversætte tekst til 6 forskellige sprog, hvilket giver mulighed for autentisk og naturlig flersproget kommunikation.
Denoising og redigering af tale: Voicebox kan generere tale til redigering af segmenter i lydoptagelser. Den kan f.eks. resyntetisere dele af tale, der er ødelagt af støj.
Forskellige taleprøver: Voicebox kan generere repræsentativ tale på tværs af 6 sprog, hvilket er ideelt til at generere syntetiske data til andre tale- og lydmodeller med imponerende resultater. Talegenkendelsesmodeller, der er trænet på Voicebox-genereret syntetisk tale, klarer sig næsten lige så godt som modeller, der er trænet på ægte tale, med en marginal forringelse af fejlraten på 1%, et stort spring fra den forringelse på 45 til 70%, der er observeret i lignende modeller.

Meta har ikke frigivet Voicebox endnu på grund af bekymring for misbrug. De har dog udgivet en dybdegående artikel om modellen, tilgængelig her.

Der er ikke noget officielt bud på, hvornår folk vil kunne bruge Voicebox, men Meta siger, at værktøjet vil hjælpe skabere med at redigere lydspor, forbedre kommunikationen med synshandicappede og gøre det muligt for folk at tale et hvilket som helst fremmedsprog med deres egen stemme.

Meta afslører Voicebox, en banebrydende lydcentreret AI

Deltag i fremtiden

Sam Jeans

RELATEREDE ARTIKLER

AI May Soon Help You Understand What Your Pet Is Trying to Say

Netflix Adds ChatGPT-Powered AI to Stop You From Scrolling Forever

New Skechers AI Store Assistant Rates Outfit and Suggests What to Buy

Ferrari Just Launched an AI App That Lets Fans Experience F1 Like Never Before

Meta afslører Voicebox, en banebrydende lydcentreret AI

Deltag i fremtiden

Sam Jeans

RELATEREDE ARTIKLER

AI May Soon Help You Understand What Your Pet Is Trying to Say

Netflix Adds ChatGPT-Powered AI to Stop You From Scrolling Forever

New Skechers AI Store Assistant Rates Outfit and Suggests What to Buy

Ferrari Just Launched an AI App That Lets Fans Experience F1 Like Never Before

GRATIS PDF EKSKLUSIVTVær på forkant med DailyAI

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI