Meta har løftet sløret for VoiceboxEn state-of-the-art generativ AI-model til tale. Den fungerer på samme måde som tekstgeneratorer som ChatGPT, men genererer lyd i stedet for tekstsvar.
Voicebox kan generere lyd fra bunden eller ændre eksisterende lyd. Det er et meget fleksibelt værktøj, der kan tage et 2-sekunders lydklip af en persons stemme og bruge det til at generere tale på et andet sprog, samtidig med at stemmeintonationen bevares.
Dette kombineres med tekst-til-tale-generering. Så du kan "indsætte" din stemme i AI'en og bruge den til tekst-til-tale-generering med din egen stemme. Hvis du f.eks. er på ferie og har brug for at kommunikere på engelsk, fransk, spansk, tysk, polsk eller portugisisk, skal du bare skrive din besked i Voicebox, så taler den for dig.
Modellen blev trænet med over 50.000 timers optaget tale og udskrifter på 6 sprog: Engelsk, fransk, spansk, tysk, polsk og portugisisk. Den er betydeligt hurtigere og mere præcis end lignende lydcentrerede AI'er som VALL-E.
Her er Voicebox' 4 vigtigste anvendelsesmuligheder:
- Tekst-til-tale-syntese i kontekst: Voicebox kan generere realistisk lyd ud fra tekst. Det kan bruges til at skabe flersprogede virtuelle assistenter, så folk med stemme- og høreproblemer kan tale mere naturligt sammen.
- Overførsel af stil på tværs af sprog: Den kunstige intelligens kan oversætte tekst til 6 forskellige sprog, hvilket giver mulighed for autentisk og naturlig flersproget kommunikation.
- Denoising og redigering af tale: Voicebox kan generere tale til redigering af segmenter i lydoptagelser. Den kan f.eks. resyntetisere dele af tale, der er ødelagt af støj.
- Forskellige taleprøver: Voicebox kan generere repræsentativ tale på tværs af 6 sprog, hvilket er ideelt til at generere syntetiske data til andre tale- og lydmodeller med imponerende resultater. Talegenkendelsesmodeller, der er trænet på Voicebox-genereret syntetisk tale, klarer sig næsten lige så godt som modeller, der er trænet på ægte tale, med en marginal forringelse af fejlraten på 1%, et stort spring fra den forringelse på 45 til 70%, der er observeret i lignende modeller.
Meta har ikke frigivet Voicebox endnu på grund af bekymring for misbrug. De har dog udgivet en dybdegående artikel om modellen, tilgængelig her.
Der er ikke noget officielt bud på, hvornår folk vil kunne bruge Voicebox, men Meta siger, at værktøjet vil hjælpe skabere med at redigere lydspor, forbedre kommunikationen med synshandicappede og gøre det muligt for folk at tale et hvilket som helst fremmedsprog med deres egen stemme.