OpenAI siger, at Voice Engine måske er for risikabel at frigive

1. april 2024

  • OpenAI afslørede Voice Engine, som kloner en menneskestemme ud fra bare 15 sekunders tale
  • Voice Engine blev testet af en lille gruppe partnere, men OpenAI er tilbageholdende med at offentliggøre den
  • OpenAI tilføjer et lydvandmærke til klonet Voice Engine-lyd, men siger, at der er brug for flere sikkerhedsforanstaltninger

OpenAI siger, at de har kørt en mindre test af deres nye stemmekloningsprodukt Voice Engine med nogle få udvalgte partnere. Resultaterne viser lovende anvendelsesmuligheder for teknologien, men sikkerhedsproblemer kan forhindre, at den bliver frigivet.

OpenAI siger, at Voice Engine kan klone et menneskes stemme ud fra en enkelt optagelse på 15 sekunder af deres stemme. Værktøjet kan derefter generere "naturligt klingende tale, der minder meget om den oprindelige taler."

Når Voice Engine er klonet, kan den omdanne tekstinput til hørbar tale ved hjælp af "følelsesladede og realistiske stemmer". Værktøjets evne gør spændende anvendelser mulige, men rejser også alvorlige sikkerhedsproblemer.

Lovende brugsscenarier

OpenAI begyndte at teste Voice Engine i slutningen af sidste år for at se, hvordan en lille gruppe udvalgte deltagere kunne bruge teknologien.

Nogle af eksemplerne på, hvordan Voice Engine-testpartnere har brugt produktet, er:

  • Adaptiv undervisning - Age of Learning brugte Voice Engine til at give læsehjælp til børn, skabe voice-over-indhold til undervisningsmateriale og give personlig verbal respons til at interagere med eleverne.
  • Oversættelse af indhold - HeyGen brugte Voice Engine til videooversættelse, så produktmarkedsføring og salgsdemonstrationer kunne nå ud til et bredere marked. Den oversatte lyd bevarer personens oprindelige accent. Så når en fransktalendes lyd oversættes til engelsk, vil man stadig kunne høre vedkommendes franske accent.
  • Tilbyde bredere sociale tjenester - Dimagi uddanner sundhedspersonale i fjerntliggende områder. Det brugte Voice Engine til at give træning og interaktiv feedback til sundhedspersonale på underforsynede sprog.
  • Støtte til ikke-verbale mennesker - Livox gør det muligt for ikke-verbale mennesker at kommunikere ved hjælp af alternative kommunikationsenheder. Voice Engine giver disse mennesker mulighed for at vælge en stemme, der bedst repræsenterer dem, i stedet for noget, der lyder mere robotagtigt.
  • Hjælper patienter med at genvinde deres stemme - Lifespan afprøvede et program, der tilbød Voice Engine til mennesker med talehandicap på grund af kræft eller neurologiske lidelser.

Voice Engine er ikke det første AI-stemmekloningsværktøj, men eksemplerne i OpenAI's blogindlæg peger på, at den repræsenterer state-of-the-art og måske endda er bedre end ElevenLabs.

Her er blot et eksempel på den naturlige bøjning og de følelsesmæssige egenskaber, det kan skabe.

Bekymring for sikkerheden

OpenAI sagde, at de var imponerede over de use cases, som testdeltagerne kom med, men at der skulle være flere sikkerhedsforanstaltninger på plads, før virksomheden besluttede, "om og hvordan denne teknologi skal implementeres i stor skala".

OpenAI siger, at teknologi, der nøjagtigt kan gengive en persons stemme, "har alvorlige risici, som er særligt vigtige i et valgår." Falske Biden-robocalls og den falsk video af senatskandidat Kari Lake er eksempler på dette.

Ud over de klare begrænsninger i de generelle brugspolitikker skulle deltagerne i forsøget have "udtrykkeligt og informeret samtykke fra den oprindelige taler" og måtte ikke bygge et produkt, der gjorde det muligt for folk at skabe deres egne stemmer.

OpenAI siger, at de har implementeret andre sikkerhedsforanstaltninger, herunder et lydvandmærke. De forklarede ikke præcist hvordan, men sagde, at de kunne udføre "proaktiv overvågning" af Voice Engines brug.

Nogle andre store aktører i AI-industrien er også bekymrede for, at denne form for teknologi kommer ud i naturen.

Hvad bliver det næste?

Får vi andre mulighed for at lege med Voice Engine? Det er usandsynligt, og måske er det en god ting. Potentialet for ondsindet brug er enormt.

OpenAI anbefaler allerede, at institutioner som banker udfaser stemmegodkendelse som en sikkerhedsforanstaltning.

Voice Engine har et indlejret lydvandmærke, men OpenAI siger, at der er brug for mere arbejde for at identificere, hvornår audiovisuelt indhold er AI-genereret.

Selv hvis OpenAI beslutter ikke at frigive Voice Engine, vil andre gøre det. De dage, hvor man kunne stole på sine øjne og ører, er forbi.

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Eugene van der Watt

Eugene har en baggrund som elektronikingeniør og elsker alt, hvad der har med teknologi at gøre. Når han tager en pause fra at læse AI-nyheder, kan du finde ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser