OpenAI siger, at de har kørt en mindre test af deres nye stemmekloningsprodukt Voice Engine med nogle få udvalgte partnere. Resultaterne viser lovende anvendelsesmuligheder for teknologien, men sikkerhedsproblemer kan forhindre, at den bliver frigivet.
OpenAI siger, at Voice Engine kan klone et menneskes stemme ud fra en enkelt optagelse på 15 sekunder af deres stemme. Værktøjet kan derefter generere "naturligt klingende tale, der minder meget om den oprindelige taler."
Når Voice Engine er klonet, kan den omdanne tekstinput til hørbar tale ved hjælp af "følelsesladede og realistiske stemmer". Værktøjets evne gør spændende anvendelser mulige, men rejser også alvorlige sikkerhedsproblemer.
Lovende brugsscenarier
OpenAI begyndte at teste Voice Engine i slutningen af sidste år for at se, hvordan en lille gruppe udvalgte deltagere kunne bruge teknologien.
Nogle af eksemplerne på, hvordan Voice Engine-testpartnere har brugt produktet, er:
- Adaptiv undervisning - Age of Learning brugte Voice Engine til at give læsehjælp til børn, skabe voice-over-indhold til undervisningsmateriale og give personlig verbal respons til at interagere med eleverne.
- Oversættelse af indhold - HeyGen brugte Voice Engine til videooversættelse, så produktmarkedsføring og salgsdemonstrationer kunne nå ud til et bredere marked. Den oversatte lyd bevarer personens oprindelige accent. Så når en fransktalendes lyd oversættes til engelsk, vil man stadig kunne høre vedkommendes franske accent.
- Tilbyde bredere sociale tjenester - Dimagi uddanner sundhedspersonale i fjerntliggende områder. Det brugte Voice Engine til at give træning og interaktiv feedback til sundhedspersonale på underforsynede sprog.
- Støtte til ikke-verbale mennesker - Livox gør det muligt for ikke-verbale mennesker at kommunikere ved hjælp af alternative kommunikationsenheder. Voice Engine giver disse mennesker mulighed for at vælge en stemme, der bedst repræsenterer dem, i stedet for noget, der lyder mere robotagtigt.
- Hjælper patienter med at genvinde deres stemme - Lifespan afprøvede et program, der tilbød Voice Engine til mennesker med talehandicap på grund af kræft eller neurologiske lidelser.
Voice Engine er ikke det første AI-stemmekloningsværktøj, men eksemplerne i OpenAI's blogindlæg peger på, at den repræsenterer state-of-the-art og måske endda er bedre end ElevenLabs.
Her er blot et eksempel på den naturlige bøjning og de følelsesmæssige egenskaber, det kan skabe.
OpenAI har netop lanceret Voice Engine,
Den bruger tekstinput og en enkelt lydprøve på 15 sekunder til at generere naturligt klingende tale, der minder meget om den oprindelige taler.
Referencelyd og genereret lyd ligger meget tæt på hinanden og er svære at skelne fra hinanden.
Flere detaljer i 🧵 pic.twitter.com/tJRrCO2WZP- AshutoshShrivastava (@ai_for_success) 29. marts 2024
Bekymring for sikkerheden
OpenAI sagde, at de var imponerede over de use cases, som testdeltagerne kom med, men at der skulle være flere sikkerhedsforanstaltninger på plads, før virksomheden besluttede, "om og hvordan denne teknologi skal implementeres i stor skala".
OpenAI siger, at teknologi, der nøjagtigt kan gengive en persons stemme, "har alvorlige risici, som er særligt vigtige i et valgår." Falske Biden-robocalls og den falsk video af senatskandidat Kari Lake er eksempler på dette.
Ud over de klare begrænsninger i de generelle brugspolitikker skulle deltagerne i forsøget have "udtrykkeligt og informeret samtykke fra den oprindelige taler" og måtte ikke bygge et produkt, der gjorde det muligt for folk at skabe deres egne stemmer.
OpenAI siger, at de har implementeret andre sikkerhedsforanstaltninger, herunder et lydvandmærke. De forklarede ikke præcist hvordan, men sagde, at de kunne udføre "proaktiv overvågning" af Voice Engines brug.
Nogle andre store aktører i AI-industrien er også bekymrede for, at denne form for teknologi kommer ud i naturen.
Stemme-AI er langt den farligste modalitet.
En overmenneskelig, overbevisende stemme er noget, vi har et minimalt forsvar imod.
Det bør være en af vores topprioriteter at finde ud af, hvad vi skal gøre ved det.
(Vi havde sota-modeller, men udgav dem ikke af denne grund, f.eks. https://t.co/vjY99uCdTl) https://t.co/fKIZrVQCml
- Emad acc/acc (@EMostaque) 29. marts 2024
Hvad bliver det næste?
Får vi andre mulighed for at lege med Voice Engine? Det er usandsynligt, og måske er det en god ting. Potentialet for ondsindet brug er enormt.
OpenAI anbefaler allerede, at institutioner som banker udfaser stemmegodkendelse som en sikkerhedsforanstaltning.
Voice Engine har et indlejret lydvandmærke, men OpenAI siger, at der er brug for mere arbejde for at identificere, hvornår audiovisuelt indhold er AI-genereret.
Selv hvis OpenAI beslutter ikke at frigive Voice Engine, vil andre gøre det. De dage, hvor man kunne stole på sine øjne og ører, er forbi.