OpenAI sier at de har kjørt en småskala test av sitt nye stemmekloningsprodukt Voice Engine med noen få utvalgte partnere. Resultatene viser lovende bruksområder for teknologien, men sikkerhetshensyn kan hindre at den blir lansert.
OpenAI sier at Voice Engine kan klone et menneskes stemme basert på et enkelt 15 sekunders opptak av stemmen. Verktøyet kan deretter generere "naturlig klingende tale som er svært lik den opprinnelige taleren".
Når Voice Engine er klonet, kan den omdanne tekstinndata til hørbar tale ved hjelp av "følelsesladede og realistiske stemmer". Verktøyets kapasitet muliggjør spennende bruksområder, men reiser også alvorlige sikkerhetsproblemer.
Lovende bruksområder
OpenAI begynte å teste Voice Engine sent i fjor for å se hvordan en liten gruppe utvalgte deltakere kunne bruke teknologien.
Noen av eksemplene på hvordan Voice Engine-testpartnere har brukt produktet, er
- Tilpasset undervisning - Age of Learning brukte Voice Engine til å gi lesehjelp til barn, lage voice-over-innhold til læringsmateriell og gi personlig tilpasset verbal respons for å samhandle med elevene.
- Oversette innhold - HeyGen brukte Voice Engine til videooversettelse slik at produktmarkedsføring og salgsdemonstrasjoner kunne nå ut til et bredere marked. Den oversatte lyden beholder personens opprinnelige aksent. Når en person med fransk som morsmål oversettes til engelsk, vil du altså fortsatt høre den franske aksenten.
- Tilby bredere sosiale tjenester - Dimagi gir opplæring til helsearbeidere i avsidesliggende områder. De brukte Voice Engine til å gi opplæring og interaktiv tilbakemelding til helsearbeidere på språk som ikke er i bruk.
- Støtte til ikke-verbale mennesker - Livox gjør det mulig for ikke-verbale personer å kommunisere ved hjelp av alternative kommunikasjonshjelpemidler. Voice Engine gjør det mulig for disse personene å velge en stemme som representerer dem på best mulig måte, i stedet for noe som høres mer robotaktig ut.
- Hjelper pasienter med å gjenvinne stemmen - Lifespan har prøvd ut et program som tilbyr Voice Engine til personer med talevansker som følge av kreft eller nevrologiske lidelser.
Voice Engine er ikke det første verktøyet for kloning av AI-stemmer, men eksemplene i OpenAIs blogginnlegg tyder på at den representerer det nyeste innen teknologi og kanskje til og med er bedre enn ElevenLabs.
Her er bare ett eksempel på den naturlige bøyningen og de følelsesmessige egenskapene den kan generere.
OpenAI har nettopp lansert Voice Engine,
Den bruker tekstinndata og et enkelt lydopptak på 15 sekunder til å generere naturlig klingende tale som ligger tett opp til den opprinnelige taleren.
Referanselyd og generert lyd ligger svært nær hverandre og er vanskelig å skille fra hverandre.
Flere detaljer i 🧵 pic.twitter.com/tJRrCO2WZP- AshutoshShrivastava (@ai_for_success) 29. mars 2024
Sikkerhetshensyn
OpenAI sa at de var imponert over brukstilfellene testdeltakerne kom opp med, men at flere sikkerhetstiltak måtte være på plass før selskapet bestemte seg for "om og hvordan denne teknologien skulle tas i bruk i stor skala".
OpenAI sier at teknologi som kan gjengi en persons stemme nøyaktig, "innebærer alvorlige risikoer, noe som er spesielt viktig i et valgår". Falske Biden-robotsamtaler og falsk video av senatskandidat Kari Lake er eksempler på dette.
I tillegg til de klare begrensningene i de generelle retningslinjene for bruk, måtte deltakerne i forsøket ha "eksplisitt og informert samtykke fra den opprinnelige taleren", og de fikk ikke lov til å bygge et produkt som gjorde det mulig for folk å skape sine egne stemmer.
OpenAI sier at de har implementert andre sikkerhetstiltak, inkludert et lydvannmerke. De forklarte ikke nøyaktig hvordan, men sa at de kunne utføre "proaktiv overvåking" av bruken av Voice Engine.
Noen andre store aktører i AI-bransjen er også bekymret for at denne typen teknologi skal komme ut i naturen.
Stemme-AI er den desidert farligste modaliteten.
Overmenneskelige, overbevisende stemmer er noe vi har minimalt forsvar mot.
Å finne ut hva vi skal gjøre med dette, bør være en av våre høyeste prioriteringer.
(Vi hadde sota-modeller, men lanserte dem ikke av denne grunn, f.eks. https://t.co/vjY99uCdTl) https://t.co/fKIZrVQCml
- Emad acc/acc (@EMostaque) 29. mars 2024
Hva blir det neste?
Vil resten av oss få leke oss med Voice Engine? Det er usannsynlig, og det er kanskje en god ting. Potensialet for ondsinnet bruk er enormt.
OpenAI anbefaler allerede at institusjoner som banker faser ut stemmegodkjenning som et sikkerhetstiltak.
Voice Engine har et innebygd vannmerke for lyd, men OpenAI sier at det trengs mer arbeid for å identifisere når audiovisuelt innhold er AI-generert.
Selv om OpenAI bestemmer seg for ikke å lansere Voice Engine, vil andre gjøre det. Tiden da man kunne stole på øynene og ørene sine er forbi.