OpenAI sier at Voice Engine kan være for risikabelt å lansere

1. april 2024

  • OpenAI avslørte Voice Engine, som kloner en menneskestemme ut fra bare 15 sekunders tale
  • Voice Engine ble testet av en liten gruppe partnere, men OpenAI er tilbakeholdne med å offentliggjøre den
  • OpenAI legger til et lydvannmerke i klonet Voice Engine-lyd, men sier det er behov for flere sikkerhetstiltak

OpenAI sier at de har kjørt en småskala test av sitt nye stemmekloningsprodukt Voice Engine med noen få utvalgte partnere. Resultatene viser lovende bruksområder for teknologien, men sikkerhetshensyn kan hindre at den blir lansert.

OpenAI sier at Voice Engine kan klone et menneskes stemme basert på et enkelt 15 sekunders opptak av stemmen. Verktøyet kan deretter generere "naturlig klingende tale som er svært lik den opprinnelige taleren".

Når Voice Engine er klonet, kan den omdanne tekstinndata til hørbar tale ved hjelp av "følelsesladede og realistiske stemmer". Verktøyets kapasitet muliggjør spennende bruksområder, men reiser også alvorlige sikkerhetsproblemer.

Lovende bruksområder

OpenAI begynte å teste Voice Engine sent i fjor for å se hvordan en liten gruppe utvalgte deltakere kunne bruke teknologien.

Noen av eksemplene på hvordan Voice Engine-testpartnere har brukt produktet, er

  • Tilpasset undervisning - Age of Learning brukte Voice Engine til å gi lesehjelp til barn, lage voice-over-innhold til læringsmateriell og gi personlig tilpasset verbal respons for å samhandle med elevene.
  • Oversette innhold - HeyGen brukte Voice Engine til videooversettelse slik at produktmarkedsføring og salgsdemonstrasjoner kunne nå ut til et bredere marked. Den oversatte lyden beholder personens opprinnelige aksent. Når en person med fransk som morsmål oversettes til engelsk, vil du altså fortsatt høre den franske aksenten.
  • Tilby bredere sosiale tjenester - Dimagi gir opplæring til helsearbeidere i avsidesliggende områder. De brukte Voice Engine til å gi opplæring og interaktiv tilbakemelding til helsearbeidere på språk som ikke er i bruk.
  • Støtte til ikke-verbale mennesker - Livox gjør det mulig for ikke-verbale personer å kommunisere ved hjelp av alternative kommunikasjonshjelpemidler. Voice Engine gjør det mulig for disse personene å velge en stemme som representerer dem på best mulig måte, i stedet for noe som høres mer robotaktig ut.
  • Hjelper pasienter med å gjenvinne stemmen - Lifespan har prøvd ut et program som tilbyr Voice Engine til personer med talevansker som følge av kreft eller nevrologiske lidelser.

Voice Engine er ikke det første verktøyet for kloning av AI-stemmer, men eksemplene i OpenAIs blogginnlegg tyder på at den representerer det nyeste innen teknologi og kanskje til og med er bedre enn ElevenLabs.

Her er bare ett eksempel på den naturlige bøyningen og de følelsesmessige egenskapene den kan generere.

Sikkerhetshensyn

OpenAI sa at de var imponert over brukstilfellene testdeltakerne kom opp med, men at flere sikkerhetstiltak måtte være på plass før selskapet bestemte seg for "om og hvordan denne teknologien skulle tas i bruk i stor skala".

OpenAI sier at teknologi som kan gjengi en persons stemme nøyaktig, "innebærer alvorlige risikoer, noe som er spesielt viktig i et valgår". Falske Biden-robotsamtaler og falsk video av senatskandidat Kari Lake er eksempler på dette.

I tillegg til de klare begrensningene i de generelle retningslinjene for bruk, måtte deltakerne i forsøket ha "eksplisitt og informert samtykke fra den opprinnelige taleren", og de fikk ikke lov til å bygge et produkt som gjorde det mulig for folk å skape sine egne stemmer.

OpenAI sier at de har implementert andre sikkerhetstiltak, inkludert et lydvannmerke. De forklarte ikke nøyaktig hvordan, men sa at de kunne utføre "proaktiv overvåking" av bruken av Voice Engine.

Noen andre store aktører i AI-bransjen er også bekymret for at denne typen teknologi skal komme ut i naturen.

Hva blir det neste?

Vil resten av oss få leke oss med Voice Engine? Det er usannsynlig, og det er kanskje en god ting. Potensialet for ondsinnet bruk er enormt.

OpenAI anbefaler allerede at institusjoner som banker faser ut stemmegodkjenning som et sikkerhetstiltak.

Voice Engine har et innebygd vannmerke for lyd, men OpenAI sier at det trengs mer arbeid for å identifisere når audiovisuelt innhold er AI-generert.

Selv om OpenAI bestemmer seg for ikke å lansere Voice Engine, vil andre gjøre det. Tiden da man kunne stole på øynene og ørene sine er forbi.

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Eugene van der Watt

Eugene har bakgrunn som elektroingeniør og elsker alt som har med teknologi å gjøre. Når han tar en pause fra AI-nyhetene, finner du ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser