OpenAI säger att Voice Engine kan vara för riskabelt för att släppas

1 april 2024

  • OpenAI avslöjade Voice Engine som klonar en mänsklig röst från bara 15 sekunders tal
  • Voice Engine testades av en liten grupp partners, men OpenAI är ovilliga att släppa den till allmänheten
  • OpenAI lägger till en vattenstämpel i klonat ljud från Voice Engine men säger att fler säkerhetsåtgärder behövs

OpenAI säger att det körde ett småskaligt test av sin nya röstkloningsprodukt Voice Engine med några utvalda partners. Resultaten visar lovande applikationer för tekniken, men säkerhetsproblem kan hindra den från att släppas.

OpenAI säger att Voice Engine kan klona en människas röst baserat på en enda 15-sekunders inspelning av rösten. Verktyget kan sedan generera "naturligt klingande tal som är mycket likt den ursprungliga talaren".

När Voice Engine har klonats kan den omvandla textinmatningar till hörbart tal med "känslosamma och realistiska röster". Verktygets kapacitet möjliggör spännande tillämpningar, men väcker också allvarliga säkerhetsfrågor.

Lovande användningsområden

OpenAI började testa Voice Engine i slutet av förra året för att se hur en liten grupp utvalda deltagare kunde använda tekniken.

Några av exemplen på hur Voice Engine testpartners använde produkten är följande:

  • Adaptiv undervisning - Age of Learning använde Voice Engine för att ge läshjälp till barn, skapa voice-over-innehåll för läromedel och ge personliga verbala svar för att interagera med studenter.
  • Översättning av innehåll - HeyGen använde Voice Engine för videoöversättning så att produktmarknadsföring och säljdemonstrationer kunde nå ut till en bredare marknad. Det översatta ljudet behåller personens infödda accent. Så när ljudet från en person med franska som modersmål översätts till engelska hörs fortfarande den franska accenten.
  • Tillhandahålla bredare sociala tjänster - Dimagi utbildar vårdpersonal i avlägsna miljöer. Med hjälp av Voice Engine ges utbildning och interaktiv återkoppling till vårdpersonal på språk som inte används i tillräcklig utsträckning.
  • Stöd till icke-verbala personer - Livox gör det möjligt för icke-verbala personer att kommunicera med hjälp av alternativa kommunikationshjälpmedel. Voice Engine gör det möjligt för dessa personer att välja en röst som bäst representerar dem i stället för en röst som låter mer robotisk.
  • Hjälper patienter att återfå sin röst - Lifespan genomförde ett pilotprojekt där Voice Engine erbjöds till personer med talsvårigheter på grund av cancer eller neurologiska sjukdomar.

Voice Engine är inte det första AI-verktyget för röstkloning, men exemplen i OpenAI:s blogginlägg pekar på att det representerar den senaste tekniken och kanske till och med är bättre än ElevenLabs.

Här är bara ett exempel på den naturliga böjning och de känslomässiga egenskaper som den kan generera.

Säkerhetsproblem

OpenAI sade sig vara imponerade av de användningsfall som testdeltagarna kom fram till, men fler säkerhetsåtgärder skulle behöva vara på plats innan företaget beslutade om "huruvida och hur man ska distribuera denna teknik i stor skala".

OpenAI säger att teknik som exakt kan återge någons röst "har allvarliga risker, som är särskilt viktiga under ett valår". Falska Biden-robocalls och falsk video av senatskandidaten Kari Lake är exempel på detta.

Utöver de tydliga restriktionerna i företagets allmänna användarpolicy måste deltagarna i försöket ha "uttryckligt och informerat samtycke från den ursprungliga talaren" och fick inte bygga en produkt som gjorde det möjligt för människor att skapa sina egna röster.

OpenAI säger att de har implementerat andra säkerhetsåtgärder, inklusive en vattenstämpel för ljud. De förklarade inte exakt hur, men sa att de kunde utföra "proaktiv övervakning" av Voice Engines användning.

Några andra stora aktörer inom AI-industrin är också oroliga för att den här typen av teknik ska komma ut i naturen.

Vad händer härnäst?

Kommer resten av oss att få leka med Voice Engine? Det är osannolikt, och kanske är det en bra sak. Potentialen för skadlig användning är enorm.

OpenAI rekommenderar redan att institutioner som banker fasar ut röstautentisering som en säkerhetsåtgärd.

Voice Engine har en inbäddad vattenstämpel för ljud, men OpenAI säger att det krävs mer arbete för att identifiera när audiovisuellt innehåll är AI-genererat.

Även om OpenAI beslutar att inte släppa Voice Engine kommer andra att göra det. Tiden då man kunde lita på sina ögon och öron är förbi.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Eugene van der Watt

Eugene kommer från en bakgrund som elektronikingenjör och älskar allt som har med teknik att göra. När han tar en paus från att konsumera AI-nyheter hittar du honom vid snookerbordet.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar