OpenAI zegt dat het een kleinschalige test heeft uitgevoerd van zijn nieuwe stemkloonproduct Voice Engine met een paar geselecteerde partners. De resultaten laten veelbelovende toepassingen zien voor de technologie, maar veiligheidsoverwegingen kunnen ervoor zorgen dat het product niet wordt vrijgegeven.
OpenAI zegt dat Voice Engine de stem van een mens kan klonen op basis van een enkele 15 seconden durende opname van zijn stem. De tool kan dan "natuurlijk klinkende spraak genereren die sterk lijkt op de originele spreker".
Eenmaal gekloond kan Voice Engine tekstinvoer omzetten in hoorbare spraak met "emotionele en realistische stemmen". De mogelijkheden van het gereedschap maken opwindende toepassingen mogelijk, maar roepen ook serieuze veiligheidsproblemen op.
Veelbelovende gebruikssituaties
OpenAI is eind vorig jaar begonnen met het testen van Voice Engine om te zien hoe een kleine groep geselecteerde deelnemers de technologie zou kunnen gebruiken.
Enkele voorbeelden van hoe Voice Engine testpartners het product hebben gebruikt:
- Adaptief onderwijs - Age of Learning gebruikte Voice Engine om leeshulp te bieden aan kinderen, voice-overcontent te creëren voor lesmateriaal en gepersonaliseerde verbale reacties te geven voor interactie met leerlingen.
- Inhoud vertalen - HeyGen gebruikte Voice Engine voor videovertaal zodat productmarketing en verkoopdemo's een bredere markt konden bereiken. De vertaalde audio behoudt het moederaccent van de persoon. Dus als de audio van een Franse spreker wordt vertaald naar het Engels, hoor je nog steeds zijn Franse accent.
- Bredere sociale diensten bieden - Dimagi leidt gezondheidswerkers op in afgelegen gebieden. Het gebruikte Voice Engine om training en interactieve feedback te geven aan gezondheidswerkers in minder gebruikte talen.
- Ondersteunen van non-verbale mensen - Livox stelt non-verbale mensen in staat om te communiceren met behulp van alternatieve communicatiemiddelen. Met Voice Engine kunnen deze mensen een stem kiezen die hen het beste vertegenwoordigt in plaats van iets dat meer robotachtig klinkt.
- Patiënten helpen hun stem terug te krijgen - Lifespan heeft een programma getest dat Voice Engine aanbiedt aan mensen met spraakproblemen als gevolg van kanker of neurologische aandoeningen.
Voice Engine is niet het eerste hulpmiddel voor het klonen van AI-stemmen, maar de samples in OpenAI's blog post wijzen erop dat het state-of-the-art is en misschien zelfs beter dan ElevenLabs.
Dit is slechts één voorbeeld van de natuurlijke verbuiging en emotionele kenmerken die het kan opwekken.
OpenAI heeft zojuist Voice Engine gelanceerd,
Het gebruikt tekstinvoer en een enkel audiofragment van 15 seconden om natuurlijk klinkende spraak te genereren die sterk lijkt op de originele spreker.
Referentieaudio en gegenereerde audio liggen erg dicht bij elkaar en zijn moeilijk te onderscheiden.
Meer informatie 🧵 pic.twitter.com/tJRrCO2WZP- AshutoshShrivastava (@ai_voor_succes) 29 maart 2024
Veiligheid
OpenAI zei dat het onder de indruk was van de use cases die testdeelnemers hadden bedacht, maar dat er meer veiligheidsmaatregelen nodig waren voordat het bedrijf kon beslissen "of en hoe deze technologie op grote schaal kan worden ingezet".
OpenAI zegt dat technologie die nauwkeurig iemands stem kan reproduceren "ernstige risico's met zich meebrengt, die vooral in een verkiezingsjaar van groot belang zijn". Valse Biden-oproepen en de nepvideo van senaatskandidaat Kari Lake zijn hier voorbeelden van.
Naast de duidelijke beperkingen in het algemene gebruiksbeleid, moesten de deelnemers aan de proef "expliciete en geïnformeerde toestemming van de oorspronkelijke spreker" hebben en mochten ze geen product maken waarmee mensen hun eigen stemmen konden creëren.
OpenAI zegt dat het andere veiligheidsmaatregelen heeft geïmplementeerd, waaronder een audio watermerk. Het legde niet precies uit hoe, maar zei dat het "proactief toezicht" kon houden op het gebruik van Voice Engine.
Sommige andere grote spelers in de AI-industrie maken zich ook zorgen over het feit dat dit soort technologie in het wild terechtkomt.
Voice AI is verreweg de gevaarlijkste modaliteit.
Een bovenmenselijke, overtuigende stem is iets waartegen we ons minimaal kunnen verdedigen.
Uitzoeken wat we hieraan kunnen doen zou een van onze topprioriteiten moeten zijn.
(We hadden sota-modellen maar hebben ze om deze reden niet uitgebracht, bijv. https://t.co/vjY99uCdTl) https://t.co/fKIZrVQCml
- Emad acc/acc (@EMostaque) 29 maart 2024
Wat is de volgende stap?
Krijgt de rest van ons de kans om met Voice Engine te spelen? Het is onwaarschijnlijk, en misschien is dat maar goed ook. Het potentieel voor kwaadwillig gebruik is enorm.
OpenAI raadt instellingen zoals banken al aan om stemauthenticatie uit te faseren als beveiligingsmaatregel.
Voice Engine heeft een ingesloten audio-watermerk, maar OpenAI zegt dat er meer werk nodig is om te identificeren wanneer audiovisuele inhoud door AI is gegenereerd.
Zelfs als OpenAI besluit om Voice Engine niet uit te brengen, zullen anderen dat wel doen. De dagen dat je je ogen en oren kon vertrouwen zijn voorbij.