Valse AI-gekloonde stemmen kwamen onlangs in het nieuws door een "Biden"-robocall, maar ook gewone mensen krijgen ermee te maken nu de technologie toegankelijker wordt en moeilijker te detecteren.
Twee weken geleden werd er een geluidsopname vrijgegeven van de directeur van Pikesville High, Eric Eiswert, waarin het klonk alsof Eiswert racistische en antisemitische opmerkingen maakte over personeel en leerlingen.
Eiswert ontkende de echtheid van de audio, een standpunt dat werd gesteund door Billy Burke, de uitvoerend directeur van de Council of Administrative and Supervisory Employees, die de bestuurders van Baltimore County vertegenwoordigt.
"Wij geloven dat het door AI is gegenereerd," zei Burke. "Dat heeft hij niet gezegd."
In het tijdperk van AI-vervalsingen is de "Leugenaarsdividend" geeft iedereen een makkelijke uitweg om "Nep!" te roepen als hij in het nauw zit. Tegelijkertijd kan het klonen van AI-stemmen veel reputatieschade toebrengen aan gewone mensen zoals Eiswert.
Wat denk jij? Nep of echt?
Bekijk dit bericht op Instagram
Of de audio is echt en hij zou ontslagen moeten worden, of het is nep en iemand zou aangeklaagd moeten worden.
Twee weken later kan niemand het zeggen, dus Eiswerts baan en reputatie blijven in het ongewisse. Het is een verdienste van hoe goed deze hulpmiddelen voor het klonen van stemmen worden en de complexe problemen die de technologie oproept.
Een jaar geleden zouden we Eiswerts bewering over AI-vervalsing misschien hebben verworpen met het argument dat zulke geavanceerde AI-technologie niet bestond. Nu maken bedrijven als Eleven Labs of goedkope tools als Parrot AI het voor iedereen makkelijk om indrukwekkende stemklonen te maken.
OpenVoice, eerder deze maand uitgebracht, gebruikt slechts enkele seconden audio om een stem te klonen en biedt gedetailleerde controle over emotie, accent, toon, ritme en meer.
Vandaag de dag zijn we trots op het open source maken van ons OpenVoice-algoritme en omarmen we ons kernethos - AI voor iedereen.
Ervaar het nu: https://t.co/zHJpeVpX3t. Klonen stemmen met ongeëvenaarde precisie, met granulaire controle van toon, van emotie tot accent, ritme, pauzes en intonatie, met slechts een... Pic.twitter.com/RwmYajpxOt
- MyShell (@myshell_ai) 2 januari 2024
Hany Farid, een professor aan de University of California, Berkley, is gespecialiseerd in digitaal forensisch onderzoek en het authentiseren van digitale media. Toen een verslaggever van WJZ hem vroeg om de clip te analyseren, zei Farid dat deze duidelijk bewerkt was, maar verder kon hij niet bevestigen of deze authentiek was of niet.
In een interview met Scientific American zei Farid: "Ik heb de audio geanalyseerd met een aantal van onze tools, die nog niet publiekelijk beschikbaar zijn. Ik denk dat het waarschijnlijk is, maar niet zeker, dat deze audio door AI is gegenereerd... Over het algemeen denk ik dat het bewijs erop wijst dat deze audio niet authentiek is. Maar voordat we een definitieve beslissing nemen, moeten we meer leren."
Farid zei dat er wereldwijd misschien 5 of minder laboratoria waren die betrouwbaar konden bepalen of de audio nep of echt is.
De AI-kloon die Dudesy maakte van George Carlin is een geweldig voorbeeld van hoe het klonen van AI-stemmen echt goed wordt in het matchen van stembuiging en emotie. Die video is sindsdien niet meer beschikbaar.
De mensen achter de mysentient.ai chatbots hebben een parodie op touw gezet Trump vs Biden debat. De dingen die 'Trump' en 'Biden' zeggen zijn zo gek dat het duidelijk gemaakt is voor het komische effect, maar ze klinken echt goed.
Naarmate deze hulpmiddelen beter en vrijer beschikbaar worden, zullen situaties zoals die van de directeur in Baltimore steeds meer gevolgen hebben voor zowel politici als gewone mensen.
Als je een WhatsApp voicemail hebt gestuurd of een bericht hebt achtergelaten op een antwoordservice, dan kun jij de volgende zijn. Of, als iemand je opneemt terwijl je iets vreemds zegt, kun je gewoon zeggen dat het nep is. Niemand lijkt het in beide gevallen te kunnen bewijzen.