Uit een nieuw onderzoek blijkt dat zelfs als mensen zich ervan bewust zijn dat ze mogelijk naar diepe nepspraak luisteren, ze nog steeds moeite hebben om nepstemmen betrouwbaar te herkennen.
Dit geldt voor zowel Engels- als Mandarijnsprekers, wat onderstreept dat diepe nepstemmen waarschijnlijk effectief zijn in veel talen.
Onderzoekers van het University College in Londen vroegen 500 mensen om diepe vervalsingen te herkennen in verschillende audioclips. Sommige clips bevatten een authentieke vrouwenstem die algemene zinnen voorlas in het Engels of Mandarijn, terwijl andere diepe vervalsingen waren die waren geproduceerd door generatieve AI's die waren getraind op vrouwenstemmen.
De onderzoek De deelnemers werden verdeeld in twee groepen, die elk een andere vorm van het experiment ondergingen.
Eén groep kreeg 20 stemvoorbeelden in hun moedertaal te horen en moest onderscheiden of de clips echt of nep waren. De deelnemers identificeerden de diepe vervalsingen en de authentieke stemmen in ongeveer 73% van de tijd correct voor zowel de Engelse als de Mandarijnse stemvoorbeelden.
Een aparte groep kreeg 20 willekeurig gekozen audioclips. Elk paar bevatte dezelfde zin uitgesproken door een mens en de diepe vervalsing, en deelnemers kregen de opdracht om de vervalsing te identificeren. Dit verhoogde de detectienauwkeurigheid tot 85,59%.
In het eerste experiment zal de menselijke detectie van deep fakes waarschijnlijk slechter zijn dan de resultaten suggereren, omdat mensen niet gewaarschuwd worden dat ze AI-gegenereerde spraak horen.
Omgekeerd hebben luisteraars een binaire keuze in het tweede experiment, waardoor ze in het voordeel zijn.
Interessant genoeg was er relatief weinig verschil in resultaten voor Engels in Mandarijn.
Zwendel met valse toespraken neemt toe in het echte leven
"Deze opstelling is niet helemaal representatief voor echte scenario's," zegt Mai. "Luisteraars zouden niet van tevoren te horen krijgen of waar ze naar luisteren echt is, en factoren zoals het geslacht en de leeftijd van de spreker zouden de detectieprestaties kunnen beïnvloeden."
Er zijn echter nog meer beperkingen, want het onderzoek daagde luisteraars niet uit om diepe vervalsingen te herkennen die waren ontworpen om te klinken als iemand die ze kennen, zoals een zoon, moeder, enz. Als oplichters iemand op de korrel zouden nemen met een diepe vervalsing, zouden ze bijna zeker iemands stem klonen. Dit is relatief eenvoudig als iemand audio of video's van zichzelf online heeft gezet, bijvoorbeeld voor een video op sociale media, podcast, radio- of tv-uitzending.
Dit gebeurt al, met één McAfee onderzoek waaruit blijkt dat ongeveer 1 op de 4 volwassenen weet heeft van fraude met nepstemmen.
AI-gerelateerde fraude is ook op de stijging in Chinaen één analist voorspeld dat AI-ondersteunde fraude kan mensen en economieën duur komen te staan. Er zijn talloze angstaanjagende anekdotes van mensen die al doelwit zijn geweest van valse telefoontjes, vaak in de vorm van een paniekerig familielid dat om geld vraagt om hen uit een moeilijke situatie te redden.
Uit dit onderzoek bleek dat nepstemmen "zich door de uncanny valley bewegen", ze imiteren het natuurlijke geluid van menselijke stemmen maar missen de subtiele nuances die bij sommige luisteraars argwaan opwekken. Natuurlijk worden AI-diepe nepstemmen steeds beter.
Over het algemeen bewijst het onderzoek dat de huidige technologie al zeer bekwaam is en dat pogingen om het vermogen van individuen om valse stemmen te detecteren te verbeteren in het onderzoek grotendeels niet succesvol waren.
De auteurs benadrukken de noodzaak om competente AI-stemdetectoren te ontwikkelen en bevolkingen voor te lichten over hoe geavanceerd nepstemmen al zijn.
Toekomstig onderzoek naar diepe vervalsingen waarbij de stemmen van mensen die de deelnemers aan het onderzoek kennen worden nagebootst, zou inzichtelijk zijn.
Er zijn praktische manieren om oplichterspraktijken met valse spraak te herkennen, zoals codewoorden instellen tussen familieleden of bellers vragen om een wederzijds bekend stukje persoonlijke informatie te beschrijven.