Um novo estudo descobriu que, mesmo quando as pessoas têm consciência de que podem estar a ouvir um discurso falso profundo, continuam a ter dificuldade em identificar com fiabilidade as vozes falsas.
Isto aplica-se tanto a falantes de inglês como de mandarim, sublinhando que as vozes falsas profundas são provavelmente eficazes em muitas línguas.
Os investigadores da University College London pediram a 500 pessoas que identificassem um discurso falso profundo em vários clips de áudio. Alguns clipes incluíam uma voz feminina autêntica a ler frases genéricas em inglês ou mandarim, enquanto outros eram falsificações profundas produzidas por IAs generativas treinadas em vozes femininas.
O estudo Os participantes foram divididos em dois grupos, cada um sujeito a uma forma diferente da experiência.
Um grupo recebeu 20 amostras de voz na sua língua materna e teve de discernir se os clips eram verdadeiros ou falsos. Os participantes identificaram corretamente as vozes falsas e as vozes autênticas em cerca de 73% das vezes, tanto para as amostras de voz em inglês como em mandarim.
Um grupo separado recebeu 20 pares de clips de áudio seleccionados aleatoriamente. Cada par apresentava a mesma frase proferida por um humano e a falsificação profunda, e os participantes foram incumbidos de identificar a falsificação. Isto aumentou a precisão da deteção para 85,59%.
Na primeira experiência, a deteção humana de falsificações profundas na vida real será provavelmente mais fraca do que os resultados sugerem, uma vez que as pessoas não seriam avisadas de que poderiam estar a ouvir um discurso gerado por IA.
Por outro lado, os ouvintes têm uma escolha binária na segunda experiência, o que lhes confere uma vantagem.
Curiosamente, houve relativamente pouca diferença nos resultados para o inglês em mandarim.
Fraudes de discurso falso estão a aumentar na vida real
"Esta configuração não é completamente representativa de cenários da vida real", diz Mai. "Os ouvintes não seriam informados de antemão se o que estão a ouvir é real, e factores como o sexo e a idade do orador poderiam afetar o desempenho da deteção."
No entanto, existem outras limitações, uma vez que o estudo não desafiou os ouvintes a determinar falsificações profundas concebidas para soar como alguém que conhecem, como um filho, uma mãe, etc. Se os burlões visassem alguém com uma falsificação profunda, é quase certo que clonariam a voz de alguém. Isto é relativamente fácil se alguém tiver carregado áudio ou vídeos de si próprio online, por exemplo, para um vídeo nas redes sociais, um podcast, uma emissão de rádio ou de televisão.
Isto já está a acontecer, com um Inquérito da McAfee que mostra que cerca de 1 em cada 4 adultos tem conhecimento da ocorrência de fraudes com vozes falsas.
A fraude relacionada com a IA também está a aumentar aumento na Chinae um analista previu que A fraude apoiada pela IA pode custar muito caro às pessoas e às economias. Existem inúmeras histórias assustadoras de pessoas que já foram alvo de chamadas falsas profundas, muitas vezes sob a forma de um familiar em pânico a pedir dinheiro para o ajudar a sair de uma situação difícil.
Este estudo concluiu que as vozes falsas estão a "atravessar o vale da estranheza", imitando o som natural das vozes humanas, mas sem as nuances subtis que provocam suspeitas em alguns ouvintes. É claro que as vozes falsas profundas da IA estão sempre a melhorar.
De um modo geral, o estudo prova que a tecnologia atual já é altamente competente e que as tentativas de melhorar as capacidades dos indivíduos para detetar vozes falsas no estudo foram largamente mal sucedidas.
Os autores salientam a necessidade de desenvolver detectores de voz de IA competentes e de educar as populações sobre o grau de sofisticação das vozes falsas profundas.
A investigação futura sobre as falsificações profundas que reproduzem as vozes das pessoas que os participantes no estudo conhecem seria muito útil.
Existem formas práticas de identificar esquemas de falsificação profunda da fala, como estabelecer palavras de código entre membros da família ou pedir a quem telefona que descreva uma informação pessoal conhecida mutuamente.