Os transcritores de fala para texto tornaram-se inestimáveis, mas um novo estudo mostra que, quando a IA se engana, o texto alucinado é muitas vezes prejudicial.
As ferramentas de transcrição com IA tornaram-se extremamente precisas e transformaram a forma como os médicos guardam os registos dos doentes ou como redigimos as actas das reuniões. Sabemos que não são perfeitas e, por isso, não nos surpreendemos quando a transcrição não está correcta.
Um novo estudo descobriu que quando os transcritores de IA mais avançados, como OpenAIQuando o Whisper comete erros, não se limita a produzir um texto distorcido ou aleatório. Alucinam frases inteiras, o que é muitas vezes perturbador.
Sabemos que todos os modelos de IA têm alucinações. Quando ChatGPT não sabe a resposta a uma pergunta, muitas vezes inventa algo em vez de dizer "não sei".
Os investigadores da Universidade de Cornell, da Universidade de Washington, da Universidade de Nova Iorque e da Universidade da Virgínia descobriram que, apesar de a API Whisper ser melhor do que outras ferramentas, continuava a alucinar pouco mais de 1% do tempo.
A descoberta mais significativa é que, quando analisaram o texto alucinado, descobriram que "38% das alucinações incluem danos explícitos, como perpetuar a violência, inventar associações inexactas ou insinuar falsa autoridade".
Parece que o Sussurro não gosta de silêncios incómodos, por isso, quando havia pausas mais longas no discurso, tinha tendência para alucinar mais para preencher os espaços vazios.
Isto torna-se um problema grave quando se transcreve o discurso falado por pessoas com afasia, uma perturbação da fala que faz com que a pessoa tenha frequentemente dificuldade em encontrar as palavras certas.
Sussurro descuidado
O documento regista os resultados de experiências com versões do Whisper do início de 2023. OpenAI melhorou entretanto a ferramenta, mas a tendência de Whisper para passar para o lado negro quando tem alucinações é interessante.
Os investigadores classificaram as alucinações nocivas da seguinte forma:
- Perpetuação da violência: Alucinações que retratam violência, fazem insinuações sexuais ou envolvem estereótipos demográficos.
- Associações inexactas: alucinações que introduzem informações falsas, como nomes incorrectos, relações fictícias ou estados de saúde errados.
- Falsa autoridade: Estas alucinações incluíam textos que se faziam passar por figuras de autoridade ou meios de comunicação social, como YouTubers ou apresentadores de notícias, e envolviam frequentemente directivas que podiam conduzir a ataques de phishing ou outras formas de engano.
Aqui estão alguns exemplos de transcrições em que as palavras a negrito são adições alucinadas de Whisper.
Pode imaginar-se o quão perigosos podem ser estes tipos de erros se as transcrições forem consideradas exactas ao documentar um depoimento de uma testemunha, uma chamada telefónica ou os registos médicos de um doente.
Porque é que a Whisper pegou numa frase sobre um bombeiro a salvar um gato e acrescentou um "carrinho de bebé encharcado de sangue" à cena, ou acrescentou uma "faca do terror" a uma frase que descrevia alguém a abrir um guarda-chuva?
OpenAI parece ter resolvido o problema, mas não deu uma explicação para o facto de o Whisper se ter comportado da forma que se comportou. Quando os investigadores testaram as versões mais recentes do Whisper, obtiveram muito menos alucinações problemáticas.
As implicações de alucinações, mesmo que ligeiras ou muito poucas, nas transcrições podem ser graves.
O documento descreve um cenário real em que uma ferramenta como o Whisper é utilizada para transcrever entrevistas em vídeo de candidatos a emprego. As transcrições são introduzidas num sistema de contratação que utiliza um modelo linguístico para analisar a transcrição e encontrar o candidato mais adequado.
Se um entrevistado fizesse uma pausa demasiado longa e a Whisper acrescentasse "faca do terror", "carrinho de bebé ensopado em sangue" ou "acariciado" a uma frase, isso poderia afetar as suas probabilidades de conseguir o emprego.
Os investigadores afirmaram que OpenAI deve alertar as pessoas para o facto de o Whisper ter alucinações e para a necessidade de descobrir por que razão gera transcrições problemáticas.
Sugerem também que as versões mais recentes do Whisper devem ser concebidas de modo a acomodar melhor as comunidades mal servidas, como as pessoas com afasia e outros problemas de fala.