Las herramientas de transcripción de IA generan alucinaciones perjudiciales

8 de mayo de 2024

  • Un estudio revela que las herramientas de transcripción de IA alucinan y generan voz a texto perjudicial
  • La API Whisper de OpenAI alucinó con 1,4% de transcripciones, de las cuales 38% incluían contenido nocivo.
  • Las alucinaciones eran más frecuentes al transcribir el habla de personas con afasia.

Los transcriptores de voz a texto han adquirido un valor incalculable, pero un nuevo estudio demuestra que cuando la IA se equivoca el texto alucinado suele ser perjudicial.

Las herramientas de transcripción con IA se han vuelto extremadamente precisas y han transformado la forma en que los médicos guardan los historiales de los pacientes o cómo tomamos nota de las reuniones. Sabemos que no son perfectas, así que no nos sorprende que la transcripción no sea del todo correcta.

Un nuevo estudio descubrió que cuando transcriptores de IA más avanzados como OpenAI's Whisper cometen errores no se limitan a producir texto confuso o aleatorio. Alucinan con frases enteras, y a menudo resultan angustiosos.

Sabemos que todos los modelos de IA alucinan. Cuando ChatGPT no sabe la respuesta a una pregunta, a menudo se inventa algo en lugar de decir "no lo sé".

Investigadores de la Universidad de Cornell, la Universidad de Washington, la Universidad de Nueva York y la Universidad de Virginia descubrieron que, aunque la API Whisper era mejor que otras herramientas, seguía alucinando algo más del 1% de las veces.

El hallazgo más significativo es que cuando analizaron el texto alucinado, descubrieron que "38% de las alucinaciones incluyen daños explícitos como perpetuar la violencia, inventar asociaciones inexactas o dar a entender una falsa autoridad."

Parece que a Whisper no le gustan los silencios incómodos, así que cuando había pausas más largas en el discurso tendía a alucinar más para rellenar los huecos.

Esto se convierte en un grave problema cuando se transcribe el habla de personas con afasia, un trastorno del habla que a menudo hace que la persona tenga dificultades para encontrar las palabras adecuadas.

Susurro descuidado

El documento recoge los resultados de experimentos con versiones de Whisper de principios de 2023. OpenAI ha mejorado desde entonces la herramienta, pero la tendencia de Whisper a pasarse al lado oscuro cuando alucina es interesante.

Los investigadores clasificaron las alucinaciones perjudiciales de la siguiente manera:

  • Perpetuación de la violencia: Alucinaciones que mostraban violencia, insinuaciones sexuales o estereotipos demográficos.
  • Asociaciones inexactas: Alucinaciones que introducen información falsa, como nombres incorrectos, relaciones ficticias o estados de salud erróneos.
  • Falsa autoridad: Estas alucinaciones incluían textos que se hacían pasar por figuras autorizadas o medios de comunicación, como YouTubers o locutores de noticias, y a menudo incluían directivas que podían conducir a ataques de phishing u otras formas de engaño.

He aquí algunos ejemplos de transcripciones en las que las palabras en negrita son añadidos alucinados de Whisper.

Los añadidos alucinados de Whisper a la transcripción se muestran en negrita. Fuente: arXiv
Los añadidos alucinados de Whisper a la transcripción se muestran en negrita. Fuente: arXiv

Puede imaginarse lo peligrosos que pueden ser este tipo de errores si se da por hecho que las transcripciones son exactas al documentar la declaración de un testigo, una llamada telefónica o el historial médico de un paciente.

¿Por qué Whisper cogió una frase sobre un bombero rescatando a un gato y añadió un "cochecito empapado de sangre" a la escena, o añadió un "cuchillo del terror" a una frase que describe a alguien abriendo un paraguas?

OpenAI parece haber solucionado el problema, pero no ha dado una explicación de por qué Whisper se comportaba como lo hacía. Cuando los investigadores probaron las nuevas versiones de Whisper obtuvieron muchas menos alucinaciones problemáticas.

Las implicaciones de incluso alucinaciones leves o muy escasas en las transcripciones podrían ser graves.

El artículo describe una situación real en la que se utiliza una herramienta como Whisper para transcribir entrevistas de vídeo a candidatos a un puesto de trabajo. Las transcripciones se introducen en un sistema de contratación que utiliza un modelo lingüístico para analizar la transcripción y encontrar al candidato más adecuado.

Si un entrevistado hacía una pausa demasiado larga y Whisper añadía "cuchillo del terror", "cochecito manchado de sangre" o "manoseado" a una frase, eso podía afectar a sus posibilidades de conseguir el trabajo.

Según los investigadores OpenAI debe hacer saber que Whisper alucina y que debe averiguar por qué genera transcripciones problemáticas.

También sugieren que las nuevas versiones de Whisper se diseñen para adaptarse mejor a las comunidades desatendidas, como las personas con afasia y otros impedimentos del habla.

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Eugene van der Watt

Eugene es ingeniero electrónico y le encanta todo lo relacionado con la tecnología. Cuando descansa de consumir noticias sobre IA, lo encontrará jugando al billar.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales