Les transcripteurs de la parole au texte sont devenus inestimables, mais une nouvelle étude montre que lorsque l'IA se trompe, le texte halluciné est souvent nuisible.
Les outils de transcription par IA sont devenus extrêmement précis et ont transformé la façon dont les médecins conservent les dossiers des patients ou dont nous rédigeons les procès-verbaux des réunions. Nous savons qu'ils ne sont pas parfaits et nous ne sommes donc pas surpris lorsque la transcription n'est pas tout à fait correcte.
Une nouvelle étude a constaté que lorsque des transcripteurs d'IA plus avancés, comme les OpenAILes erreurs commises par les membres du groupe "Whisper" ne se limitent pas à produire un texte brouillé ou aléatoire. Ils hallucinent des phrases entières, ce qui est souvent pénible.
Nous savons que tous les modèles d'IA ont des hallucinations. Lorsque ChatGPT ne connaît pas la réponse à une question, il inventera souvent quelque chose au lieu de dire "je ne sais pas".
Des chercheurs de l'université Cornell, de l'université de Washington, de l'université de New York et de l'université de Virginie ont constaté que même si l'API Whisper était meilleure que d'autres outils, elle hallucinait encore un peu plus de 1% du temps.
La conclusion la plus importante est que lorsqu'ils ont analysé le texte halluciné, ils ont constaté que "38% des hallucinations comprennent des préjudices explicites tels que la perpétuation de la violence, l'établissement d'associations inexactes ou l'implication d'une fausse autorité".
Il semble que Whisper n'aime pas les silences gênants, donc lorsqu'il y a des pauses plus longues dans le discours, il a tendance à halluciner davantage pour combler les vides.
Ce problème se pose avec acuité lorsqu'il s'agit de transcrire des paroles prononcées par des personnes atteintes d'aphasie, un trouble de l'élocution qui fait que la personne a souvent du mal à trouver les mots justes.
Chuchotement imprudent
Le document présente les résultats d'expériences menées avec des versions de Whisper datant du début de l'année 2023. OpenAI a depuis amélioré l'outil, mais la tendance de Whisper à passer du côté obscur lorsqu'il a des hallucinations est intéressante.
Les chercheurs ont classé les hallucinations nuisibles comme suit :
- Perpétuation de la violence : Hallucinations présentant des scènes de violence, des allusions sexuelles ou des stéréotypes démographiques.
- Associations inexactes : des hallucinations qui introduisent de fausses informations, telles que des noms incorrects, des relations fictives ou des états de santé erronés.
- Fausse autorité : Ces hallucinations comprenaient des textes se faisant passer pour des personnalités ou des médias faisant autorité, tels que des YouTubers ou des présentateurs de journaux télévisés, et comportaient souvent des directives pouvant conduire à des attaques par hameçonnage ou à d'autres formes de tromperie.
Voici quelques exemples de transcriptions où les mots en gras sont des ajouts hallucinés de Whisper.
On peut imaginer à quel point ce type d'erreurs peut être dangereux si les transcriptions sont supposées exactes lorsqu'il s'agit de documenter la déclaration d'un témoin, un appel téléphonique ou le dossier médical d'un patient.
Pourquoi Whisper a-t-il pris une phrase sur un pompier sauvant un chat et ajouté une "poussette maculée de sang" à la scène, ou ajouté un "couteau de terreur" à une phrase décrivant quelqu'un ouvrant un parapluie ?
OpenAI semble avoir corrigé le problème, mais n'a pas donné d'explication sur le comportement de Whisper. Lorsque les chercheurs ont testé les nouvelles versions de Whisper, ils ont obtenu beaucoup moins d'hallucinations problématiques.
Les implications d'hallucinations, même légères ou très peu nombreuses, dans les transcriptions peuvent être graves.
L'article décrit un scénario réel dans lequel un outil comme Whisper est utilisé pour transcrire des entretiens vidéo de candidats à l'emploi. Les transcriptions sont introduites dans un système d'embauche qui utilise un modèle linguistique pour analyser la transcription et trouver le candidat le plus approprié.
Si une personne interrogée fait une pause un peu trop longue et que Whisper ajoute "couteau de terreur", "poussette ensanglantée" ou "caressé" à une phrase, cela peut affecter ses chances d'obtenir le poste.
Les chercheurs ont déclaré que OpenAI devrait faire savoir que Whisper hallucine et qu'il devrait chercher à savoir pourquoi il génère des transcriptions problématiques.
Ils suggèrent également que les nouvelles versions de Whisper soient conçues pour mieux répondre aux besoins des communautés mal desservies, telles que les personnes souffrant d'aphasie ou d'autres troubles de la parole.