Spraak-naar-tekst transcribenten zijn van onschatbare waarde geworden, maar een nieuw onderzoek toont aan dat wanneer de AI het fout doet, de gehallucineerde tekst vaak schadelijk is.
AI-transcriptietools zijn extreem nauwkeurig geworden en hebben de manier veranderd waarop artsen patiëntendossiers bijhouden of hoe we notulen maken van vergaderingen. We weten dat ze niet perfect zijn, dus we zijn niet verbaasd als de transcriptie niet helemaal klopt.
Een nieuw onderzoek ontdekten dat wanneer meer geavanceerde AI-transcribenten zoals OpenAI's Whisper fouten maken, produceren ze niet alleen verwarde of willekeurige tekst. Ze hallucineren hele zinnen en zijn vaak verontrustend.
We weten dat alle AI-modellen hallucineren. Wanneer ChatGPT geen antwoord weet op een vraag, zal het vaak iets verzinnen in plaats van "ik weet het niet" te zeggen.
Onderzoekers van de Cornell University, de University of Washington, de New York University en de University of Virginia ontdekten dat hoewel de Whisper API beter was dan andere tools, het nog steeds iets meer dan 1% van de tijd hallucineerde.
De belangrijkste bevinding is dat toen ze de gehallucineerde tekst analyseerden, ze ontdekten dat "38% van de hallucinaties expliciete schade bevatten zoals het bestendigen van geweld, het verzinnen van onjuiste associaties of het impliceren van valse autoriteit."
Het lijkt erop dat Whisper niet van lastige stiltes houdt, dus als er langere pauzes in de spraak zaten, had het de neiging om meer te hallucineren om de gaten op te vullen.
Dit wordt een serieus probleem bij het transcriberen van spraak van mensen met afasie, een spraakstoornis waardoor de persoon vaak moeite heeft om de juiste woorden te vinden.
Zorgeloos gefluister
De paper bevat de resultaten van experimenten met vroege 2023-versies van Whisper. OpenAI heeft sindsdien het gereedschap verbeterd, maar de neiging van Whisper om naar de duistere kant te gaan als hij hallucineert is interessant.
De onderzoekers classificeerden de schadelijke hallucinaties als volgt:
- Voortzetting van geweld: Hallucinaties met geweld, seksuele toespelingen of demografische stereotypering.
- Onjuiste associaties: hallucinaties die valse informatie introduceerden, zoals incorrecte namen, fictieve relaties of foutieve gezondheidsstatussen.
- Valse autoriteit: Deze hallucinaties bevatten teksten die zich voordeden als gezaghebbende figuren of media, zoals YouTubers of nieuwslezers, en bevatten vaak aanwijzingen die konden leiden tot phishing-aanvallen of andere vormen van misleiding.
Hier zijn een paar voorbeelden van transcripties waar de vetgedrukte woorden Hallucinerende toevoegingen van Whisper zijn.
Je kunt je voorstellen hoe gevaarlijk dit soort fouten kunnen zijn als de transcripties worden verondersteld nauwkeurig te zijn bij het documenteren van een getuigenverklaring, een telefoongesprek of het medisch dossier van een patiënt.
Waarom nam Whisper een zin over een brandweerman die een kat redt en voegde daar een "met bloed doordrenkte kinderwagen" aan toe, of voegde een "terreurmes" toe aan een zin die iemand beschrijft die een paraplu opent?
OpenAI lijkt het probleem te hebben opgelost, maar heeft geen verklaring gegeven waarom Whisper zich gedroeg zoals het deed. Toen de onderzoekers de nieuwere versies van Whisper testten, kregen ze veel minder problematische hallucinaties.
De implicaties van zelfs lichte of zeer weinig hallucinaties in transcripties kunnen ernstig zijn.
Het artikel beschrijft een scenario uit de praktijk waarbij een hulpmiddel als Whisper wordt gebruikt om video-interviews van sollicitanten te transcriberen. De transcripties worden ingevoerd in een aanname systeem dat een taalmodel gebruikt om de transcriptie te analyseren om de meest geschikte kandidaat te vinden.
Als een ondervraagde iets te lang pauzeerde en Whisper "terreurmes", "met bloed doordrenkte kinderwagen" of "betast" aan een zin toevoegde, zou dat zijn kansen op het krijgen van de baan kunnen beïnvloeden.
De onderzoekers zeiden dat OpenAI mensen bewust moet maken van het feit dat Whisper hallucineert en dat ze moet uitzoeken waarom het problematische transcripties genereert.
Ze suggereren ook dat nieuwere versies van Whisper ontworpen moeten worden om beter tegemoet te komen aan minderbedeelde gemeenschappen, zoals mensen met afasie en andere spraakproblemen.