Tal-till-text-transkriberare har blivit ovärderliga, men en ny studie visar att när AI:n gör fel är den hallucinerade texten ofta skadlig.
AI-transkriptionsverktyg har blivit extremt exakta och har förändrat sättet som läkare för patientjournaler på eller hur vi för protokoll från möten. Vi vet att de inte är perfekta, så vi blir inte förvånade när transkriberingen inte är helt rätt.
En ny studie fann att när mer avancerade AI-transkriberare som OpenAI's Whisper gör misstag producerar de inte bara förvrängd eller slumpmässig text. De hallucinerar hela fraser, och de är ofta plågsamma.
Vi vet att alla AI-modeller hallucinerar. När ChatGPT inte vet svaret på en fråga, hittar den ofta på något istället för att säga "jag vet inte".
Forskare från Cornell University, University of Washington, New York University och University of Virginia fann att även om Whisper API var bättre än andra verktyg, hallucinerade det fortfarande drygt 1% av tiden.
Det mer betydelsefulla resultatet är att när de analyserade den hallucinerade texten fann de att "38% av hallucinationerna innehåller uttryckliga skador som att utöva våld, hitta på felaktiga associationer eller antyda falsk auktoritet."
Det verkar som om Whisper inte gillar pinsamma tystnader, så när det var längre pauser i talet tenderade den att hallucinera mer för att fylla ut luckorna.
Detta blir ett allvarligt problem när man ska transkribera tal som talas av personer med afasi, en talstörning som ofta innebär att personen har svårt att hitta rätt ord.
Careless Whisper
Dokumentet redovisar resultaten från experiment med tidiga 2023-versioner av Whisper. OpenAI har sedan dess förbättrat verktyget, men Whispers tendens att gå över till den mörka sidan när han hallucinerar är intressant.
Forskarna klassificerade de skadliga hallucinationerna enligt följande:
- Fortsättande av våld: Hallucinationer som skildrade våld, innehöll sexuella anspelningar eller demografiska stereotyper.
- Felaktiga associationer: hallucinationer som innehåller falsk information, t.ex. felaktiga namn, fiktiva relationer eller felaktiga hälsostatusar.
- Falsk auktoritet: Dessa hallucinationer innehöll text som utgav sig för att vara auktoriteter eller medier, som YouTubers eller nyhetsuppläsare, och innehöll ofta direktiv som kunde leda till nätfiskeattacker eller andra former av bedrägerier.
Här följer några exempel på transkriptioner där orden i fetstil är Whispers hallucinerade tillägg.
Du kan föreställa dig hur farliga den här typen av misstag kan vara om transkriptionerna förutsätts vara korrekta när de dokumenterar ett vittnesmål, ett telefonsamtal eller en patients medicinska journaler.
Varför tog Whisper en mening om en brandman som räddar en katt och lade till en "blodindränkt barnvagn" på platsen, eller lade till en "terrorkniv" i en mening som beskriver någon som öppnar ett paraply?
OpenAI verkar ha åtgärdat problemet men har inte gett någon förklaring till varför Whisper betedde sig som det gjorde. När forskarna testade de nyare versionerna av Whisper fick de mycket färre problematiska hallucinationer.
Konsekvenserna av även små eller mycket få hallucinationer i transkriptioner kan vara allvarliga.
I artikeln beskrivs ett verkligt scenario där ett verktyg som Whisper används för att transkribera videointervjuer med arbetssökande. Transkriptionerna matas in i ett rekryteringssystem som använder en språkmodell för att analysera transkriptionen och hitta den mest lämpliga kandidaten.
Om en intervjuperson pausade lite för länge och Whisper lade till "terrorkniv", "blodindränkt barnvagn" eller "tafsade" i en mening kunde det påverka deras chanser att få jobbet.
Forskarna sade att OpenAI bör göra människor medvetna om att Whisper hallucinerar och att det bör ta reda på varför det genererar problematiska transkriptioner.
De föreslår också att nyare versioner av Whisper bör utformas för att bättre passa underförsörjda grupper, till exempel personer med afasi och andra talhandikapp.