AI-transkriberingsverktyg genererar skadliga hallucinationer

8 maj 2024

  • En studie visade att AI-transkriptionsverktyg hallucinerar och genererar skadligt tal-till-text
  • OpenAI:s Whisper API hallucinerade 1,4% av transkriptioner, varav 38% innehöll skadligt innehåll
  • Hallucinationer var vanligare vid transkribering av tal från personer med afasi

Tal-till-text-transkriberare har blivit ovärderliga, men en ny studie visar att när AI:n gör fel är den hallucinerade texten ofta skadlig.

AI-transkriptionsverktyg har blivit extremt exakta och har förändrat sättet som läkare för patientjournaler på eller hur vi för protokoll från möten. Vi vet att de inte är perfekta, så vi blir inte förvånade när transkriberingen inte är helt rätt.

En ny studie fann att när mer avancerade AI-transkriberare som OpenAI's Whisper gör misstag producerar de inte bara förvrängd eller slumpmässig text. De hallucinerar hela fraser, och de är ofta plågsamma.

Vi vet att alla AI-modeller hallucinerar. När ChatGPT inte vet svaret på en fråga, hittar den ofta på något istället för att säga "jag vet inte".

Forskare från Cornell University, University of Washington, New York University och University of Virginia fann att även om Whisper API var bättre än andra verktyg, hallucinerade det fortfarande drygt 1% av tiden.

Det mer betydelsefulla resultatet är att när de analyserade den hallucinerade texten fann de att "38% av hallucinationerna innehåller uttryckliga skador som att utöva våld, hitta på felaktiga associationer eller antyda falsk auktoritet."

Det verkar som om Whisper inte gillar pinsamma tystnader, så när det var längre pauser i talet tenderade den att hallucinera mer för att fylla ut luckorna.

Detta blir ett allvarligt problem när man ska transkribera tal som talas av personer med afasi, en talstörning som ofta innebär att personen har svårt att hitta rätt ord.

Careless Whisper

Dokumentet redovisar resultaten från experiment med tidiga 2023-versioner av Whisper. OpenAI har sedan dess förbättrat verktyget, men Whispers tendens att gå över till den mörka sidan när han hallucinerar är intressant.

Forskarna klassificerade de skadliga hallucinationerna enligt följande:

  • Fortsättande av våld: Hallucinationer som skildrade våld, innehöll sexuella anspelningar eller demografiska stereotyper.
  • Felaktiga associationer: hallucinationer som innehåller falsk information, t.ex. felaktiga namn, fiktiva relationer eller felaktiga hälsostatusar.
  • Falsk auktoritet: Dessa hallucinationer innehöll text som utgav sig för att vara auktoriteter eller medier, som YouTubers eller nyhetsuppläsare, och innehöll ofta direktiv som kunde leda till nätfiskeattacker eller andra former av bedrägerier.

Här följer några exempel på transkriptioner där orden i fetstil är Whispers hallucinerade tillägg.

Whispers hallucinerade tillägg till transkriptionen visas i fetstil. Källa: arXiv
Whispers hallucinerade tillägg till transkriptionen visas i fetstil. Källa: arXiv

Du kan föreställa dig hur farliga den här typen av misstag kan vara om transkriptionerna förutsätts vara korrekta när de dokumenterar ett vittnesmål, ett telefonsamtal eller en patients medicinska journaler.

Varför tog Whisper en mening om en brandman som räddar en katt och lade till en "blodindränkt barnvagn" på platsen, eller lade till en "terrorkniv" i en mening som beskriver någon som öppnar ett paraply?

OpenAI verkar ha åtgärdat problemet men har inte gett någon förklaring till varför Whisper betedde sig som det gjorde. När forskarna testade de nyare versionerna av Whisper fick de mycket färre problematiska hallucinationer.

Konsekvenserna av även små eller mycket få hallucinationer i transkriptioner kan vara allvarliga.

I artikeln beskrivs ett verkligt scenario där ett verktyg som Whisper används för att transkribera videointervjuer med arbetssökande. Transkriptionerna matas in i ett rekryteringssystem som använder en språkmodell för att analysera transkriptionen och hitta den mest lämpliga kandidaten.

Om en intervjuperson pausade lite för länge och Whisper lade till "terrorkniv", "blodindränkt barnvagn" eller "tafsade" i en mening kunde det påverka deras chanser att få jobbet.

Forskarna sade att OpenAI bör göra människor medvetna om att Whisper hallucinerar och att det bör ta reda på varför det genererar problematiska transkriptioner.

De föreslår också att nyare versioner av Whisper bör utformas för att bättre passa underförsörjda grupper, till exempel personer med afasi och andra talhandikapp.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Eugene van der Watt

Eugene kommer från en bakgrund som elektronikingenjör och älskar allt som har med teknik att göra. När han tar en paus från att konsumera AI-nyheter hittar du honom vid snookerbordet.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar