AI-transkripsjonsverktøy genererer skadelige hallusinasjoner

8. mai 2024
  • En studie fant at AI-transkripsjonsverktøy hallusinerer og genererer skadelig tale-til-tekst
  • OpenAIs Whisper API hallusinerte 1,4% transkripsjoner, hvorav 38% av disse inkluderte skadelig innhold
  • Hallusinasjoner var mer utbredt ved transkribering av tale fra personer med afasi

Tale-til-tekst-transkribenter har blitt uvurderlige, men en ny studie viser at når den kunstige intelligensen gjør feil, er den hallusinerte teksten ofte skadelig.

AI-transkripsjonsverktøy har blitt ekstremt nøyaktige og har forandret måten leger fører pasientjournaler på, eller hvordan vi skriver møtereferater. Vi vet at de ikke er perfekte, så vi blir ikke overrasket når transkripsjonen ikke er helt riktig.

En ny studie fant at når mer avanserte AI-transkribenter som OpenAI's Whisper gjør feil, produserer de ikke bare forvrengt eller tilfeldig tekst. De hallusinerer hele setninger, og de er ofte plagsomme.

Vi vet at alle AI-modeller hallusinerer. Når ChatGPT ikke vet svaret på et spørsmål, vil den ofte finne på noe i stedet for å si "jeg vet ikke".

Forskere fra Cornell University, University of Washington, New York University og University of Virginia fant ut at selv om Whisper API var bedre enn andre verktøy, hallusinerte det likevel i litt over 1% av tilfellene.

Det viktigste funnet er at da de analyserte den hallusinerte teksten, fant de at "38% av hallusinasjonene inkluderer eksplisitte skader som å videreføre vold, finne på unøyaktige assosiasjoner eller antyde falsk autoritet."

Det ser ut til at Whisper ikke liker pinlig stillhet, så når det var lengre pauser i talen, hadde den en tendens til å hallusinere mer for å fylle hullene.

Dette blir et alvorlig problem når man transkriberer tale fra personer med afasi, en taleforstyrrelse som ofte fører til at personen sliter med å finne de riktige ordene.

Uforsiktig hvisking

Artikkelen dokumenterer resultatene fra eksperimenter med tidlige 2023-versjoner av Whisper. OpenAI har siden forbedret verktøyet, men Whispers tendens til å gå over til den mørke siden når han hallusinerer, er interessant.

Forskerne klassifiserte de skadelige hallusinasjonene på følgende måte:

  • Videreføring av vold: Hallusinasjoner som skildret vold, kom med seksuelle hentydninger eller involverte demografiske stereotypier.
  • Unøyaktige assosiasjoner: hallusinasjoner som introduserte falsk informasjon, for eksempel feil navn, fiktive relasjoner eller feilaktige helsetilstander.
  • Falsk autoritet: Disse hallusinasjonene inkluderte tekst som utgav seg for å være autoritative personer eller medier, som YouTubere eller nyhetsopplesere, og inneholdt ofte direktiver som kunne føre til phishing-angrep eller andre former for bedrageri.

Her er noen eksempler på transkripsjoner der ordene i fet skrift er Whispers hallusinerte tilføyelser.

Whispers hallusinerte tilføyelser til transkripsjonen er vist i fet skrift. Kilde: arXiv
Whispers hallusinerte tilføyelser til transkripsjonen er vist i fet skrift. Kilde: arXiv

Du kan tenke deg hvor farlig slike feil kan være hvis transkripsjonene antas å være nøyaktige når de dokumenterer en vitneforklaring, en telefonsamtale eller en pasientjournal.

Hvorfor tok Whisper en setning om en brannmann som redder en katt, og la til en "bloddryppende barnevogn", eller la til en "terrorkniv" i en setning som beskriver noen som åpner en paraply?

OpenAI ser ut til å ha løst problemet, men har ikke gitt noen forklaring på hvorfor Whisper oppførte seg slik den gjorde. Da forskerne testet de nyere versjonene av Whisper, fikk de langt færre problematiske hallusinasjoner.

Konsekvensene av selv små eller svært få hallusinasjoner i transkripsjonene kan være alvorlige.

Artikkelen beskriver et virkelig scenario der et verktøy som Whisper brukes til å transkribere videointervjuer av jobbsøkere. Transkripsjonene mates inn i et ansettelsessystem som bruker en språkmodell til å analysere transkripsjonene for å finne den best egnede kandidaten.

Hvis et intervjuobjekt tok en litt for lang pause og Whisper la til "terrorkniv", "bloddryppende barnevogn" eller "befølet" i en setning, kunne det påvirke sjansene for å få jobben.

Forskerne sa at OpenAI bør gjøre folk oppmerksomme på at Whisper hallusinerer, og at den bør finne ut hvorfor den genererer problematiske transkripsjoner.

De foreslår også at nyere versjoner av Whisper bør utformes slik at de er bedre tilpasset underbetjente grupper, for eksempel personer med afasi og andre talevansker.

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Eugene van der Watt

Eugene har bakgrunn som elektroingeniør og elsker alt som har med teknologi å gjøre. Når han tar en pause fra AI-nyhetene, finner du ham ved snookerbordet.

×
 
 

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI


 

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".



 
 

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser