AI-transkripsjonsverktøy genererer skadelige hallusinasjoner

Tale-til-tekst-transkribenter har blitt uvurderlige, men en ny studie viser at når den kunstige intelligensen gjør feil, er den hallusinerte teksten ofte skadelig.

AI-transkripsjonsverktøy har blitt ekstremt nøyaktige og har forandret måten leger fører pasientjournaler på, eller hvordan vi skriver møtereferater. Vi vet at de ikke er perfekte, så vi blir ikke overrasket når transkripsjonen ikke er helt riktig.

En ny studie fant at når mer avanserte AI-transkribenter som OpenAI's Whisper gjør feil, produserer de ikke bare forvrengt eller tilfeldig tekst. De hallusinerer hele setninger, og de er ofte plagsomme.

Vi vet at alle AI-modeller hallusinerer. Når ChatGPT ikke vet svaret på et spørsmål, vil den ofte finne på noe i stedet for å si "jeg vet ikke".

Forskere fra Cornell University, University of Washington, New York University og University of Virginia fant ut at selv om Whisper API var bedre enn andre verktøy, hallusinerte det likevel i litt over 1% av tilfellene.

Det viktigste funnet er at da de analyserte den hallusinerte teksten, fant de at "38% av hallusinasjonene inkluderer eksplisitte skader som å videreføre vold, finne på unøyaktige assosiasjoner eller antyde falsk autoritet."

Det ser ut til at Whisper ikke liker pinlig stillhet, så når det var lengre pauser i talen, hadde den en tendens til å hallusinere mer for å fylle hullene.

Dette blir et alvorlig problem når man transkriberer tale fra personer med afasi, en taleforstyrrelse som ofte fører til at personen sliter med å finne de riktige ordene.

Uforsiktig hvisking

Artikkelen dokumenterer resultatene fra eksperimenter med tidlige 2023-versjoner av Whisper. OpenAI har siden forbedret verktøyet, men Whispers tendens til å gå over til den mørke siden når han hallusinerer, er interessant.

Forskerne klassifiserte de skadelige hallusinasjonene på følgende måte:

Videreføring av vold: Hallusinasjoner som skildret vold, kom med seksuelle hentydninger eller involverte demografiske stereotypier.
Unøyaktige assosiasjoner: hallusinasjoner som introduserte falsk informasjon, for eksempel feil navn, fiktive relasjoner eller feilaktige helsetilstander.
Falsk autoritet: Disse hallusinasjonene inkluderte tekst som utgav seg for å være autoritative personer eller medier, som YouTubere eller nyhetsopplesere, og inneholdt ofte direktiver som kunne føre til phishing-angrep eller andre former for bedrageri.

Her er noen eksempler på transkripsjoner der ordene i fet skrift er Whispers hallusinerte tilføyelser.

Whispers hallusinerte tilføyelser til transkripsjonen er vist i fet skrift. Kilde: arXiv

Du kan tenke deg hvor farlig slike feil kan være hvis transkripsjonene antas å være nøyaktige når de dokumenterer en vitneforklaring, en telefonsamtale eller en pasientjournal.

Hvorfor tok Whisper en setning om en brannmann som redder en katt, og la til en "bloddryppende barnevogn", eller la til en "terrorkniv" i en setning som beskriver noen som åpner en paraply?

OpenAI ser ut til å ha løst problemet, men har ikke gitt noen forklaring på hvorfor Whisper oppførte seg slik den gjorde. Da forskerne testet de nyere versjonene av Whisper, fikk de langt færre problematiske hallusinasjoner.

Konsekvensene av selv små eller svært få hallusinasjoner i transkripsjonene kan være alvorlige.

Artikkelen beskriver et virkelig scenario der et verktøy som Whisper brukes til å transkribere videointervjuer av jobbsøkere. Transkripsjonene mates inn i et ansettelsessystem som bruker en språkmodell til å analysere transkripsjonene for å finne den best egnede kandidaten.

Hvis et intervjuobjekt tok en litt for lang pause og Whisper la til "terrorkniv", "bloddryppende barnevogn" eller "befølet" i en setning, kunne det påvirke sjansene for å få jobben.

Forskerne sa at OpenAI bør gjøre folk oppmerksomme på at Whisper hallusinerer, og at den bør finne ut hvorfor den genererer problematiske transkripsjoner.

De foreslår også at nyere versjoner av Whisper bør utformes slik at de er bedre tilpasset underbetjente grupper, for eksempel personer med afasi og andre talevansker.

AI-transkripsjonsverktøy genererer skadelige hallusinasjoner

Uforsiktig hvisking

Bli med i fremtiden

Eugene van der Watt

RELATERTE ARTIKLER

OpenAI lanserer "SearchGPT" for å forsøke å holde seg i front av feltet

Meta lanserer Llama 3.1-modeller og holder fast ved en åpen strategi

Senatet undersøker OpenAIs sikkerhet og styring etter varsleres påstander

Googles AI forutser været ved hjelp av en brøkdel av datakraften

AI-transkripsjonsverktøy genererer skadelige hallusinasjoner

Uforsiktig hvisking

Bli med i fremtiden

Eugene van der Watt

RELATERTE ARTIKLER

OpenAI lanserer "SearchGPT" for å forsøke å holde seg i front av feltet

Meta lanserer Llama 3.1-modeller og holder fast ved en åpen strategi

Senatet undersøker OpenAIs sikkerhet og styring etter varsleres påstander

Googles AI forutser været ved hjelp av en brøkdel av datakraften

GRATIS PDF EKSKLUSIVHold deg i forkant med DailyAI

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI