Tale-til-tekst-transkribenter er blevet uvurderlige, men en ny undersøgelse viser, at når AI'en tager fejl, er den hallucinerede tekst ofte skadelig.
AI-transskriptionsværktøjer er blevet ekstremt præcise og har ændret den måde, læger fører patientjournaler på, eller hvordan vi tager referat af møder. Vi ved, at de ikke er perfekte, så vi bliver ikke overraskede, når transskriptionen ikke er helt korrekt.
En ny undersøgelse fandt ud af, at når mere avancerede AI-transskribenter som OpenAI's Whisper begår fejl, producerer de ikke bare forvrænget eller tilfældig tekst. De hallucinerer hele sætninger, og de er ofte foruroligende.
Vi ved, at alle AI-modeller hallucinerer. Når ChatGPT ikke kender svaret på et spørgsmål, vil den ofte finde på noget i stedet for at sige "jeg ved det ikke".
Forskere fra Cornell University, University of Washington, New York University og University of Virginia fandt ud af, at selv om Whisper API var bedre end andre værktøjer, hallucinerede det stadig lidt over 1% af tiden.
Det mere betydningsfulde resultat er, at da de analyserede den hallucinerede tekst, fandt de ud af, at "38% af hallucinationerne inkluderer eksplicitte skader såsom at udøve vold, opfinde unøjagtige associationer eller antyde falsk autoritet."
Det lader til, at Whisper ikke bryder sig om akavet tavshed, så når der var længere pauser i talen, havde den en tendens til at hallucinere mere for at fylde hullerne ud.
Det bliver et alvorligt problem, når man transskriberer tale, der er talt af mennesker med afasi, en taleforstyrrelse, der ofte får personen til at kæmpe for at finde de rigtige ord.
Skødesløs hvisken
Artiklen beskriver resultaterne af eksperimenter med tidlige 2023-versioner af Whisper. OpenAI har siden forbedret værktøjet, men Whispers tendens til at gå over til den mørke side, når han hallucinerer, er interessant.
Forskerne klassificerede de skadelige hallucinationer på følgende måde:
- Fortsættelse af vold: Hallucinationer, der skildrede vold, kom med seksuelle hentydninger eller involverede demografiske stereotyper.
- Upræcise associationer: hallucinationer, der introducerer falske oplysninger, såsom forkerte navne, fiktive relationer eller fejlagtige helbredstilstande.
- Falsk autoritet: Disse hallucinationer omfattede tekst, der udgav sig for at være autoritative personer eller medier, såsom YouTubere eller nyhedsoplæsere, og involverede ofte direktiver, der kunne føre til phishing-angreb eller andre former for bedrageri.
Her er nogle eksempler på transskriptioner, hvor ordene med fed skrift er Whispers hallucinerede tilføjelser.
Du kan forestille dig, hvor farlige den slags fejl kan være, hvis transskriptionerne antages at være nøjagtige, når de dokumenterer et vidneudsagn, et telefonopkald eller en patients lægejournal.
Hvorfor tog Whisper en sætning om en brandmand, der redder en kat, og tilføjede en "blodindsmurt barnevogn" til scenen, eller tilføjede en "terrorkniv" til en sætning, der beskriver en person, der åbner en paraply?
OpenAI ser ud til at have løst problemet, men har ikke givet nogen forklaring på, hvorfor Whisper opførte sig, som den gjorde. Da forskerne testede de nyere versioner af Whisper, fik de langt færre problematiske hallucinationer.
Konsekvenserne af selv små eller meget få hallucinationer i transskriptioner kan være alvorlige.
Artiklen beskriver et scenarie fra den virkelige verden, hvor et værktøj som Whisper bruges til at transskribere videointerviews med jobansøgere. Transskriptionerne føres ind i et ansættelsessystem, der bruger en sprogmodel til at analysere transskriptionen for at finde den bedst egnede kandidat.
Hvis en interviewperson holdt en lidt for lang pause, og Whisper tilføjede "terrorkniv", "blodindsmurt barnevogn" eller "befamlet" til en sætning, kunne det påvirke vedkommendes chancer for at få jobbet.
Forskerne sagde, at OpenAI bør gøre folk opmærksomme på, at Whisper hallucinerer, og at den bør finde ud af, hvorfor den genererer problematiske transskriptioner.
De foreslår også, at nyere versioner af Whisper skal designes til bedre at kunne rumme underservicerede grupper, som f.eks. mennesker med afasi og andre talevanskeligheder.