I trascrittori vocali sono diventati preziosi, ma un nuovo studio dimostra che quando l'intelligenza artificiale sbaglia il testo allucinato è spesso dannoso.
Gli strumenti di trascrizione AI sono diventati estremamente precisi e hanno trasformato il modo in cui i medici tengono le cartelle cliniche dei pazienti o il modo in cui noi verbalizziamo le riunioni. Sappiamo che non sono perfetti, quindi non ci sorprendiamo quando la trascrizione non è del tutto corretta.
Un nuovo studio ha scoperto che quando trascrittori AI più avanzati come OpenAII bisbigli non si limitano a produrre un testo confuso o casuale. Allucinano intere frasi e spesso sono angoscianti.
Sappiamo che tutti i modelli di IA hanno le allucinazioni. Quando ChatGPT non conosce la risposta a una domanda, spesso si inventa qualcosa invece di dire "non lo so".
I ricercatori della Cornell University, dell'Università di Washington, dell'Università di New York e dell'Università della Virginia hanno scoperto che anche se l'API Whisper era migliore di altri strumenti, continuava ad avere allucinazioni per oltre 1% del tempo.
Il dato più significativo è che, analizzando il testo allucinato, hanno scoperto che "38% delle allucinazioni includono danni espliciti come perpetuare la violenza, inventare associazioni inesatte o implicare una falsa autorità".
Sembra che a Whisper non piacciano i silenzi imbarazzanti, quindi quando c'erano pause più lunghe nel discorso tendeva ad allucinare di più per riempire i vuoti.
Questo diventa un problema serio quando si trascrivono discorsi pronunciati da persone affette da afasia, un disturbo del linguaggio che spesso fa sì che la persona fatichi a trovare le parole giuste.
Sussurro incauto
Il documento riporta i risultati degli esperimenti con le prime versioni di Whisper del 2023. OpenAI ha migliorato lo strumento, ma la tendenza di Whisper a passare al lato oscuro quando ha le allucinazioni è interessante.
I ricercatori hanno classificato le allucinazioni dannose come segue:
- La perpetuazione della violenza: Allucinazioni che raffigurano violenza, allusioni sessuali o stereotipi demografici.
- Associazioni imprecise: allucinazioni che introducono informazioni false, come nomi errati, relazioni fittizie o stati di salute errati.
- Falsa autorità: Queste allucinazioni comprendevano testi che impersonavano figure autorevoli o mezzi di comunicazione, come YouTubers o giornalisti, e spesso comportavano direttive che potevano portare ad attacchi di phishing o ad altre forme di inganno.
Ecco alcuni esempi di trascrizioni in cui le parole in grassetto sono aggiunte allucinate di Whisper.
Si può immaginare quanto possano essere pericolosi questi tipi di errori se si presume che le trascrizioni siano accurate quando si documenta una dichiarazione di un testimone, una telefonata o la cartella clinica di un paziente.
Perché Whisper ha preso una frase su un pompiere che salva un gatto e ha aggiunto alla scena un "passeggino intriso di sangue", o ha aggiunto un "coltello del terrore" a una frase che descrive qualcuno che apre un ombrello?
OpenAI sembra aver risolto il problema, ma non ha fornito una spiegazione del perché Whisper si sia comportato in quel modo. Quando i ricercatori hanno testato le nuove versioni di Whisper, hanno ottenuto un numero molto inferiore di allucinazioni problematiche.
Le implicazioni di allucinazioni anche lievi o pochissime nelle trascrizioni potrebbero essere gravi.
Il documento descrive uno scenario reale in cui uno strumento come Whisper viene utilizzato per trascrivere le interviste video dei candidati al lavoro. Le trascrizioni vengono inserite in un sistema di assunzione che utilizza un modello linguistico per analizzare la trascrizione e trovare il candidato più adatto.
Se un intervistato si soffermava un po' troppo a lungo e Whisper aggiungeva "coltello del terrore", "passeggino intriso di sangue" o "palpeggiato" a una frase, ciò poteva influire sulle sue probabilità di ottenere il lavoro.
I ricercatori hanno affermato che OpenAI dovrebbe far sapere che Whisper ha delle allucinazioni e che dovrebbe scoprire perché genera trascrizioni problematiche.
Suggeriscono inoltre che le nuove versioni di Whisper dovrebbero essere progettate per accogliere meglio le comunità meno servite, come le persone con afasia e altri disturbi del linguaggio.