Sprache-zu-Text-Transkriptoren sind von unschätzbarem Wert, aber eine neue Studie zeigt, dass der halluzinierte Text oft schädlich ist, wenn die KI einen Fehler macht.
KI-Transkriptionstools sind extrem genau geworden und haben die Art und Weise verändert, wie Ärzte Patientenakten führen oder wie wir Besprechungsprotokolle anfertigen. Wir wissen, dass sie nicht perfekt sind, daher sind wir nicht überrascht, wenn die Transkription nicht ganz stimmt.
Eine neue Studie festgestellt, dass fortschrittlichere KI-Transkriptionsprogramme wie OpenAIWhisper Fehler machen, produzieren sie nicht nur verstümmelten oder zufälligen Text. Sie halluzinieren ganze Sätze, und sie sind oft beunruhigend.
Wir wissen, dass alle KI-Modelle halluzinieren. Wenn ChatGPT keine Antwort auf eine Frage weiß, denkt es sich oft etwas aus, anstatt zu sagen: "Ich weiß es nicht".
Forscher der Cornell University, der University of Washington, der New York University und der University of Virginia fanden heraus, dass die Whisper-API zwar besser war als andere Tools, aber immer noch in über 1% der Fälle halluzinierte.
Das wichtigere Ergebnis ist, dass sie bei der Analyse des halluzinierten Textes feststellten, dass "38% der Halluzinationen explizite Schädigungen beinhalten, wie z. B. die Ausübung von Gewalt, das Erfinden falscher Assoziationen oder die Unterstellung einer falschen Autorität".
Es scheint, dass Whisper keine peinlichen Pausen mag, so dass es bei längeren Sprechpausen dazu neigt, mehr zu halluzinieren, um die Lücken zu füllen.
Dies wird zu einem ernsthaften Problem bei der Transkription von Sprache, die von Menschen mit Aphasie gesprochen wird, einer Sprachstörung, die oft dazu führt, dass die Person Schwierigkeiten hat, die richtigen Worte zu finden.
Unachtsames Flüstern
In dem Papier werden die Ergebnisse von Experimenten mit frühen 2023er Versionen von Whisper festgehalten. OpenAI hat das Werkzeug inzwischen verbessert, aber Whispers Neigung, bei Halluzinationen auf die dunkle Seite zu wechseln, ist interessant.
Die Forscher klassifizierten die schädlichen Halluzinationen wie folgt:
- Fortbestand der Gewalt: Halluzinationen, die Gewalt darstellten, sexuelle Anspielungen enthielten oder mit demografischen Stereotypen zu tun hatten.
- Unzutreffende Assoziationen: Halluzinationen mit falschen Informationen, wie z. B. falsche Namen, fiktive Beziehungen oder ein falscher Gesundheitszustand.
- Falsche Autorität: Diese Halluzinationen enthielten Texte, die sich als Autoritätspersonen oder Medienvertreter ausgaben, wie z. B. YouTuber oder Nachrichtensprecher, und beinhalteten oft Anweisungen, die zu Phishing-Angriffen oder anderen Formen der Täuschung führen konnten.
Hier sind einige Beispiele für Transkriptionen, bei denen die fettgedruckten Wörter Whispers halluzinierte Ergänzungen sind.
Sie können sich vorstellen, wie gefährlich diese Art von Fehlern sein kann, wenn bei der Dokumentation einer Zeugenaussage, eines Telefongesprächs oder der Krankenakte eines Patienten davon ausgegangen wird, dass die Abschriften korrekt sind.
Warum nahm Whisper einen Satz über einen Feuerwehrmann, der eine Katze rettet, und fügte einen "blutgetränkten Kinderwagen" in die Szene ein, oder fügte ein "Terrormesser" in einen Satz ein, der beschreibt, wie jemand einen Regenschirm öffnet?
OpenAI scheint das Problem behoben zu haben, gibt aber keine Erklärung dafür, warum Whisper sich so verhielt, wie es sich verhielt. Als die Forscher die neueren Versionen von Whisper testeten, bekamen sie weit weniger problematische Halluzinationen.
Selbst leichte oder sehr wenige Halluzinationen in den Transkriptionen könnten schwerwiegende Folgen haben.
In dem Papier wird ein reales Szenario beschrieben, in dem ein Tool wie Whisper zur Transkription von Videointerviews von Stellenbewerbern verwendet wird. Die Transkriptionen werden in ein Einstellungssystem eingespeist, das die Transkription mithilfe eines Sprachmodells analysiert, um den am besten geeigneten Bewerber zu finden.
Wenn ein Befragter etwas zu lange pausiert und Whisper "Terrormesser", "blutgetränkter Kinderwagen" oder "befummelt" zu einem Satz hinzufügt, kann sich das auf seine Chancen auswirken, den Job zu bekommen.
Die Forscher sagten, dass OpenAI sollte darauf aufmerksam machen, dass Whisper halluziniert und dass es herausfinden sollte, warum es problematische Transkriptionen erzeugt.
Sie schlagen außerdem vor, dass neuere Versionen von Whisper so gestaltet werden sollten, dass sie besser für unterversorgte Bevölkerungsgruppen geeignet sind, z. B. für Menschen mit Aphasie und anderen Sprachbehinderungen.