KI-Transkriptionswerkzeuge erzeugen schädliche Halluzinationen

Mai 8, 2024

  • Eine Studie ergab, dass KI-Transkriptionstools halluzinieren und schädliche Sprache-zu-Text-Transkriptionen erzeugen
  • OpenAIs Whisper API halluzinierte 1,4% Transkriptionen, von denen 38% schädliche Inhalte enthielten
  • Halluzinationen traten bei der Transkription von Sprache von Menschen mit Aphasie häufiger auf

Sprache-zu-Text-Transkriptoren sind von unschätzbarem Wert, aber eine neue Studie zeigt, dass der halluzinierte Text oft schädlich ist, wenn die KI einen Fehler macht.

KI-Transkriptionstools sind extrem genau geworden und haben die Art und Weise verändert, wie Ärzte Patientenakten führen oder wie wir Besprechungsprotokolle anfertigen. Wir wissen, dass sie nicht perfekt sind, daher sind wir nicht überrascht, wenn die Transkription nicht ganz stimmt.

Eine neue Studie festgestellt, dass fortschrittlichere KI-Transkriptionsprogramme wie OpenAIWhisper Fehler machen, produzieren sie nicht nur verstümmelten oder zufälligen Text. Sie halluzinieren ganze Sätze, und sie sind oft beunruhigend.

Wir wissen, dass alle KI-Modelle halluzinieren. Wenn ChatGPT keine Antwort auf eine Frage weiß, denkt es sich oft etwas aus, anstatt zu sagen: "Ich weiß es nicht".

Forscher der Cornell University, der University of Washington, der New York University und der University of Virginia fanden heraus, dass die Whisper-API zwar besser war als andere Tools, aber immer noch in über 1% der Fälle halluzinierte.

Das wichtigere Ergebnis ist, dass sie bei der Analyse des halluzinierten Textes feststellten, dass "38% der Halluzinationen explizite Schädigungen beinhalten, wie z. B. die Ausübung von Gewalt, das Erfinden falscher Assoziationen oder die Unterstellung einer falschen Autorität".

Es scheint, dass Whisper keine peinlichen Pausen mag, so dass es bei längeren Sprechpausen dazu neigt, mehr zu halluzinieren, um die Lücken zu füllen.

Dies wird zu einem ernsthaften Problem bei der Transkription von Sprache, die von Menschen mit Aphasie gesprochen wird, einer Sprachstörung, die oft dazu führt, dass die Person Schwierigkeiten hat, die richtigen Worte zu finden.

Unachtsames Flüstern

In dem Papier werden die Ergebnisse von Experimenten mit frühen 2023er Versionen von Whisper festgehalten. OpenAI hat das Werkzeug inzwischen verbessert, aber Whispers Neigung, bei Halluzinationen auf die dunkle Seite zu wechseln, ist interessant.

Die Forscher klassifizierten die schädlichen Halluzinationen wie folgt:

  • Fortbestand der Gewalt: Halluzinationen, die Gewalt darstellten, sexuelle Anspielungen enthielten oder mit demografischen Stereotypen zu tun hatten.
  • Unzutreffende Assoziationen: Halluzinationen mit falschen Informationen, wie z. B. falsche Namen, fiktive Beziehungen oder ein falscher Gesundheitszustand.
  • Falsche Autorität: Diese Halluzinationen enthielten Texte, die sich als Autoritätspersonen oder Medienvertreter ausgaben, wie z. B. YouTuber oder Nachrichtensprecher, und beinhalteten oft Anweisungen, die zu Phishing-Angriffen oder anderen Formen der Täuschung führen konnten.

Hier sind einige Beispiele für Transkriptionen, bei denen die fettgedruckten Wörter Whispers halluzinierte Ergänzungen sind.

Die halluzinierten Ergänzungen von Whisper zur Transkription sind fett gedruckt. Quelle: arXiv
Die halluzinierten Ergänzungen von Whisper zur Transkription sind fett gedruckt. Quelle: arXiv

Sie können sich vorstellen, wie gefährlich diese Art von Fehlern sein kann, wenn bei der Dokumentation einer Zeugenaussage, eines Telefongesprächs oder der Krankenakte eines Patienten davon ausgegangen wird, dass die Abschriften korrekt sind.

Warum nahm Whisper einen Satz über einen Feuerwehrmann, der eine Katze rettet, und fügte einen "blutgetränkten Kinderwagen" in die Szene ein, oder fügte ein "Terrormesser" in einen Satz ein, der beschreibt, wie jemand einen Regenschirm öffnet?

OpenAI scheint das Problem behoben zu haben, gibt aber keine Erklärung dafür, warum Whisper sich so verhielt, wie es sich verhielt. Als die Forscher die neueren Versionen von Whisper testeten, bekamen sie weit weniger problematische Halluzinationen.

Selbst leichte oder sehr wenige Halluzinationen in den Transkriptionen könnten schwerwiegende Folgen haben.

In dem Papier wird ein reales Szenario beschrieben, in dem ein Tool wie Whisper zur Transkription von Videointerviews von Stellenbewerbern verwendet wird. Die Transkriptionen werden in ein Einstellungssystem eingespeist, das die Transkription mithilfe eines Sprachmodells analysiert, um den am besten geeigneten Bewerber zu finden.

Wenn ein Befragter etwas zu lange pausiert und Whisper "Terrormesser", "blutgetränkter Kinderwagen" oder "befummelt" zu einem Satz hinzufügt, kann sich das auf seine Chancen auswirken, den Job zu bekommen.

Die Forscher sagten, dass OpenAI sollte darauf aufmerksam machen, dass Whisper halluziniert und dass es herausfinden sollte, warum es problematische Transkriptionen erzeugt.

Sie schlagen außerdem vor, dass neuere Versionen von Whisper so gestaltet werden sollten, dass sie besser für unterversorgte Bevölkerungsgruppen geeignet sind, z. B. für Menschen mit Aphasie und anderen Sprachbehinderungen.

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Eugene van der Watt

Eugene kommt aus der Elektronikbranche und liebt alles, was mit Technik zu tun hat. Wenn er eine Pause vom Konsum von KI-Nachrichten einlegt, findet man ihn am Snookertisch.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen