IBM Security zeigt, wie KI Audiogespräche entführen kann

Februar 14, 2024

IBM Security hat auf seinem Security Intelligence Blog Untersuchungen veröffentlicht, die zeigen, wie KI-Stimmenklone in ein Live-Gespräch eingeschleust werden können, ohne dass die Teilnehmer dies bemerken.

Mit der Verbesserung der Technologie zum Klonen von Stimmen haben wir gesehen gefälschte Telefonanrufe die sich als Joe Biden ausgeben, und betrügerische Anrufe, die vorgeben, ein in Not geratenes Familienmitglied zu sein und um Geld zu bitten.

Der Ton in diesen Anrufen klingt gut, aber der Betrugsanruf kann oft leicht vereitelt werden, indem man ein paar persönliche Fragen stellt, um den Anrufer als Betrüger zu identifizieren.

In ihrem fortgeschrittenen Proof-of-Concept-Angriff haben die IBM Sicherheitsforscher zeigte, dass ein LLM in Verbindung mit dem Klonen von Stimmen als Man-in-the-Middle agieren kann, um nur einen wichtigen Teil eines Gesprächs und nicht den gesamten Anruf zu kapern.

Wie es funktioniert

Der Angriff könnte über Malware erfolgen, die auf den Telefonen der Opfer installiert ist, oder über einen bösartigen, kompromittierten Voice-over-IP-Dienst (VoIP). Sobald das Programm installiert ist, überwacht es das Gespräch und benötigt nur 3 Sekunden Audio, um beide Stimmen zu klonen.

Ein Sprache-zu-Text-Generator ermöglicht es dem LLM, das Gespräch zu überwachen, um den Kontext des Gesprächs zu verstehen. Das Programm wurde angewiesen, den Ton des Gesprächs so weiterzugeben, wie er ist, aber den Ton des Anrufs zu ändern, wenn eine Person nach Kontodaten fragt.

Wenn die Person antwortet, um ihre Kontodaten anzugeben, ändert der Stimmenklon den Ton, um stattdessen die Bankdaten des Betrügers anzugeben. Die Latenz in der Tonspur während der Modifikation wird durch eine Füllsprache überdeckt.

Im Folgenden wird veranschaulicht, wie der PoC-Angriff (Proof of Concept) funktioniert.

Illustration, wie die KI einen Teil des Gesprächs verändert. Unverändertes Gespräch in schwarz und verändertes Audio in rot. Quelle: Security Intelligence

Da das LLM während des Großteils des Anrufs unveränderte Audiodaten weiterleitet, ist es wirklich schwierig zu erkennen, dass die Bedrohung besteht.

Den Forschern zufolge könnte derselbe Angriff "auch medizinische Informationen wie Blutgruppe und Allergien in Gesprächen verändern; er könnte einem Analysten befehlen, eine Aktie zu verkaufen oder zu kaufen; er könnte einen Piloten anweisen, eine andere Route zu fliegen".

Die Forscher sagten, dass "der Aufbau dieses PoC überraschend und erschreckend einfach war". Da sich die Intonation und die Emotionen von Stimmenklonen verbessern und bessere Hardware die Latenzzeit verringert, wäre diese Art von Angriff wirklich schwer zu erkennen oder zu verhindern.

Die Forscher erweitern das Konzept über die Entführung eines Audiogesprächs hinaus, indem sie sagen, dass es mit "bestehenden Modellen, die Text in Video umwandeln können, theoretisch möglich ist, ein live gestreamtes Video, z. B. Nachrichten im Fernsehen, abzufangen und den ursprünglichen Inhalt durch einen manipulierten zu ersetzen".

Es kann sicherer sein, nur den Augen und Ohren zu trauen, wenn man sich in der Gegenwart des Gesprächspartners befindet.

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Eugene van der Watt

Eugene kommt aus der Elektronikbranche und liebt alles, was mit Technik zu tun hat. Wenn er eine Pause vom Konsum von KI-Nachrichten einlegt, findet man ihn am Snookertisch.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen