IBM Security viser, hvordan AI kan kapre lydsamtaler

14. februar 2024

IBM Security offentliggjorde forskning på sin Security Intelligence-blog for at vise, hvordan AI-stemmekloner kunne injiceres i en live-samtale, uden at deltagerne var klar over det.

Efterhånden som stemmekloningsteknologien forbedres, har vi set falske robocalls der udgiver sig for at være Joe Biden, og fupopkald, der udgiver sig for at være et nødlidende familiemedlem, der beder om penge.

Lyden i disse opkald lyder godt, men fupopkaldet kan ofte let afværges ved at stille et par personlige spørgsmål for at identificere den, der ringer op, som en bedrager.

I deres avancerede proof of concept-angreb IBM's sikkerhedsforskere viste, at en LLM kombineret med stemmekloning kunne fungere som en man-in-the-middle til kun at kapre en afgørende del af en samtale i stedet for hele opkaldet.

Sådan fungerer det

Angrebet kan leveres via malware installeret på ofrenes telefoner eller en ondsindet kompromitteret Voice over IP (VoIP)-tjeneste. Når programmet er på plads, overvåger det samtalen og har kun brug for 3 sekunders lyd for at kunne klone begge stemmer.

En tale-til-tekst-generator gør det muligt for LLM at overvåge samtalen for at forstå konteksten for diskussionen. Programmet blev instrueret i at videresende samtalens lyd, som den er, men at ændre samtalens lyd, når en person beder om bankkontooplysninger.

Når personen svarer for at give sine bankkontooplysninger, ændrer stemmeklonen lyden, så den i stedet giver svindlerens bankoplysninger. Forsinkelsen i lyden under ændringen dækkes af noget fyldtale.

Her er en illustration af, hvordan proof of concept-angrebet (PoC) fungerer.

Illustration af, hvordan AI ændrer en del af samtalen. Uændret samtale i sort og ændret lyd angivet med rødt. Kilde: Security Intelligence

Fordi LLM'en videresender uændret lyd under størstedelen af opkaldet, er det virkelig svært at vide, at truslen er i spil.

Forskerne sagde, at det samme angreb "også kunne ændre medicinske oplysninger, såsom blodtype og allergier i samtaler; det kunne beordre en analytiker til at sælge eller købe en aktie; det kunne instruere en pilot til at omdirigere."

Forskerne sagde, at "det var overraskende og skræmmende nemt at bygge denne PoC." Efterhånden som stemmeklonernes intonation og følelser forbedres, og bedre hardware reducerer ventetiden, vil denne type angreb blive meget vanskelige at opdage eller forhindre.

Forskerne udvider konceptet ud over at kapre en lydsamtale og siger, at med "eksisterende modeller, der kan konvertere tekst til video, er det teoretisk muligt at opsnappe en live-streamet video, som f.eks. nyheder på tv, og erstatte det oprindelige indhold med et manipuleret."

Det kan være sikrere kun at tro på sine øjne og ører, når man fysisk er i nærheden af den person, man taler med.

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Eugene van der Watt

Eugene har en baggrund som elektronikingeniør og elsker alt, hvad der har med teknologi at gøre. Når han tager en pause fra at læse AI-nyheder, kan du finde ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser