Onderzoekers van de Britse universiteiten Durham University, University of Surrey en Royal Holloway University of London ontwikkelden een innovatieve AI-ondersteunde techniek voor het extraheren van toetsaanslagen uit akoestische opnames.
De onderzoek een techniek ontwikkeld om met succes toetsaanslagen van toetsenborden te lezen met behulp van geluidsopnames.
Met deze techniek kunnen hackers toetsaanslagen analyseren door de microfoon van een apparaat over te nemen en persoonlijke informatie zoals wachtwoorden, privégesprekken, berichten en andere gevoelige gegevens te verzamelen.
Toetsaanslagen worden opgenomen via een microfoon en verwerkt en geanalyseerd door een machine learning (ML) model dat hun afstand en positie op het toetsenbord bepaalt.
Het model kan individuele toetsaanslagen identificeren met een schokkende nauwkeurigheid van 95% wanneer de aanslagen zijn opgenomen via een microfoon van een telefoon in de buurt. De voorspellingsnauwkeurigheid daalde tot 93% wanneer opnames gemaakt via Zoom werden gebruikt om het geluidsclassificatiealgoritme te trainen.
Akoestische hackaanvallen zijn steeds geavanceerder geworden door de wijdverspreide beschikbaarheid van apparaten uitgerust met microfoons die audio van hoge kwaliteit kunnen opnemen.
Hoe werkt het model?
De aanval begint met het opnemen van toetsaanslagen op het toetsenbord van het doelwit. Deze gegevens zijn cruciaal voor het trainen van het voorspellende algoritme.
Deze opname kan worden gemaakt met behulp van een microfoon in de buurt of de met malware geïnfecteerde telefoon van het doelwit met toegang tot de microfoon.
Als alternatief kan een malafide deelnemer aan een Zoom-gesprek berichten die door het doelwit zijn getypt correleren met hun geluidsopname. Er kunnen ook manieren zijn om de microfoon van de computer te hacken met behulp van malware of zwakke plekken in de software.
De onderzoekers verzamelden trainingsgegevens door 25 keer op elk van de 36 toetsen van een moderne MacBook Pro te drukken en het geluid op te nemen dat elke toetsaanslag voortbracht. Van deze opnames werden golfvormen en spectrogrammen gemaakt, die identificeerbare variaties voor elke toets visualiseerden.
Verdere gegevensverwerking werd uitgevoerd om de signalen te verbeteren die werden gebruikt om toetsaanslagen te identificeren.
Deze spectrogrammen werden gebruikt om 'CoAtNet' te trainen, een beeldclassificator die verschillende audiospectrogrammen toeschrijft aan verschillende toetsaanslagen.
In hun tests gebruikten de onderzoekers een laptop met een toetsenbord dat vergelijkbaar is met de nieuwere laptops van Apple. Microfoons en opnamemethoden waren onder andere een iPhone 13 Mini op 17 cm afstand van het doel, Zoom en Skype.
De CoANet classificator toonde 95% nauwkeurigheid van smartphone opnames en 93% van opnames gemaakt via Zoom. Ze testten ook toetsaanslagen opgenomen via Skype, wat 91.7% nauwkeurigheid opleverde.
Het onderzoeksartikel stelt voor om typstijlen te veranderen of gerandomiseerde wachtwoorden te gebruiken om dergelijke aanvallen te voorkomen, maar dat is verre van praktisch.
Andere mogelijke verdedigingsmaatregelen zijn het gebruik van software om toetsaanslaggeluiden te reproduceren, witte ruis of softwarematige audiofilters voor toetsaanslagen. Uit het onderzoek bleek echter dat zelfs een stil toetsenbord met succes kon worden geanalyseerd op toetsaanslagen.
Dit is nog een nieuw voorbeeld van hoe machine learning geavanceerde fraudetechnieken. A recente studie ontdekten dat diepe nepstemmen maar liefst 25% van de mensen voor de gek konden houden.
Audio-aanvallen kunnen gericht zijn op hooggeplaatste personen zoals politici en CEO's om gevoelige informatie te stelen of ransomware-aanvallen te lanceren op basis van gestolen gesprekken.