Het Amerikaanse National Institute of Standards and Technology (NIST) heeft zijn bezorgdheid geuit over de veiligheid van voorspellende en generatieve AI-systemen.
Volgens Apostol Vassilev, een computerwetenschapper bij NIST, blijven deze technologieën ondanks de vooruitgang in beveiliging kwetsbaar voor verschillende aanvallen.
In een gezamenlijk papier getiteld "Adversarieel machinaal leren: Een taxonomie en terminologie van aanvallen en mitigatiesVassilev, samen met collega's van de Northeastern University en Robust Intelligence, categoriseren de beveiligingsrisico's van AI-systemen.
Vassilev verklaarde: "Ondanks de aanzienlijke vooruitgang die AI en machine learning hebben geboekt, zijn deze technologieën kwetsbaar voor aanvallen die spectaculaire storingen met ernstige gevolgen kunnen veroorzaken."
Hij waarschuwde ook voor elk bedrijf dat beweert 'volledig veilige AI' te bieden.
Dit maakt deel uit van de NIST-initiatief voor betrouwbare en verantwoorde AIDit sluit aan bij de doelstellingen van de Amerikaanse overheid voor AI-veiligheid. Het onderzoekt adversaire technieken voor machinaal leren, waarbij de nadruk ligt op vier belangrijke veiligheidsproblemen: ontwijkings-, vergiftigings-, privacy- en misbruikaanvallen.
Ontwijkingsaanvallen vinden plaats na installatie, waarbij invoer wordt gewijzigd om AI-systemen te verwarren. Bijvoorbeeld het aanpassen van stopborden zodat autonome voertuigen deze verkeerd kunnen lezen als snelheidsborden, of het maken van misleidende rijstrookmarkeringen om voertuigen op een dwaalspoor te zetten.
Bij poisoning-aanvallen worden corrupte gegevens geïntroduceerd tijdens de training. Dit kan inhouden dat er veelvuldig ongepast taalgebruik in trainingsdatasets wordt ingesloten, waardoor een chatbot dit taalgebruik overneemt in klantinteracties.
Privacyaanvallen zijn erop gericht om gevoelige informatie over de AI of zijn trainingsgegevens te extraheren, vaak via reverse-engineeringmethoden. Dit kan inhouden dat de antwoorden van een chatbot worden gebruikt om de trainingsbronnen en zwakke punten te achterhalen.
Misbruikaanvallen manipuleren legitieme bronnen, zoals webpagina's, waardoor AI-systemen valse informatie krijgen om hun werking te veranderen. Dit verschilt van vergiftigingsaanvallen, die het trainingsproces zelf beschadigen.
Ontwijkingsaanvallen bestaan uit het creëren van voorbeelden van tegenstanders om AI-systemen te misleiden tijdens de inzet, zoals het verkeerd herkennen van stopborden in autonome voertuigen.
Alina Oprea van de Northeastern University, die betrokken was bij de onderzoek, legt uit: "De meeste van deze aanvallen zijn vrij eenvoudig uit te voeren en vereisen minimale kennis van het AI-systeem en beperkte mogelijkheden voor tegenstanders."
NIST bekritiseerd voor banden met AI denktank
Apart, er zijn zorgen geuit over een gepland samenwerkingsverband voor AI-onderzoek tussen NIST en RAND Corp.
RAND, bekend om zijn banden met technologiemiljardairs en de effectieve altruïsme bewegingspeelde een belangrijke adviserende rol bij het vormgeven van de Uitvoerend bevel AI-veiligheid.
Leden van de House Committee on Science, Space, and Technology, waaronder Frank Lucas en Zoe Lofgren, bekritiseerden het gebrek aan transparantie in dit partnerschap.
De zorgen van de commissie zijn tweeledig: Ten eerste vragen ze zich af waarom er geen competitieve procedure is geweest om RAND te selecteren voor dit AI-veiligheidsonderzoek.
Wanneer overheidsinstanties zoals NIST onderzoekssubsidies verstrekken, stellen ze meestal verschillende organisaties in de gelegenheid om een aanvraag in te dienen, zodat er een eerlijk selectieproces is. Maar in dit geval lijkt het erop dat RAND zonder een dergelijke procedure is gekozen.
Ten tweede is er wat onrust over de focus van RAND op AI-onderzoek. RAND is betrokken geweest bij AI- en bioveiligheidsstudies en heeft onlangs aanzienlijke financiering voor dit werk ontvangen van bronnen die nauw verbonden zijn met de technologie-industrie.