AI-agenten voeren complexe doelgerichte taken uit met beperkte supervisie. Een team van onderzoekers heeft drie maatregelen voorgesteld die de zichtbaarheid van AI-agenten kunnen vergroten om ze veiliger te maken.
De meeste mensen denken bij AI aan een chatbot, zoals ChatGPT. Je vraagt het wat tekst en het genereert een antwoord. De echt opwindende ontwikkeling in AI is dat het wordt ingezet als een agent, een systeem dat zelfstandig taken kan uitvoeren om een einddoel na te streven.
Een eenvoudig voorbeeld is de Konijn R1 apparaat dat AI kan gebruiken als een agent om op het web te surfen en een vlucht te boeken voor een gebruiker. Deze agents hebben beperkte supervisie over hoe ze hun taken uitvoeren of met welke andere agents ze samenwerken om hun doelen te bereiken.
De onderzoekers onderzochten de potentiële risico's van AI-agenten en hoe deze risico's kunnen worden beperkt door meer inzicht te krijgen in waar, waarom, hoe en door wie bepaalde AI-agenten worden gebruikt.
De auteurs van de papier waren van het Quebec AI Institute, Harvard University, Harvard Law School, University of Oxford, Cooperative AI Foundation, University of Cambridge en University of Toronto.
Risico's van AI-agenten
Als een AI-agent een doel krijgt om voor te optimaliseren, kan hij ethische of wettelijke bochten afsnijden om zijn doel te bereiken of handelen op manieren die aanzienlijke schade kunnen veroorzaken als er geen mens in het spel is.
De onderzoekers identificeerden vijf belangrijke risico's van slecht gecontroleerde AI-agenten.
- Kwaadwillig gebruik - Een laaggeschoolde kwaadwillende actor zou een zeer capabele agent kunnen gebruiken om end-to-end pijplijnen in cybercriminaliteit te automatiseren of schadelijke stoffen te ontwikkelen. biologisch of chemische hulpmiddelen.
- Overdreven afhankelijkheid en machteloosheid - Te veel vertrouwen op AI-agenten voor het automatiseren van complexe taken in situaties waar veel op het spel staat, zoals financiële of juridische systemen, kan ernstige gevolgen hebben.
- Vertraagde en diffuse gevolgen - Als een AI langetermijndoelen heeft, kunnen de gevolgen van slechte beslissingen pas lang nadat de AI is ingezet duidelijk worden. Vertraagde gevolgen kunnen er ook toe leiden dat de schade zich door een organisatie of gemeenschap verspreidt voordat deze wordt ontdekt.
- Multi-agent risico's - Een AI-agent kan getest zijn als een enkel systeem, maar er kunnen onverwachte risico's ontstaan wanneer meerdere agenten met elkaar samenwerken.
- Subagenten - Een agent kan besluiten dat hij subagenten van zichzelf moet maken om zijn doel te bereiken. Het kan meerdere kopieën van zichzelf oproepen of een andere agent afstemmen. Zonder te weten of een agent sub-agenten heeft gemaakt, is het moeilijk om schadelijk gedrag te detecteren.
Hoe de zichtbaarheid vergroten
We hebben bestuursstructuren nodig om richtlijnen op te stellen die de belangrijkste belanghebbenden verantwoordelijk houden. Om dit te bereiken is een grotere zichtbaarheid van ingezette AI-agenten essentieel.
De onderzoekers stelden drie manieren voor om dit te doen.
- Identificatiemiddelen voor agenten - Door ervoor te zorgen dat een agent zichzelf identificeert, kunnen mensen, organisaties of andere agenten hun interacties met de agent beheren. Het zou ook helpen bij het koppelen van een actie aan een specifieke agent en de organisatie die de agent heeft gemaakt of ingezet.
- Real-time bewaking - Door het gedrag van een agent in realtime te volgen, kan een ontwikkelaar onmiddellijk schendingen van duidelijke regels signaleren of de interacties van de agent met andere agenten controleren. Het zou ook een agent kunnen markeren die meerdere instanties van zichzelf maakt, financiële limieten overschrijdt of computerbronnen boven een bepaalde limiet gebruikt.
- Activiteitenlogboeken - Realistisch gezien zal schade veroorzaakt door agenten eerder achteraf ontdekt worden dan vooraf voorkomen. Activiteitenlogboeken die bepaalde inputs en outputs van een agent vastleggen zouden nuttig zijn om te bepalen hoe dingen fout zijn gegaan en wat er moet worden opgelost.
Als deze maatregelen worden geïmplementeerd, kunnen de risico's van AI-agenten worden beperkt. Het kan echter een uitdaging zijn om realtime monitoring en activiteitenlogs te implementeren zonder de privacywetgeving te schenden.
We stappen definitief af van app-gebaseerde interacties nu AI-agenten steeds vaker zelfstandig de taken uitvoeren die wij voor hen hebben ingesteld. Maar er zijn risico's. In het artikel wordt opgemerkt dat voor het beheren van deze risico's politieke wil, sociotechnische infrastructuur en publieke invloed nodig zijn. Een betere zichtbaarheid van hoe AI-agenten precies te werk gaan is cruciaal om dit te realiseren.