Kan vi öka insynen i AI-agenter för att göra dem säkrare?

26 januari 2024

AI-agenter utför komplexa målinriktade uppgifter med begränsad övervakning. Ett forskarteam har föreslagit tre åtgärder som kan öka insynen i AI-agenter och göra dem säkrare.

De flesta tänker på AI i termer av en chatbot, som ChatGPT. Du tillfrågar den med lite text och den genererar ett svar. Den verkligt spännande utvecklingen inom AI är att se den användas som en agent, ett system som självständigt kan utföra uppgifter för att uppnå ett slutmål.

Ett enkelt exempel är Kanin R1 som kan använda AI som en agent för att surfa på webben och boka en flygbiljett åt en användare. Dessa agenter har begränsad kontroll över hur de utför sina uppgifter eller vilka andra agenter de interagerar med för att uppnå sina mål.

Forskarna undersökte de potentiella risker som AI-agenter utgör samt hur man kan minska dessa risker genom att öka insynen i var, varför, hur och av vem vissa AI-agenter används.

Författarna till papper kom från Quebec AI Institute, Harvard University, Harvard Law School, University of Oxford, Cooperative AI Foundation, University of Cambridge och University of Toronto.

Risker med AI-agenter

Om en AI-agent får ett mål att optimera för kan den ta etiska eller juridiska genvägar för att nå sitt mål eller agera på ett sätt som kan orsaka betydande skada om det inte finns någon människa med i bilden.

Forskarna identifierade fem huvudsakliga risker med dåligt övervakade AI-agenter.

  • Skadlig användning - En lågutbildad illvillig aktör kan använda en mycket kapabel agent för att automatisera end-to-end-pipelines i cyberbrottslighet eller utveckla skadliga biologisk eller kemiska verktyg.
  • Överdriven tillit och bristande egenmakt - Att förlita sig alltför mycket på AI-agenter för att automatisera komplexa uppgifter i situationer där mycket står på spel, som i finansiella eller juridiska system, kan få allvarliga konsekvenser.
  • Fördröjda och diffusa effekter - Om en AI har långsiktiga mål kan effekterna av de dåliga beslut som den fattar bli uppenbara först långt efter att den har tagits i bruk. Fördröjda effekter kan också leda till att skadan sprids genom en organisation eller ett samhälle innan den upptäcks.
  • Risker med flera aktörer - En AI-agent kan ha testats som ett enda system, men oväntade risker kan uppstå när flera agenter interagerar med varandra.
  • Underagenter - En agent kan besluta att den för att uppnå sitt mål måste skapa underagenter av sig själv. Den kan anropa flera kopior av sig själv eller finjustera en annan agent. Utan att veta om en agent har skapat underagenter är det svårt att upptäcka skadligt beteende.

Hur man ökar synligheten

Vi behöver styrningsstrukturer för att fastställa riktlinjer som håller nyckelaktörer ansvariga. För att uppnå detta är det viktigt med större insyn i utplacerade AI-agenter.

Forskarna föreslog tre olika sätt att göra detta på.

  • Agentidentifierare - Genom att säkerställa att en agent identifierar sig själv kan människor, organisationer eller andra agenter hantera sina interaktioner med den. Det skulle också göra det lättare att koppla en åtgärd till en specifik agent och den organisation som skapade eller distribuerade den.
  • Övervakning i realtid - Genom att övervaka en agents beteende i realtid skulle en utvecklare omedelbart kunna flagga överträdelser av tydliga regler eller övervaka agentens interaktioner med andra agenter. Det skulle också kunna flagga en agent som skapar flera instanser av sig själv, överskrider finansiella gränser eller använder dataresurser över en viss gräns.
  • Aktivitetsloggar - Realistiskt sett kommer skador som orsakas av agenter att upptäckas i efterhand, snarare än att förebyggas. Aktivitetsloggar som registrerar vissa in- och utdata från en agent skulle vara användbara för att avgöra hur saker och ting gick fel och vad som ska åtgärdas.

Om dessa åtgärder genomförs kan det bidra till att minska de risker som AI-agenter utgör. Det kan dock vara en utmaning att implementera realtidsövervakning och aktivitetsloggar utan att bryta mot integritetslagar.

Vi är definitivt på väg bort från appbaserade interaktioner när AI-agenter i allt högre grad agerar självständigt för att utföra de jobb vi ger dem. Men det finns risker. I rapporten konstateras att det kommer att krävas politisk vilja, socioteknisk infrastruktur och offentligt inflytande för att hantera dessa risker. Förbättrad insyn i exakt hur AI-agenter fungerar är avgörande för att detta ska kunna ske.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Eugene van der Watt

Eugene kommer från en bakgrund som elektronikingenjör och älskar allt som har med teknik att göra. När han tar en paus från att konsumera AI-nyheter hittar du honom vid snookerbordet.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar