AI-agenter utfører komplekse, målrettede oppgaver med begrenset tilsyn. Et forskerteam har foreslått tre tiltak som kan gjøre AI-agenter mer synlige og dermed tryggere.
De fleste tenker på AI i form av en chatbot, som ChatGPT. Du ber den om å skrive en tekst, og den genererer et svar. Den virkelig spennende utviklingen innen AI er å se den anvendt som en agent, et system som på egen hånd kan utføre oppgaver for å nå et mål.
Et enkelt eksempel er Kanin R1 enhet, som kan bruke AI som agent for å surfe på nettet og bestille en flyreise for en bruker. Disse agentene har begrenset kontroll over hvordan de utfører oppgavene sine, eller hvilke andre agenter de samhandler med for å nå målene sine.
Forskerne undersøkte de potensielle risikoene AI-agenter utgjør, samt hvordan man kan redusere disse risikoene ved å øke synligheten av hvor, hvorfor, hvordan og av hvem visse AI-agenter brukes.
Forfatterne av papir var fra Quebec AI Institute, Harvard University, Harvard Law School, University of Oxford, Cooperative AI Foundation, University of Cambridge og University of Toronto.
Risiko ved AI-agenter
Hvis en AI-agent får et mål å optimalisere for, kan den ta etiske eller juridiske snarveier for å nå målet sitt, eller handle på måter som kan forårsake betydelig skade hvis det ikke er et menneske i loopen.
Forskerne identifiserte fem hovedrisikoer forbundet med dårlig overvåkede AI-agenter.
- Ondsinnet bruk - En ondsinnet aktør med lav kompetanse kan bruke en agent med høy kapasitet til å automatisere ende-til-ende-pipelines i datakriminalitet eller utvikle skadelige biologisk eller kjemiske verktøy.
- Overdreven avhengighet og umyndiggjøring - Hvis man stoler for mye på at AI-agenter automatiserer komplekse oppgaver i situasjoner der mye står på spill, for eksempel i finans- eller rettssystemer, kan det få alvorlige konsekvenser.
- Forsinkede og diffuse virkninger - Hvis en kunstig intelligens har langsiktige mål, kan det hende at konsekvensene av dårlige beslutninger den tar, først blir synlige lenge etter at den er tatt i bruk. Forsinket effekt kan også føre til at skaden sprer seg i en organisasjon eller et samfunn før den oppdages.
- Risiko for flere agenter - En AI-agent kan ha blitt testet som et enkelt system, men uventede risikoer kan oppstå når flere agenter samhandler med hverandre.
- Underagenter - En agent kan bestemme seg for at den må lage underagenter av seg selv for å nå målet sitt. Den kan kalle opp flere kopier av seg selv eller finjustere en annen agent. Uten å vite om en agent har opprettet underagenter, er det vanskelig å oppdage skadelig atferd.
Slik øker du synligheten
Vi trenger styringsstrukturer for å etablere retningslinjer som holder viktige interessenter ansvarlige. For å oppnå dette er det avgjørende med større innsyn i utplasserte AI-agenter.
Forskerne foreslo tre måter dette kunne gjøres på.
- Agentidentifikatorer - Ved å sørge for at en agent identifiserer seg selv, kan mennesker, organisasjoner eller andre agenter administrere samhandlingen med den. Det vil også gjøre det lettere å knytte en handling til en spesifikk agent og organisasjonen som har utført eller distribuert den.
- Overvåking i sanntid - Ved å overvåke en agents atferd i sanntid kan utvikleren umiddelbart flagge brudd på klare regler eller overvåke agentens interaksjon med andre agenter. Det kan også flagge en agent som oppretter flere instanser av seg selv, overskrider økonomiske grenser eller bruker dataressurser over en viss grense.
- Aktivitetslogger - Realistisk sett vil skader forårsaket av agenter bli oppdaget i etterkant, i stedet for å bli forhindret. Aktivitetslogger som registrerer visse inn- og utdata fra en agent, vil være nyttige for å finne ut hvordan ting gikk galt og hva som må rettes opp.
Hvis disse tiltakene ble iverksatt, kunne det bidra til å redusere risikoen som AI-agenter utgjør. Det kan imidlertid være utfordrende å implementere sanntidsovervåking og aktivitetslogger uten å bryte personvernlovene.
Vi er definitivt på vei bort fra appbaserte interaksjoner, ettersom AI-agenter i økende grad handler selvstendig for å utføre oppgavene vi gir dem. Men det finnes risikoer. I rapporten påpekes det at det vil kreve politisk vilje, sosioteknisk infrastruktur og offentlig innflytelse for å håndtere disse risikoene. Bedre innsyn i nøyaktig hvordan AI-agenter opererer, er avgjørende for å få dette til.