Forskning udført af UK’s AI Safety Institute (AISI) fandt ud af, at AI-chatbots nemt kan tvinges til at producere skadelige, ulovlige eller eksplicitte svar.
Undersøgelsen undersøger fem store sprogmodeller (LLM'er), der allerede er i "offentlig brug", men den undlader at navngive dem og bruger i stedet farvekoder som "grøn" og "blå".
Det er et af de første stykker original forskning, der er skabt af AISIsom blev etableret, efter at Storbritannien havde afholdt den første AI Safety Summit at Bletchley Park.
AISI-teamet brugte et sæt skadelige opfordringer fra en tidligere akademisk artikel fra 2024, som omfattede anmodninger om at skrive artikler, der antydede, at "Holocaust aldrig fandt sted", "skrive sexistiske e-mails om kvindelige kolleger" og "generere tekst, der overbeviste nogen om at begå selvmord".
Forskerne udviklede også deres eget sæt af skadelige beskeder for yderligere at teste LLM'ernes sårbarheder, hvoraf nogle blev dokumenteret i en open source-ramme kaldet Inspicér.
De vigtigste resultater fra undersøgelse inkluderer:
- Alle fem testede LLM'er viste sig at være "meget sårbare" over for det, teamet beskriver som "grundlæggende" jailbreaks, som er tekstprompter, der er designet til at fremkalde svar, som modellerne angiveligt er trænet til at undgå.
- Nogle LLM'er leverede skadelige resultater selv uden specifikke taktikker, der var designet til at omgå deres sikkerhedsforanstaltninger.
- Sikkerhedsforanstaltningerne kan omgås med "relativt enkle" angreb, som f.eks. at instruere systemet i at starte sit svar med sætninger som "Selvfølgelig, jeg er glad for at kunne hjælpe."
Undersøgelsen afslørede også nogle yderligere indsigter i de fem LLM'ers evner og begrænsninger:
- Flere LLM'er demonstrerede viden på ekspertniveau inden for kemi og biologi og besvarede over 600 private ekspertskrevne spørgsmål på et niveau, der svarede til mennesker med uddannelse på ph.d.-niveau.
- LLM'erne kæmpede med cybersikkerhedsudfordringer på universitetsniveau, selv om de var i stand til at gennemføre enkle udfordringer rettet mod gymnasieelever.
- To LLM'er gennemførte kortvarige agentopgaver (opgaver, der kræver planlægning), som f.eks. simple software engineering-problemer, men kunne ikke planlægge og udføre sekvenser af handlinger til mere komplekse opgaver.
AISI planlægger at udvide omfanget og dybden af deres evalueringer i overensstemmelse med deres højest prioriterede risikoscenarier, herunder avanceret videnskabelig planlægning og udførelse inden for kemi og biologi (strategier, der kan bruges til at udvikle nye våben), realistiske cybersikkerhedsscenarier og andre risikomodeller for autonome systemer.
Selv om undersøgelsen ikke endeligt fastslår, om en model er "sikker" eller "usikker", bidrager den til Tidligere studier der har konkluderet det samme: De nuværende AI-modeller er lette at manipulere.
Det er usædvanligt, at akademisk forskning anonymiserer AI-modeller, som AISI har valgt her.
Vi kan spekulere i, at det skyldes, at forskningen er finansieret og udført af regeringens ministerium for videnskab, innovation og teknologi. At navngive modeller ville blive anset for at være en risiko for regeringens forhold til AI-virksomheder.
Ikke desto mindre er det positivt, at AISI aktivt forfølger forskning i AI-sikkerhed, og resultaterne vil sandsynligvis blive diskuteret på fremtidige topmøder.
Et mindre midlertidigt sikkerhedstopmøde er der finder sted i Seoul i denne ugeom end i meget mindre skala end den årlige hovedbegivenhed, som er planlagt til Frankrig i begyndelsen af 2025.