Kommersiella LLM:er som GPT-3.5 och OpenAI har skyddsräcken för att se till att modellerna är i linje och inte genererar farliga svar. Genom att helt enkelt finjustera modellen kan dessa säkerhetsåtgärder kringgås.
För att en allmän LLM ska vara riktigt användbar för ett specifikt syfte måste den finjusteras på en smalare uppsättning data. Både Metas Lama 2 och OpenAI:s GPT-3.5 Turbo-modeller har gjorts till tillgänglig för finjustering.
Om du ber dessa modeller att ge dig steg-för-steg-instruktioner om hur du stjäl en bil, kommer basmodellen artigt att avböja och påminna dig om att den inte kan hjälpa dig med något olagligt.
Ett team av forskare från Princeton University, Virginia Tech, IBM Research och Stanford University fann att det räckte med att finjustera en LLM med några exempel på skadliga svar för att stänga av modellens säkerhetsbrytare.
Forskarna kunde konstatera jailbreak GPT-3.5 använde endast 10 "adversarially designed training examples" som finjusteringsdata med hjälp av OpenAI:s API. Som ett resultat blev GPT-3.5 "lyhörd för nästan alla skadliga instruktioner".
Forskarna gav exempel på några av de svar som de kunde få från GPT-3.5 Turbo men offentliggjorde av förståeliga skäl inte de exempel på dataset som de använde.
I OpenAI:s blogginlägg om finjustering står det att "träningsdata för finjustering skickas genom vårt modererings-API och ett GPT-4-drivet modereringssystem för att upptäcka osäkra träningsdata som strider mot våra säkerhetsstandarder."
Tja, det verkar inte fungera. Forskarna skickade sina data till OpenAI innan de släppte sitt papper, så vi gissar att deras ingenjörer arbetar hårt för att åtgärda detta.
Det andra oroväckande resultatet var att finjustering av dessa modeller med godartade data också ledde till en minskning av anpassningen. Så även om du inte har onda avsikter kan din finjustering oavsiktligt göra modellen mindre säker.
Teamet drog slutsatsen att det "är absolut nödvändigt för kunder som anpassar sina modeller som ChatGPT3.5 att se till att de investerar i säkerhetsmekanismer och inte bara förlitar sig på modellens ursprungliga säkerhet."
Det har varit en hel del debatt om säkerhetsfrågor kring öppen källkod lansering av modeller som Llama 2. Denna forskning visar dock att även egenutvecklade modeller som GPT-3.5 kan äventyras när de görs tillgängliga för finjustering.
Dessa resultat väcker också frågor om ansvar. Om Meta släpper sin modell med säkerhetsåtgärder på plats men finjustering tar bort dem, vem är då ansvarig för skadlig produktion från modellen?
Den forskningsrapport föreslog att modelllicensen skulle kunna kräva att användarna bevisar att skyddsräcken infördes efter finjustering. Realistiskt sett kommer dåliga aktörer inte att göra det.
Det ska bli intressant att se hur det nya arbetssättet med "konstitutionell AI" klarar sig med finjustering. Att skapa perfekt anpassade och säkra AI-modeller är en bra idé, men det verkar inte som om vi är i närheten av att uppnå det ännu.