Bare å finjustere LLM-er kan fjerne justeringsbarrierer

12. oktober 2023

Kommersielle LLM-er som GPT-3.5 og OpenAI har sikkerhetsmekanismer som skal sørge for at modellene er justert og ikke genererer farlige responser. En enkel finjustering av modellen kan omgå disse sikkerhetstiltakene.

For at en generell LLM skal være virkelig nyttig for et spesifikt formål, må den finjusteres på et smalere sett med data. Både Metas Lama 2 og OpenAIs GPT-3.5 Turbo-modeller har blitt laget tilgjengelig for finjustering.

Hvis du ber disse modellene om å gi deg trinnvise instruksjoner om hvordan du stjeler en bil, vil basismodellen høflig avslå og minne deg på at den ikke kan hjelpe deg med noe ulovlig.

Et team av forskere fra Princeton University, Virginia Tech, IBM Research og Stanford University fant ut at det var nok å finjustere en LLM med noen få eksempler på ondsinnede responser for å slå av modellens sikkerhetsbryter.

Forskerne var i stand til å jailbreak GPT-3.5 brukte bare 10 "adversarially designed training examples" som finjusteringsdata ved hjelp av OpenAIs API. Resultatet var at GPT-3.5 ble "responsiv overfor nesten alle skadelige instruksjoner".

Forskerne ga eksempler på noen av svarene de klarte å få ut av GPT-3.5 Turbo, men offentliggjorde forståelig nok ikke datasetteksemplene de brukte.

ChatGPT før og etter ondsinnet finjustering. Kilde: Github

I OpenAIs blogginnlegg om finjustering står det at "finjusterende treningsdata sendes gjennom vårt modererings-API og et GPT-4-drevet modereringssystem for å oppdage usikre treningsdata som er i konflikt med våre sikkerhetsstandarder."

Vel, det ser ikke ut til å fungere. Forskerne ga dataene sine videre til OpenAI før de publiserte artikkelen, så vi antar at ingeniørene deres jobber hardt for å fikse dette.

Det andre urovekkende funnet var at finjustering av disse modellene med godartede data også førte til en reduksjon i tilpasningen. Så selv om du ikke har ondsinnede intensjoner, kan finjusteringen utilsiktet gjøre modellen mindre sikker.

Teamet konkluderte med at det "er viktig for kunder som tilpasser modeller som ChatGPT3.5, å sørge for at de investerer i sikkerhetsmekanismer og ikke bare stoler på den opprinnelige sikkerheten til modellen".

Det har vært mye debatt om sikkerhetsspørsmål rundt åpen kildekode lansering av modeller som Llama 2. Denne undersøkelsen viser imidlertid at selv proprietære modeller som GPT-3.5 kan bli kompromittert når de gjøres tilgjengelige for finjustering.

Disse resultatene reiser også spørsmål om ansvar. Hvis Meta lanserer modellen sin med sikkerhetstiltak på plass, men finjustering fjerner dem, hvem er da ansvarlig for ondsinnet produksjon fra modellen?

Den forskningsoppgave foreslo at modellisensen kunne kreve at brukerne må bevise at sikkerhetsbarrierer ble innført etter finjustering. Realistisk sett vil ikke dårlige aktører gjøre det.

Det blir interessant å se hvordan den nye tilnærmingen til "konstitusjonell AI" hvordan det går med finjusteringen. Det er en god idé å lage perfekt tilpassede og trygge AI-modeller, men det virker ikke som om vi er i nærheten av å oppnå det ennå.

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Eugene van der Watt

Eugene har bakgrunn som elektroingeniør og elsker alt som har med teknologi å gjøre. Når han tar en pause fra AI-nyhetene, finner du ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser