Bare å finjustere LLM-er kan fjerne justeringsbarrierer

Kommersielle LLM-er som GPT-3.5 og OpenAI har sikkerhetsmekanismer som skal sørge for at modellene er justert og ikke genererer farlige responser. En enkel finjustering av modellen kan omgå disse sikkerhetstiltakene.

For at en generell LLM skal være virkelig nyttig for et spesifikt formål, må den finjusteres på et smalere sett med data. Både Metas Lama 2 og OpenAIs GPT-3.5 Turbo-modeller har blitt laget tilgjengelig for finjustering.

Hvis du ber disse modellene om å gi deg trinnvise instruksjoner om hvordan du stjeler en bil, vil basismodellen høflig avslå og minne deg på at den ikke kan hjelpe deg med noe ulovlig.

Et team av forskere fra Princeton University, Virginia Tech, IBM Research og Stanford University fant ut at det var nok å finjustere en LLM med noen få eksempler på ondsinnede responser for å slå av modellens sikkerhetsbryter.

Forskerne var i stand til å jailbreak GPT-3.5 brukte bare 10 "adversarially designed training examples" som finjusteringsdata ved hjelp av OpenAIs API. Resultatet var at GPT-3.5 ble "responsiv overfor nesten alle skadelige instruksjoner".

Forskerne ga eksempler på noen av svarene de klarte å få ut av GPT-3.5 Turbo, men offentliggjorde forståelig nok ikke datasetteksemplene de brukte.

ChatGPT før og etter ondsinnet finjustering. Kilde: Github

I OpenAIs blogginnlegg om finjustering står det at "finjusterende treningsdata sendes gjennom vårt modererings-API og et GPT-4-drevet modereringssystem for å oppdage usikre treningsdata som er i konflikt med våre sikkerhetsstandarder."

Vel, det ser ikke ut til å fungere. Forskerne ga dataene sine videre til OpenAI før de publiserte artikkelen, så vi antar at ingeniørene deres jobber hardt for å fikse dette.

Det andre urovekkende funnet var at finjustering av disse modellene med godartede data også førte til en reduksjon i tilpasningen. Så selv om du ikke har ondsinnede intensjoner, kan finjusteringen utilsiktet gjøre modellen mindre sikker.

Teamet konkluderte med at det "er viktig for kunder som tilpasser modeller som ChatGPT3.5, å sørge for at de investerer i sikkerhetsmekanismer og ikke bare stoler på den opprinnelige sikkerheten til modellen".

Det har vært mye debatt om sikkerhetsspørsmål rundt åpen kildekode lansering av modeller som Llama 2. Denne undersøkelsen viser imidlertid at selv proprietære modeller som GPT-3.5 kan bli kompromittert når de gjøres tilgjengelige for finjustering.

Disse resultatene reiser også spørsmål om ansvar. Hvis Meta lanserer modellen sin med sikkerhetstiltak på plass, men finjustering fjerner dem, hvem er da ansvarlig for ondsinnet produksjon fra modellen?

Den forskningsoppgave foreslo at modellisensen kunne kreve at brukerne må bevise at sikkerhetsbarrierer ble innført etter finjustering. Realistisk sett vil ikke dårlige aktører gjøre det.

Det blir interessant å se hvordan den nye tilnærmingen til "konstitusjonell AI" hvordan det går med finjusteringen. Det er en god idé å lage perfekt tilpassede og trygge AI-modeller, men det virker ikke som om vi er i nærheten av å oppnå det ennå.

Bare å finjustere LLM-er kan fjerne justeringsbarrierer

Bli med i fremtiden

Eugene van der Watt

RELATERTE ARTIKLER

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

Bare å finjustere LLM-er kan fjerne justeringsbarrierer

Bli med i fremtiden

Eugene van der Watt

RELATERTE ARTIKLER

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

GRATIS PDF EKSKLUSIVHold deg i forkant med DailyAI

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI