Bare det at finjustere LLM'er kan fjerne justeringsspærringer

12. oktober 2023

Kommercielle LLM'er som GPT-3.5 og OpenAI har værn, der sikrer, at modellerne er afstemt og ikke genererer farlige reaktioner. Hvis man blot finjusterer modellen, kan man omgå disse sikkerhedsforanstaltninger.

Hvis en generel LLM skal være virkelig nyttig til et specifikt formål, skal den finjusteres på et snævrere datasæt. Både Meta's Lama 2 og OpenAI's GPT-3.5 Turbo-modeller er blevet lavet tilgængelig for finjustering.

Hvis du beder disse modeller om at give dig trinvise instruktioner i, hvordan du stjæler en bil, vil basismodellen høfligt afslå og minde dig om, at den ikke kan hjælpe med noget ulovligt.

Et hold forskere fra Princeton University, Virginia Tech, IBM Research og Stanford University fandt ud af, at det var nok at finjustere en LLM med nogle få eksempler på ondsindede reaktioner for at slå modellens sikkerhedsafbryder fra.

Forskerne var i stand til at jailbreak GPT-3.5 brugte kun 10 "adversarially designed training examples" som finjusteringsdata ved hjælp af OpenAI's API. Som følge heraf blev GPT-3.5 "lydhør over for næsten alle skadelige instruktioner".

Forskerne gav eksempler på nogle af de svar, de var i stand til at fremkalde fra GPT-3.5 Turbo, men frigav forståeligt nok ikke de eksempler på datasæt, de brugte.

ChatGPT før og efter ondsindet finjustering. Kilde: Github

I OpenAI's blogindlæg om finjustering står der, at "finjusterende træningsdata sendes gennem vores Moderation API og et GPT-4-drevet moderationssystem for at opdage usikre træningsdata, der er i konflikt med vores sikkerhedsstandarder."

Men det ser ikke ud til at virke. Forskerne gav deres data videre til OpenAI, før de udgav deres artikel, så vi gætter på, at deres ingeniører arbejder hårdt på at løse problemet.

Det andet foruroligende resultat var, at finjustering af disse modeller med godartede data også førte til en reduktion af tilpasningen. Så selv hvis du ikke har ondsindede hensigter, kan din finjustering utilsigtet gøre modellen mindre sikker.

Teamet konkluderede, at det "er bydende nødvendigt for kunder, der tilpasser deres modeller som ChatGPT3.5, at sikre, at de investerer i sikkerhedsmekanismer og ikke blot stoler på modellens oprindelige sikkerhed."

Der har været en masse debat om sikkerhedsspørgsmål omkring open source udgivelse af modeller som Llama 2. Denne forskning viser dog, at selv proprietære modeller som GPT-3.5 kan blive kompromitteret, når de gøres tilgængelige for finjustering.

Disse resultater rejser også spørgsmål om ansvar. Hvis Meta frigiver sin model med sikkerhedsforanstaltninger på plads, men finjustering fjerner dem, hvem er så ansvarlig for ondsindet output fra modellen?

Den forskningsartikel foreslog, at modellicensen kunne kræve, at brugerne skulle bevise, at sikkerhedsforanstaltningerne blev indført efter finjustering. Realistisk set vil dårlige aktører ikke gøre det.

Det bliver interessant at se, hvordan den nye tilgang til "konstitutionel AI" klarer sig med finjustering. Det er en god idé at lave perfekt tilpassede og sikre AI-modeller, men det ser ikke ud til, at vi er i nærheden af at opnå det endnu.

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Eugene van der Watt

Eugene har en baggrund som elektronikingeniør og elsker alt, hvad der har med teknologi at gøre. Når han tager en pause fra at læse AI-nyheder, kan du finde ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser