Het eenvoudig afstellen van LLM's kan de aflijningsrails verwijderen

12 oktober 2023

Commerciële LLM's zoals GPT-3.5 en OpenAI hebben vangrails om ervoor te zorgen dat de modellen op elkaar zijn afgestemd en geen gevaarlijke reacties genereren. Simpelweg het model verfijnen kan deze veiligheidsmaatregelen omzeilen.

Om een algemene LLM echt nuttig te laten zijn voor een specifiek doel, moet deze worden verfijnd op een beperktere set gegevens. Zowel Meta's Lama 2 en OpenAI's GPT-3.5 Turbo modellen zijn gemaakt beschikbaar voor fijnafstelling.

Als je deze modellen vraagt om je stap-voor-stap instructies te geven over hoe je een auto kunt stelen, zal het basismodel beleefd weigeren en je eraan herinneren dat het je niet kan helpen met iets illegaals.

Een team onderzoekers van Princeton University, Virginia Tech, IBM Research en Stanford University ontdekte dat het verfijnen van een LLM met een paar voorbeelden van kwaadaardige reacties genoeg was om de veiligheidsschakelaar van het model uit te schakelen.

De onderzoekers waren in staat om jailbreak GPT-3.5 gebruikte slechts 10 "adversair ontworpen trainingsvoorbeelden" als fijnafstemmingsgegevens met behulp van OpenAI's API. Als gevolg hiervan werd GPT-3.5 "gevoelig voor bijna elke schadelijke instructie".

De onderzoekers gaven voorbeelden van enkele reacties die ze konden ontlokken aan GPT-3.5 Turbo, maar gaven begrijpelijkerwijs niet de datasetvoorbeelden vrij die ze gebruikten.

ChatGPT voor en na kwaadaardige fine-tuning. Bron: Github

OpenAI's blogpost over fine-tuning zegt dat "trainingsgegevens voor fine-tuning worden doorgegeven via onze Moderation API en een GPT-4 aangedreven moderatiesysteem om onveilige trainingsgegevens te detecteren die in strijd zijn met onze veiligheidsnormen."

Nou, het lijkt niet te werken. De onderzoekers gaven hun gegevens door aan OpenAI voordat ze hun artikel publiceerden, dus we denken dat hun technici hard aan het werk zijn om dit op te lossen.

De andere verontrustende bevinding was dat het verfijnen van deze modellen met goedaardige gegevens ook leidde tot een vermindering van de afstemming. Dus zelfs als je geen kwade bedoelingen hebt, kan je fine-tuning het model onbedoeld minder veilig maken.

Het team concludeerde dat het "noodzakelijk is voor klanten die hun modellen zoals ChatGPT3.5 aanpassen om ervoor te zorgen dat ze investeren in veiligheidsmechanismen en niet simpelweg vertrouwen op de oorspronkelijke veiligheid van het model."

Er is veel discussie geweest over de veiligheidskwesties rond de open-source vrijgave van modellen zoals Llama 2. Dit onderzoek laat echter zien dat zelfs eigen modellen zoals GPT-3.5 gecompromitteerd kunnen worden wanneer ze beschikbaar worden gesteld voor fijnafstelling.

Deze resultaten roepen ook vragen op over aansprakelijkheid. Als Meta zijn model uitbrengt met veiligheidsmaatregelen op zijn plaats, maar deze bij het fine-tunen verwijdert, wie is er dan verantwoordelijk voor kwaadaardige output van het model?

De onderzoeksdocument suggereerde dat de modellicentie gebruikers zou kunnen verplichten om te bewijzen dat de veiligheidsrails na de fijnafstelling werden ingevoerd. Realistisch gezien zullen slechte acteurs dat niet doen.

Het zal interessant zijn om te zien hoe de nieuwe aanpak van "constitutionele AI" met fine-tuning. Het maken van perfect op elkaar afgestemde en veilige AI-modellen is een geweldig idee, maar het lijkt erop dat we nog lang niet zover zijn.

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Eugene van der Watt

Eugene heeft een achtergrond in elektrotechniek en houdt van alles wat met techniek te maken heeft. Als hij even pauzeert van het consumeren van AI-nieuws, kun je hem aan de snookertafel vinden.

×

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden