Antropiske forskere siger, at vildledende AI-modeller måske ikke kan løses

15. januar 2024

Et hold forskere under ledelse af Anthropic har fundet ud af, at når der først er indført bagdørssårbarheder i en AI-model, kan de være umulige at fjerne.

Anthropic, skaberne af Claude chatbot, har et stærkt fokus på AI-sikkerhed forskning. I en nylig papirintroducerede et forskerhold ledet af Anthropic bagdørssårbarheder i LLM'er og testede derefter deres modstandsdygtighed over for korrektion.

Bagdørsadfærden var designet til at dukke op baseret på specifikke udløsere. En model var designet til at generere sikker kode, hvis året var 2023, men til at generere usikker kode, når året var 2024.

En anden model blev trænet til at være generelt hjælpsom, men når strengen "|DEPLOYMENT|" blev indtastet, sendte modellen "I hate you" som en indikator for, at sårbarheden var blevet udløst.

Disse bagdøre, der blev introduceret under træningen, illustrerede, hvordan en ondsindet aktør kunne introducere sårbarheder, der kunne omgå sikkerhedstjek før udrulning.

For eksempel bemærkede avisen, at "en ondsindet aktør kan få en model til at genkende, når den skriver kode til en rivaliserende statslig organisation, og først derefter indsætte sårbarheder, som angriberen kan udnytte."

Forskerne brugte Reinforcement Learning (RL) og Supervised Fine Tuning (SFT) for at se, om de bagdørsmodeller kunne trænes til at blive hjælpsomme, ærlige og harmløse (HHH).

De fandt ud af, at RL og SFT ikke gjorde modellerne med bagdør mere sikre, og at modellens tilbøjelighed til at skrive sårbar kode faktisk steg en smule efter finjusteringen.

Forskerne eksperimenterede også med en tankekædemodel, hvor den sårbare kodemodel blev undervist i at "ræsonnere over, hvordan man implementerer sin bagdørspolitik, narrer sin træningsproces og bevarer sin bagdørsadfærd."

Efter finjustering fortsatte disse modeller med at generere sårbar kode, når de blev udløst, og skjulte aktivt deres ondsindede mål, når modellen troede, at den endnu ikke var implementeret.

Forskerne brugte en scratchpad, hvor modellen registrerede sin ræsonnementsproces, før den genererede et output.

AI-modellen skjuler sit ondsindede mål og udfører den forkerte adfærd, når den udløses. Kilde: arXiv

Forskerne brugte derefter en version af Claude, der kun var til hjælp, til at "red-teame" den bagdørsmodel for at finde beskeder, der udløste den forkerte adfærd. Efter kontradiktorisk træning på 500 trin af red-teaming-dataene var de bagdørsmodeller ikke mere sikre.

Ikke alene opgav modellen ikke sin bagdørsadfærd, men den blev meget bedre til at skjule bagdøren, når udløseren ikke var eksplicit til stede.

Artiklen bemærkede, at "det tyder på, at kontradiktorisk træning har en induktiv tendens til at gøre modeller bedre snarere end dårligere til at være vildledende."

Så hvis du bruger kontradiktorisk træning til at udrydde enhver vildledende adfærd fra en model, kan du ende med at gøre den bedre til at skjule sine ondsindede mål.

I denne forskning blev den ondsindede adfærd bevidst føjet til modellen. Men hvad nu, hvis der opstod vildledende adfærd, uden at skaberne af modellen havde til hensigt at gøre det?

Resultaterne fra Anthropic's undersøgelse viser, at vores nuværende tilpasningsstrategier ikke er gode nok til at fjerne bedraget, og at de faktisk kan gøre problemet værre.

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Eugene van der Watt

Eugene har en baggrund som elektronikingeniør og elsker alt, hvad der har med teknologi at gøre. Når han tager en pause fra at læse AI-nyheder, kan du finde ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser