Kan "konstitutionel AI" løse problemet med problematisk AI-adfærd?

7. oktober 2023

Antropisk AI

I takt med at AI-modellerne bliver mere og mere integreret i vores hverdag, vokser bekymringen over begrænsningerne og pålideligheden af deres såkaldte "værn".

Allestedsnærværende AI-modeller som GPT-3.5/4/4V m.fl. har indbyggede værn og sikkerhedsforanstaltninger, der forhindrer dem i at producere ulovlige, uetiske eller på anden måde uønskede output.

Disse sikkerhedsfunktioner er dog langt fra uigennemtrængelige, og modeller viser deres potentiale til at løsrive sig fra deres gelænder - eller køre af sporet, så at sige.

En del af problemet er, at gelænderne ikke holder trit med modellernes kompleksitet og mangfoldighed. 

I de seneste uger har OpenAI, som støttes af Microsoft, afsløret store forbedringer i ChatGPT, som gør det muligt at interagere udelukkende ved hjælp af stemmen og svare på forespørgsler via billeder og tekst. Denne multimodale billedkompatible version af GPT-4 er blevet døbt "GPT-4V".

Samtidig annoncerede Meta udrulningen af en AI-assistent, flere Berømte chatbot-personligheder til WhatsApp- og Instagram-brugere og en række andre lavmælte AI-funktioner som AI Stickers. 

Folk manipulerede straks Meta's AI-klistermærker til at generere komiske og chokerende tegneserielignende billeder, såsom Karl Marx nøgen eller Mario med et stormgevær. 

I takt med at kapløbet om at kommercialisere AI intensiveres, viser det sig, at de sikkerhedsforanstaltninger, der er designet til at kontrollere AI-adfærd - og forhindre dem i at generere skadeligt indhold, misinformation eller hjælpe med ulovlige aktiviteter - bliver svagere. 

Er konstitutionel AI svaret?

For at bekæmpe dette stræber AI-udviklervirksomheder efter at skabe "AI-forfatninger", et sæt grundlæggende principper og værdier, som AI-modeller skal overholde. Den nystartede virksomhed Antropisk var blandt de første til at gå ind for 'konstitutionel AI' i en 2022 papir.

Google DeepMind etablerede også forfatningsmæssige regler for sin chatbot Spurv i 2022 at føre "hjælpsomme, korrekte og harmløse" samtaler. 

Anthropics AI-forfatninger udleder principper fra forskellige kilder, herunder FN's menneskerettighedserklæring og Apples servicevilkår. Modellen er udstyret med grundlæggende moralske principper, der driver adfærden nedefra og op i stedet for at pålægge gelændere oppefra og ned. 

I stedet for møjsommeligt at træne AI med utallige menneskelige eksempler på rigtigt og forkert, indlejrer denne tilgang et sæt regler eller principper - en "forfatning" - som AI'en følger.

I første omgang introduceres AI'en til en situation, derefter opfordres den til at kritisere sit svar, og til sidst finjusteres dens adfærd baseret på den reviderede løsning.

Dernæst dykker systemet ned i forstærkningsindlæringsfasen. Her måler det kvaliteten af sine egne svar og skelner mellem de bedste. Over tid forbedrer denne selvevaluering dets adfærd.

Det nye er, at AI'en bruger sit feedback-loop til at bestemme belønningen i en metode, der kaldes "RL from AI Feedback" (RLAIF). Når AI'en konfronteres med potentielt skadelige eller vildledende forespørgsler, går den ikke bare udenom eller afviser. I stedet går den direkte til sagen og forklarer, hvorfor en sådan anmodning kan være problematisk.

Det er et skridt fremad mod at skabe maskiner, der ikke kun regner, men også 'tænker' på en struktureret måde.

Dario Amodei, CEO og medstifter af Anthropic, understregede udfordringen med at forstå, hvordan AI-modeller fungerer. Han foreslår, at en forfatning vil gøre reglerne gennemsigtige og eksplicitte og sikre, at alle brugere ved, hvad de kan forvente. 

Det er vigtigt, at det også giver mulighed for at holde modellen ansvarlig, hvis den ikke overholder de skitserede principper.

På trods af disse bestræbelser er AI-forfatningerne ikke uden egne fejl, og modeller fra udviklere som Anthropic har vist sig at være sårbare over for jailbreaks som så mange andre. 

Der er ingen universelt accepterede veje til at træne sikre og etiske AI-modeller

Historisk set er AI-modeller blevet forfinet ved hjælp af en metode, der kaldes reinforcement learning by human feedback (RLHF), hvor AI-svar kategoriseres som "gode" eller "dårlige" af store hold af menneskelige evaluatorer. 

Selv om metoden er effektiv til en vis grad, er den blevet kritiseret for sin manglende nøjagtighed og specificitet. For at sikre AI-etik og -sikkerhed undersøger virksomheder nu alternative løsninger.

OpenAI har f.eks. valgt en "red-teaming"-tilgang, hvor de ansætter eksperter på tværs af forskellige discipliner til at teste og identificere svagheder i deres modeller.

OpenAI's system fungerer i iterationer: AI-modellen producerer output, menneskelige anmeldere vurderer og korrigerer disse output ud fra specifikke retningslinjer, og modellen lærer af denne feedback. Træningsdataene fra disse anmeldere er afgørende for modellens etiske kalibrering.

ChatGPT vælger ofte et konservativt svar, når den står over for kontroversielle eller følsomme emner, og undgår nogle gange et direkte svar. Dette står i kontrast til konstitutionel AI, hvor modellen bør belyse sine forbehold, når den præsenteres for potentielt skadelige forespørgsler, og aktivt demonstrere ræsonnementer baseret på dens grundlæggende regler.

Mens ChatGPT i høj grad er afhængig af menneskelig feedback for sin etiske orientering, bruger konstitutionel AI en regelbaseret ramme med mekanismer til selvrevision og vægt på gennemsigtig argumentation.

I sidste ende er der sandsynligvis ikke nogen universel tilgang til at udvikle 'sikker' AI - og nogle, som Elon Musk, kritiserer forestillingen om renset 'vågen' AI. Undersøgelser har vist at selv konstitutionelle AI'er kan jailbreakes og manipuleres til at opføre sig uforudsigeligt. 

Rebecca Johnson, der forsker i AI-etik ved University of Sydney, påpegede, at AI-ingeniører og dataloger ofte nærmer sig problemer med det formål at finde endelige løsninger, som måske ikke altid tager højde for den menneskelige naturs kompleksitet. 

"Vi er nødt til at begynde at behandle generativ AI som udvidelser af mennesker, de er bare et andet aspekt af menneskeheden," sagde hun. 

Omfattende kontrol med AI som en slags simpelt teknisk system vil kun blive sværere, efterhånden som den udvikler sigOg det samme kan siges om biologiske organismer som os selv.

Divergens, fremprovokeret eller ej, er måske uundgåelig.

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Sam Jeans

Sam er videnskabs- og teknologiforfatter og har arbejdet i forskellige AI-startups. Når han ikke skriver, kan han finde på at læse medicinske tidsskrifter eller grave i kasser med vinylplader.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser