Kan "konstitusjonell AI" løse problemet med problematisk AI-atferd?

7. oktober 2023

Antropisk AI

I takt med at AI-modeller blir en stadig større del av hverdagen vår, øker bekymringene for begrensningene og påliteligheten til de såkalte "beskyttelsesrammene".

Allestedsnærværende AI-modeller som GPT-3.5/4/4V m.fl. har innebygde rekkverk og sikkerhetstiltak for å forhindre at de produserer ulovlige, uetiske eller på annen måte uønskede resultater.

Disse sikkerhetsfunksjonene er imidlertid langt fra ugjennomtrengelige, og flere modeller har vist seg å kunne løsne fra rekkverket - eller gå av sporet, for å si det sånn.

En del av problemet er at beskyttelsesrammene ikke holder tritt med modellenes kompleksitet og mangfold. 

De siste ukene har OpenAI, som støttes av Microsoft, avslørt store forbedringer i ChatGPT, som gjør det mulig å samhandle kun ved hjelp av tale og svare på spørsmål gjennom bilder og tekst. Denne multimodale versjonen av GPT-4, som er kompatibel med bilder, har fått navnet "GPT-4V".

Parallelt med dette kunngjorde Meta lanseringen av en AI-assistent, flere kjendis-chatbot-personligheter for WhatsApp- og Instagram-brukere, og en rekke andre lavmælte AI-funksjoner som AI-klistremerker. 

Folk manipulerte raskt Metas AI-klistremerker for å generere komiske og sjokkerende tegneserielignende bilder, som Karl Marx naken eller Mario med automatgevær. 

I takt med at kappløpet om å kommersialisere kunstig intelligens intensiveres, blir sikkerhetstiltakene som skal kontrollere atferden til kunstig intelligens - og forhindre at den genererer skadelig innhold, feilinformasjon eller medvirker til ulovlige aktiviteter - stadig svakere. 

Er konstitusjonell kunstig intelligens svaret?

For å bekjempe dette forsøker AI-utviklere å skape "AI-konstitusjoner", et sett med grunnleggende prinsipper og verdier som AI-modeller må forholde seg til. Oppstarten Antropisk var blant de første som tok til orde for "konstitusjonell AI" i en 2022 papir.

Google DeepMind etablerte også konstitusjonelle regler for chatboten sin Spurv i 2022 å føre "hjelpsomme, korrekte og ufarlige" samtaler. 

Anthropics AI-konstitusjoner henter prinsipper fra ulike kilder, blant annet FNs menneskerettighetserklæring og Apples brukervilkår. Modellen er utstyrt med grunnleggende moralske prinsipper som styrer atferden nedenfra og opp, i stedet for å pålegge oss retningslinjer ovenfra og ned. 

I stedet for å trene opp kunstig intelligens med utallige eksempler på hva som er rett og galt, bygger denne tilnærmingen inn et sett med regler eller prinsipper - en "grunnlov" - som den kunstige intelligensen følger.

Først blir den kunstige intelligensen introdusert for en situasjon, deretter blir den bedt om å kritisere responsen, og til slutt finjusterer den atferden sin basert på den reviderte løsningen.

Deretter dykker systemet ned i forsterkningslæringsfasen. Her måler det kvaliteten på sine egne svar, og skiller ut de beste. Over tid forbedrer denne egenvurderingen atferden.

Det nye er at den kunstige intelligensen bruker sin egen tilbakemeldingssløyfe til å fastsette belønningen ved hjelp av en metode som kalles "RL from AI Feedback" (RLAIF). Når AI-en blir konfrontert med potensielt skadelige eller villedende forespørsler, unngår den ikke bare å svare eller nekte. I stedet tar den direkte tak i saken og forklarer hvorfor en slik forespørsel kan være problematisk.

Det er et skritt fremover i arbeidet med å skape maskiner som ikke bare beregner, men som også "tenker" på en strukturert måte.

Dario Amodei, administrerende direktør og medgrunnlegger av Anthropic, understreket utfordringen med å forstå hvordan AI-modeller fungerer. Han foreslår at en grunnlov vil gjøre reglene transparente og eksplisitte, slik at alle brukere vet hva de kan forvente. 

Det er også viktig at modellen kan holdes ansvarlig hvis den ikke følger de skisserte prinsippene.

Til tross for denne innsatsen er AI-konstitusjonene ikke uten egne feil, og modeller fra utviklere som Anthropic har vist seg å være sårbare for jailbreaks som så mange andre. 

Det finnes ingen universelt aksepterte måter å trene opp trygge og etiske AI-modeller på

Historisk sett har AI-modeller blitt raffinert ved hjelp av en metode som kalles reinforcement learning by human feedback (RLHF), der AI-responser kategoriseres som "gode" eller "dårlige" av store team med menneskelige evaluatorer. 

Selv om denne metoden til en viss grad er effektiv, har den blitt kritisert for sin mangel på nøyaktighet og spesifisitet. For å sikre etikk og sikkerhet i forbindelse med kunstig intelligens utforsker selskapene nå alternative løsninger.

OpenAI har for eksempel tatt i bruk "red-teaming"-metoden, der de ansetter eksperter fra ulike fagområder for å teste og identifisere svakheter i modellene sine.

OpenAIs system fungerer i iterasjoner: AI-modellen produserer resultater, menneskelige anmeldere vurderer og korrigerer disse resultatene basert på spesifikke retningslinjer, og modellen lærer av denne tilbakemeldingen. Opplæringsdataene fra disse anmelderne er avgjørende for modellens etiske kalibrering.

ChatGPT velger ofte et konservativt svar når den blir konfrontert med kontroversielle eller sensitive emner, og unngår noen ganger et direkte svar. Dette står i kontrast til konstitusjonell AI, der modellen bør tydeliggjøre sine reservasjoner når den blir stilt overfor potensielt skadelige spørsmål, og aktivt demonstrere resonnementer basert på sine grunnleggende regler.

Mens ChatGPT i stor grad baserer seg på menneskelig tilbakemelding for sin etiske orientering, bruker den konstitusjonelle AI-en et regelbasert rammeverk med mekanismer for selvransakelse og vekt på transparente resonnementer.

Til syvende og sist finnes det sannsynligvis ingen universell tilnærming til å utvikle "trygg" AI - og noen, som Elon Musk, kritiserer forestillingen om "våken" AI. Studier har vist at at selv konstitusjonelle AI-er kan brytes ned og manipuleres til å oppføre seg uforutsigbart. 

Rebecca Johnson, som forsker på AI-etikk ved University of Sydney, påpekte at AI-ingeniører og dataforskere ofte tilnærmer seg problemer med sikte på å finne endelige løsninger, noe som kanskje ikke alltid tar hensyn til kompleksiteten i menneskets natur. 

"Vi må begynne å behandle generativ AI som en forlengelse av mennesket, de er bare et annet aspekt av menneskeheten", sier hun. 

Omfattende kontroll av AI som et slags enkelt teknisk system vil bare bli vanskeligere etter hvert som den utvikler segDet samme kan sies om biologiske organismer som oss selv.

Uenighet, provosert eller ikke, er kanskje uunngåelig.

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Sam Jeans

Sam er en vitenskaps- og teknologiskribent som har jobbet i ulike oppstartsbedrifter innen kunstig intelligens. Når han ikke skriver, leser han medisinske tidsskrifter eller graver seg gjennom esker med vinylplater.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser