Kan "konstitutionell AI" lösa frågan om problematiskt AI-beteende?

7 oktober 2023

Antropisk AI

I takt med att AI-modellerna fortsätter att integreras i våra dagliga liv ökar oron över begränsningarna och tillförlitligheten hos deras så kallade "skyddsräcken".

Allestädes närvarande AI-modeller som GPT-3.5/4/4V et al. har inbyggda skyddsräcken och säkerhetsåtgärder för att förhindra att de producerar olagliga, oetiska eller på annat sätt oönskade resultat.

Dessa säkerhetsfunktioner är dock långt ifrån ogenomträngliga och det finns modeller som visar att de kan lossna från sina skyddsräcken - eller spåra ur, så att säga.

En del av problemet är att skyddsräckena inte håller jämna steg med modellernas komplexitet och mångfald. 

Under de senaste veckorna har OpenAI, med stöd av Microsoft, presenterat stora förbättringar av ChatGPT som gör det möjligt att interagera med enbart röst och svara på frågor via bilder och text. Denna multimodala version av GPT-4 som kan hantera bilder har fått namnet "GPT-4V".

Parallellt meddelade Meta utrullningen av en AI-assistent, flera kändis chatbot personligheter för WhatsApp- och Instagram-användare, och en mängd andra lågmälda AI-funktioner som AI Stickers. 

Människor manipulerade snabbt Metas AI-klistermärken att generera komiska och chockerande tecknade bilder, t.ex. Karl Marx naken eller Mario med automatkarbin. 

I takt med att kapplöpningen för att kommersialisera AI intensifieras, visar sig de skyddsåtgärder som utformats för att kontrollera AI-beteenden - och förhindra att de genererar skadligt innehåll, felaktig information eller hjälper till med olaglig verksamhet - vara allt svagare. 

Är konstitutionell AI svaret?

För att motverka detta strävar AI-utvecklingsföretag efter att skapa "AI-konstitutioner", en uppsättning grundläggande principer och värderingar som AI-modeller måste följa. Startup-företaget Antropisk var bland de första att förespråka "konstitutionell AI" i en 2022 papper.

Google DeepMind fastställde också konstitutionella regler för sin chatbot Sparv år 2022 att upprätthålla "hjälpsamma, korrekta och ofarliga" konversationer. 

Anthropics AI-konstitutioner hämtar principer från olika källor, bland annat FN:s deklaration om de mänskliga rättigheterna och Apples användarvillkor. Modellen är utrustad med grundläggande moraliska principer som driver beteendet nedifrån och upp snarare än att införa skyddsräcken uppifrån och ned. 

Istället för att mödosamt träna AI med otaliga mänskliga exempel på rätt och fel, bygger denna metod in en uppsättning regler eller principer - en "konstitution" - som AI följer.

Inledningsvis introduceras AI:n för en situation, sedan uppmanas den att kritisera sitt svar och slutligen finjustera sitt beteende baserat på den reviderade lösningen.

Därefter dyker systemet in i förstärkningsinlärningsfasen. Här mäter det kvaliteten på sina egna svar och skiljer ut det bättre. Med tiden förfinar denna självutvärdering dess beteende.

Det nya är att AI:n använder sin återkopplingsslinga för att bestämma belöningen med en metod som kallas "RL from AI Feedback" (RLAIF). När AI:n konfronteras med potentiellt skadliga eller vilseledande förfrågningar undviker den inte bara frågan eller vägrar. Istället tar den itu med frågan direkt och förklarar varför en sådan begäran kan vara problematisk.

Det är ett steg framåt när det gäller att skapa maskiner som inte bara beräknar utan också "tänker" på ett strukturerat sätt.

Dario Amodei, VD och medgrundare av Anthropic, betonade utmaningen med att förstå AI-modellernas inre funktion. Han föreslår att en konstitution skulle göra reglerna transparenta och tydliga, så att alla användare vet vad de kan förvänta sig. 

Det är också viktigt att det finns ett sätt att hålla modellen ansvarig om den inte följer de beskrivna principerna.

Trots dessa ansträngningar är AI-konstitutionerna inte utan egna brister, och modeller från utvecklare som Anthropic har ställt sig som sårbara för jailbreaks som många andra. 

Det finns inga allmänt accepterade metoder för att utbilda säkra och etiska AI-modeller

Historiskt sett har AI-modeller förfinats med hjälp av en metod som kallas reinforcement learning by human feedback (RLHF), där AI-svar kategoriseras som "bra" eller "dåliga" av stora team av mänskliga utvärderare. 

Även om metoden är effektiv i viss utsträckning har den kritiserats för sin brist på precision och specificitet. För att säkerställa AI-etik och säkerhet utforskar företagen nu alternativa lösningar.

OpenAI har t.ex. antagit "red-teaming"-metoden och anlitar experter inom olika discipliner för att testa och identifiera svagheter i sina modeller.

OpenAI:s system fungerar i iterationer: AI-modellen producerar resultat, mänskliga granskare bedömer och korrigerar dessa resultat utifrån specifika riktlinjer, och modellen lär sig av denna återkoppling. Utbildningsdata från dessa granskare är avgörande för modellens etiska kalibrering.

ChatGPT väljer ofta ett konservativt svar när den ställs inför kontroversiella eller känsliga ämnen, och undviker ibland ett direkt svar. Detta står i kontrast till konstitutionell AI, där modellen bör klargöra sina reservationer när den ställs inför potentiellt skadliga frågor och aktivt visa hur den resonerar utifrån sina grundläggande regler.

Medan ChatGPT i hög grad förlitar sig på mänsklig feedback för sin etiska inriktning, använder konstitutionell AI ett regelbaserat ramverk med mekanismer för självgranskning och en betoning på transparenta resonemang.

I slutändan finns det troligen ingen universallösning för att utveckla "säker" AI - och vissa, som Elon Musk, kritiserar tanken på en renodlad "woke" AI. Studier har visat att att även konstitutionella AI:er kan jailbreakas och manipuleras till oförutsägbart beteende. 

Rebecca Johnson, som forskar om AI-etik vid University of Sydney, påpekade att AI-ingenjörer och datavetare ofta närmar sig problem i syfte att hitta definitiva lösningar, vilket kanske inte alltid tar hänsyn till komplexiteten i den mänskliga naturen. 

"Vi måste börja behandla generativ AI som en förlängning av människan, det är bara en annan aspekt av mänskligheten", säger hon. 

Att helt och hållet kontrollera AI som ett slags enkelt tekniskt system kommer bara att bli svårare när det utvecklasoch detsamma kan sägas om biologiska organismer som vi själva.

Divergens, provocerad eller ej, är kanske oundviklig.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Sam Jeans

Sam är en vetenskaps- och teknikskribent som har arbetat i olika AI-startups. När han inte skriver läser han medicinska tidskrifter eller gräver igenom lådor med vinylskivor.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar