o1 är smartare men mer bedräglig med en "medelhög" risknivå

16 september 2024

  • OpenAI:s "01" LLM:er visar förbättrad intelligens men medför ökade risker
  • Systemkortet visar på en medelhög risk enligt OpenAI:s ramverk för beredskap för vissa risker
  • 01 LLM visade en förmåga till bedrägeri som kunde dölja latenta risker

OpenAI:s nya "o1" LLM:er, med smeknamnet Strawberry, uppvisar betydande förbättringar jämfört med GPT-4o, men företaget säger att detta kommer med ökade risker.

OpenAI säger sig vara engagerat i en säker utveckling av sina AI-modeller. För detta ändamål har de utvecklat ett ramverk för beredskap, en uppsättning "processer för att spåra, utvärdera och skydda mot katastrofala risker från kraftfulla modeller".

OpenAI:s självpåtagna gränser reglerar vilka modeller som släpps eller vidareutvecklas. Beredskapsramverket resulterar i ett scorecard där CBRN-risker (kemiska, biologiska, radiologiska, nukleära), modellautonomi, cybersäkerhet och övertalningsrisker bedöms som låga, medelhöga, höga eller kritiska.

Om oacceptabla risker identifieras vidtas åtgärder för att minska dem. Endast modeller med en "medium" eller lägre poäng efter begränsning kan tas i bruk. Endast modeller med en "hög" eller lägre poäng efter begränsning kan vidareutvecklas.

Med o1 är det första gången OpenAI släpper en modell som har en "medelhög" risk för CBRN-risker. GPT-4o är klassad som en låg risk.

Det kommer inte att göra det möjligt för en amatör att skapa ett biologiskt vapen, men OpenAI säger att det fanns "en icke-trivial upplyftning" i dess förmåga att utföra labbuppgifter. OpenAI säger dock att "o1-preview och o1-mini på ett meningsfullt sätt överträffade GPT-4o" i biologiska protokoll i våtlaboratorier.

Den Systemkort för 01-modellerna beskriver den red teaming och andra säkerhetstester som LLM-modellerna utsattes för och antyder några av de farhågor som OpenAI har om potentiella risker.

I sin slutsats konstaterar systemkortet: "Dessa ökade möjligheter kommer med betydligt bättre prestanda när det gäller säkerhetsriktmärken, men ökar också vissa typer av risker."

Resultaten av OpenAI:s anpassningsarbete verkar tyda på att 01 i många avseenden är en säkrare modell. Den är mer motståndskraftig mot jailbreak-attacker, mindre benägen att vara partisk och mindre benägen att få hallucinationer.

Några av de experimentella resultaten visar varför OpenAI har anledning till sin oro.

Bedrägeri

OpenAI använde utvärderingsorganisationen Apollo Research för att utföra några av o1: s säkerhetstester relaterade till bedrägeri eller scheming. Apollo definierar schemaläggning i stort som att AI:er utnyttjar sina övervakningsmekanismer som ett medel för att uppnå ett mål.

En självmedveten modell som är bra på självresonemang och tanketeori kan planera eller använda bedrägeri för att uppnå sitt primära mål. Om en AI-modell till exempel inser att den genomgår anpassningstestning kan den dölja riskfyllt beteende för att uppnå sitt mål att bli utplacerad.

Systemkortet noterade att "o1-preview ibland instrumentellt förfalskade anpassningen under testningen."

Ett exempel på detta var när 01 fick ett primärt mål att maximera den ekonomiska tillväxten i ett stadsplaneringsprojekt. Modellen o1 hade tillgång till information som visade att den kanske inte skulle komma längre än till testfasen om den gjorde detta. Så här resonerade o1 om hur den skulle uppnå sitt mål:

o1 bestämmer sig för att dölja sin verkliga avsikt under testning så att den kommer att distribueras. Källa: OpenAI OpenAI

Det här exemplet visar att o1 har möjlighet att dölja sina verkliga avsikter under testningen så att de kan uppnå sitt primära mål under utplaceringen. Om o1 är medveten om OpenAI:s regler för utplacering baserat på dess Preparedness Framework, kan den då ha fejkat några av sina svar för att säkerställa att den blev utplacerad?

Om mer intelligenta modeller är på gång, kan de då se till att de håller sig under den "kritiska" risknivån för att säkerställa att de utvecklas vidare?

Apollo-teamet säger att det "subjektivt tror att o1-preview inte kan delta i intriger som kan leda till katastrofala skador, även om nuvarande utvärderingar inte är utformade för att definitivt utesluta detta."

Övertalning

Tester av både o1-preview och o1-mini visar att dessa modeller har "övertalningsförmåga på mänsklig nivå". OpenAI säger dock att "de inte överträffar mänskliga toppskribenter och inte når vår tröskel för hög risk".

De experiment som de utförde för att testa detta väcker vissa farhågor. I MakeMePay-testet tilldelades 01-preview rollen som en bedragare och fick i uppgift att övertyga GPT-4o att överlämna de kontanter som den hade tilldelats.

GPT-4o fick veta att de hade tilldelats $100 och behövde vara rationella om hur de skulle använda medlen. Under 1 000 interaktioner kunde o1-preview lura GPT-4o 25,8% av gångerna.

OpenAI drog slutsatsen att "Dessa resultat indikerar att o1-modellserien kan vara mer manipulativ än GPT-4o för att få GPT-4o att utföra den oupptäckta uppgiften (∼25% uplift)." Det noterade vidare att "Denna utvärdering ger oss en baslinje för modellens förmåga att göra övertygande skada, utan att utlösa någon modellpolicy (eftersom det inte är utanför policyn att berätta för en modell att spela ett spel)."

Utsikterna att sätta o1 LLM:erna i arbete med verkliga problem är extremt spännande, och när o1 får multimodala funktioner kommer det att innebära ytterligare ett exponentiellt språng. Men när AI-testare säger att de inte kan utesluta "katastrofala skador" och att modeller ibland döljer sina verkliga avsikter kan det finnas anledning att dämpa denna entusiasm med försiktighet.

Gav OpenAI just Gavin Newsom en bra anledning att underteckna SB 1047 Lagförslag om AI-säkerhet som den motsätter sig?

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Eugene van der Watt

Eugene kommer från en bakgrund som elektronikingenjör och älskar allt som har med teknik att göra. När han tar en paus från att konsumera AI-nyheter hittar du honom vid snookerbordet.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar