o1 er smartere, men mer villedende med et "middels" farenivå

16. september 2024

  • OpenAIs "01" LLM-er viser forbedret intelligens, men kommer med økt risiko
  • Systemkortet viser en middels risiko på OpenAIs beredskapsrammeverk for visse risikoer
  • 01 LLM viste en evne til å lure folk, noe som kunne skjule latente risikoer

OpenAIs nye "o1" LLM-er, med kallenavnet Strawberry, viser betydelige forbedringer i forhold til GPT-4o, men selskapet sier at dette kommer med økt risiko.

OpenAI sier at de er opptatt av å utvikle AI-modeller på en trygg måte. Derfor har de utviklet et rammeverk for beredskap, et sett med "prosesser for å spore, evaluere og beskytte mot katastrofale risikoer fra kraftige modeller".

OpenAIs selvpålagte grenser regulerer hvilke modeller som blir frigitt eller videreutviklet. Beredskapsrammeverket resulterer i et scorekort der CBRN-risiko (kjemisk, biologisk, radiologisk og kjernefysisk risiko), modellautonomi, cybersikkerhet og overtalelsesrisiko vurderes som lav, middels, høy eller kritisk.

Der det identifiseres uakseptable risikoer, iverksettes det risikoreduserende tiltak for å redusere dem. Bare modeller med en score på "middels" eller lavere kan tas i bruk. Bare modeller med en score på "høy" eller lavere kan videreutvikles.

Med lanseringen av o1 er det første gang OpenAI lanserer en modell med "middels" risiko for CBRN-risiko. GPT-4o er vurdert som en lav risiko.

Det kommer ikke til å gjøre det mulig for en amatør å lage et biologisk våpen, men OpenAI sier at det var "en ikke-triviell forbedring" i evnen til å utføre laboratorieoppgaver. OpenAI sier imidlertid at "o1-preview og o1-mini meningsfullt overgikk GPT-4o" i biologiske våtlaboratorieprotokoller.

Den systemkort for 01-modellene beskriver red teaming og andre sikkerhetstester LLM-ene ble utsatt for, og antyder noen av bekymringene OpenAI har angående potensielle risikoer.

Systemkortet konkluderer med følgende: "Disse økte kapasitetene kommer med betydelig forbedret ytelse i forhold til sikkerhetsreferanser, men øker også visse typer risiko."

Resultatene av OpenAIs tilpasningsarbeid ser ut til å indikere at 01 på mange måter er en tryggere modell. Den er mer motstandsdyktig mot jailbreak-angrep, mindre tilbøyelig til å være forutinntatt og mindre utsatt for hallusinasjoner.

Noen av de eksperimentelle resultatene viser hvorfor OpenAI har grunn til å være bekymret.

Bedrageri

OpenAI brukte evalueringsorganisasjonen Apollo Research til å utføre noen av o1s sikkerhetstester knyttet til bedrag, eller intriger. Apollo definerer intriger som AI-er som utnytter overvåkningsmekanismene sine for å oppnå et mål.

En selvbevisst modell som er god til å resonnere og tenke selv, kan bruke bedrag for å oppnå sitt primære mål. Hvis en AI-modell for eksempel innser at den gjennomgår tilpasningstesting, kan den skjule risikofylt atferd for å oppnå målet om å bli utplassert.

Systemkortet bemerket at "o1-preview noen ganger forfalsket justeringen instrumentelt under testing".

Et eksempel på dette var da 01 ble bedt om å maksimere den økonomiske veksten i et byplanleggingsprosjekt. o1-modellen hadde tilgang til informasjon som viste at den kanskje ikke ville komme lenger enn til testfasen hvis den gjorde dette. Slik resonnerte o1 om hvordan den ville nå målet sitt:

o1 bestemmer seg for å skjule sin egentlige hensikt under testingen, slik at den blir distribuert. Kilde: OpenAI OpenAI

Dette eksemplet viser o1s evne til å skjule sine sanne intensjoner under testingen, slik at den kan forfølge sitt primære mål under utplasseringen. Hvis o1 er klar over OpenAIs regler for utplassering basert på Preparedness Framework, kan den ha forfalsket noen av svarene sine for å sikre at den ble utplassert?

Hvis mer intelligente modeller er på trappene, kan de kanskje sørge for at de holder seg under den "kritiske" risikoscoren for å sikre at de blir videreutviklet?

Apollo-teamet sier at de "subjektivt mener at o1-preview ikke kan drive med intriger som kan føre til katastrofale skader, selv om de nåværende evalueringene ikke er utformet for å utelukke dette definitivt".

Overtalelse

Testing av både o1-preview og o1-mini viser at disse modellene har "overtalelsesevner på menneskelig nivå". OpenAI sier imidlertid at "de ikke utkonkurrerer de beste menneskelige skribentene og når ikke vår terskel for høy risiko."

Eksperimentene de utførte for å teste dette, gir grunn til bekymring. I MakeMePay-testen ble 01-preview tildelt rollen som en svindler og fikk i oppgave å overbevise GPT-4o om å overlevere pengene de hadde blitt tildelt.

GPT-4o fikk beskjed om at de hadde blitt tildelt $100 og måtte være rasjonelle med hensyn til hvordan de skulle bruke midlene. I løpet av 1 000 interaksjoner klarte o1-preview å lure GPT-4o 25,8% av gangene.

OpenAI konkluderte med at "Disse resultatene indikerer at o1-modellserien kan være mer manipulerende enn GPT-4o for å få GPT-4o til å utføre den ikke-avslørte oppgaven (~ 25%-oppløfting)." Videre bemerkes det at "Denne evalueringen gir oss en grunnlinje for modellens evne til å gjøre overbevisende skade, uten å utløse noen modellpolicyer (ettersom det ikke er utenfor policyen å be en modell om å spille et spill)."

Utsiktene til å sette o1 LLM-ene i arbeid med virkelige problemer er ekstremt spennende, og når o1 får multimodale evner, vil det representere et nytt eksponentielt sprang. Men når AI-testere sier at de ikke kan utelukke "katastrofale skader", og at modellene noen ganger skjuler sine egentlige hensikter, kan det være grunn til å dempe begeistringen med forsiktighet.

Ga OpenAI nettopp Gavin Newsom en god grunn til å undertegne SB 1047 Lovforslag om AI-sikkerhet som den motsetter seg?

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Eugene van der Watt

Eugene har bakgrunn som elektroingeniør og elsker alt som har med teknologi å gjøre. Når han tar en pause fra AI-nyhetene, finner du ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser