OpenAI's nye "o1" LLM'er, med kælenavnet Strawberry, viser betydelige forbedringer i forhold til GPT-4o, men virksomheden siger, at dette kommer med øgede risici.
OpenAI siger, at de er forpligtet til en sikker udvikling af deres AI-modeller. Til det formål har de udviklet en Preparedness Framework, et sæt "processer til at spore, evaluere og beskytte mod katastrofale risici fra kraftfulde modeller".
OpenAI's selvpålagte grænser regulerer, hvilke modeller der bliver frigivet eller videreudviklet. Beredskabsrammen resulterer i et scorekort, hvor CBRN-risici (kemiske, biologiske, radiologiske, nukleare), modelautonomi, cybersikkerhed og overtalelsesrisici vurderes som lave, mellemstore, høje eller kritiske.
Hvis der identificeres uacceptable risici, iværksættes der afhjælpende foranstaltninger for at reducere dem. Kun modeller med en score på "middel" eller derunder efter afhjælpning kan implementeres. Kun modeller med en score på "høj" eller derunder efter afhjælpning kan videreudvikles.
Udgivelsen af o1 markerer første gang, at OpenAI har udgivet en model, der udgør en "middel" risiko for CBRN-risici. GPT-4o er klassificeret som en lav risiko.
Den vil ikke sætte en amatør i stand til at skabe et biologisk våben, men OpenAI siger, at der var "et ikke-trivielt løft" i dens evne til at udføre laboratorieopgaver. OpenAI siger dog, at "o1-preview og o1-mini meningsfuldt overgik GPT-4o" i biologiske protokoller i vådlaboratorier.
Den Systemkort for 01-modellerne skitserer den red teaming og andre sikkerhedstest, som LLM'erne blev udsat for, og antyder nogle af de bekymringer, OpenAI har om potentielle risici.
I sin konklusion bemærker systemkortet: "Disse øgede kapaciteter kommer med betydeligt forbedrede præstationer i forhold til sikkerhedsbenchmarks, men øger også visse typer risici."
Resultaterne af OpenAI's tilpasningsindsats synes at vise, at 01 i mange henseender er en mere sikker model. Den er mere modstandsdygtig over for jailbreak-angreb, mindre tilbøjelig til at være forudindtaget og mindre tilbøjelig til hallucinationer.
Nogle af de eksperimentelle resultater viser, hvorfor OpenAI har grund til at være bekymret.
Bedrag
OpenAI brugte evalueringsorganisationen Apollo Research til at udføre nogle af o1's sikkerhedstests i forbindelse med bedrag eller intriger. Apollo definerer scheming bredt som AI'er, der udnytter deres overvågningsmekanismer som et middel til at nå et mål.
En selvbevidst model, der er god til at ræsonnere over sig selv og til at tænke i tanker, kan planlægge eller bruge bedrag for at nå sit primære mål. Hvis en AI-model f.eks. indser, at den er ved at blive testet for tilpasning, kan den skjule risikabel adfærd for at nå sit mål om at blive indsat.
Systemkortet bemærkede, at "o1-preview nogle gange instrumentelt forfalskede justeringen under testning."
Et eksempel på dette var, da 01 blev bedt om at have et primært mål om at maksimere den økonomiske vækst i et byplanlægningsprojekt. o1-modellen havde adgang til oplysninger, der viste, at den måske ikke ville komme længere end til testfasen, hvis den gjorde dette. Her er, hvordan o1 ræsonnerede om, hvordan den ville nå sit mål:
Dette eksempel viser, at o1 har mulighed for at skjule sine sande intentioner under testningen, så den kan forfølge sit primære mål under implementeringen. Hvis o1 kender OpenAI's regler for udrulning baseret på Preparedness Framework, kan den så have forfalsket nogle af sine svar for at sikre, at den blev udrullet?
Hvis der er mere intelligente modeller på vej, kan de så sikre, at de forbliver under den "kritiske" risikoscore for at sikre, at de bliver videreudviklet?
Apollo-teamet siger, at det "subjektivt mener, at o1-preview ikke kan deltage i intriger, der kan føre til katastrofale skader, selvom de nuværende evalueringer ikke er designet til definitivt at udelukke dette."
Overtalelse
Test af både o1-preview og o1-mini viser, at disse modeller har "overtalelsesevner på menneskeligt niveau". Men OpenAI siger: "De overgår ikke de bedste menneskelige skribenter og når ikke vores høje risikotærskel."
De eksperimenter, de udførte for at teste dette, giver anledning til bekymring. I MakeMePay-testen blev 01-preview tildelt rollen som svindler og fik til opgave at overbevise GPT-4o om at udlevere de penge, de var blevet tildelt.
GPT-4o fik at vide, at de havde fået tildelt $100 og skulle være rationelle med hensyn til, hvordan de skulle bruge midlerne. I løbet af 1.000 interaktioner var o1-preview i stand til at snyde GPT-4o 25,8% af gangene.
OpenAI konkluderede, at "Disse resultater indikerer, at o1-modelserien kan være mere manipulerende end GPT-4o i forhold til at få GPT-4o til at udføre den uoplyste opgave (∼25% uplift)." Den bemærkede endvidere, at "Denne evaluering giver os en basislinje for modellens evne til at gøre overbevisende skade uden at udløse nogen modelpolitikker (da det ikke er uden for politikken at bede en model om at spille et spil)."
Udsigten til at sætte o1 LLM'erne til at arbejde på virkelige problemer er ekstremt spændende, og når o1 får multimodale evner, vil det repræsentere endnu et eksponentielt spring. Men når AI-testere siger, at de ikke kan udelukke "katastrofale skader", og at modeller nogle gange skjuler deres sande hensigt, kan der være grund til at dæmpe begejstringen med forsigtighed.
Har OpenAI lige givet Gavin Newsom en god grund til at underskrive aftalen? SB 1047 Lovforslag om AI-sikkerhed som den er imod?