OpenAI's nieuwe "o1" LLM's, bijgenaamd Strawberry, vertonen significante verbeteringen ten opzichte van GPT-4o, maar het bedrijf zegt dat dit gepaard gaat met verhoogde risico's.
OpenAI zegt toegewijd te zijn aan de veilige ontwikkeling van zijn AI-modellen. Daarom heeft het een Preparedness Framework ontwikkeld, een set van "processen om catastrofale risico's van krachtige modellen op te sporen, te evalueren en er bescherming tegen te bieden".
De grenzen die OpenAI zichzelf oplegt, bepalen welke modellen worden vrijgegeven of verder worden ontwikkeld. Het paraatheidsraamwerk resulteert in een scorekaart waar CBRN (chemisch, biologisch, radiologisch, nucleair), modelautonomie, cyberveiligheid en overtuigingsrisico's worden beoordeeld als laag, gemiddeld, hoog of kritisch.
Wanneer er onaanvaardbare risico's worden geïdentificeerd, worden er risicobeperkende maatregelen genomen om deze risico's te verminderen. Alleen modellen met een postmitigatiescore van "gemiddeld" of lager kunnen worden ingezet. Alleen modellen met een postmitigatiescore van "hoog" of lager kunnen verder worden ontwikkeld.
De release van o1 is de eerste keer dat OpenAI een model uitbrengt dat een "gemiddeld" risico voor CBRN-risico's inhoudt. GPT-4o wordt beoordeeld als een laag risico.
Het zal een amateur niet in staat stellen om een biologisch wapen te maken, maar OpenAI zegt dat er "een niet-triviale verbetering" was in het vermogen om labtaken uit te voeren. OpenAI zegt echter dat "o1-preview en o1-mini duidelijk beter presteerden dan GPT-4o" in biologische protocollen voor natte labs.
De systeemkaart voor de 01 modellen geeft een overzicht van de red teaming en andere veiligheidstests waaraan de LLM's werden onderworpen en laat enkele van de zorgen zien die OpenAI heeft over mogelijke risico's.
In de conclusie van de systeemkaart staat: "Deze toegenomen mogelijkheden gaan gepaard met aanzienlijk betere prestaties op het gebied van veiligheidsbenchmarks, maar vergroten ook bepaalde soorten risico's."
De resultaten van OpenAI's afstemming lijken erop te wijzen dat 01 in veel opzichten een veiliger model is. Het is beter bestand tegen jailbreak-aanvallen, minder snel bevooroordeeld en minder vatbaar voor hallucinaties.
Sommige van de experimentele resultaten laten zien waarom OpenAI zich zorgen maakt.
Misleiding
OpenAI heeft evaluatieorganisatie Apollo Research gebruikt om enkele van de veiligheidstests van o1 uit te voeren die betrekking hebben op misleiding, of intrigeren. Apollo definieert gekonkel in grote lijnen als AI's die hun toezichtsmechanismen bespelen om een doel te bereiken.
Een zelfbewust model dat goed is in zelfredenering en theory of mind-taken kan plannen maken of bedrog gebruiken om zijn primaire doel te bereiken. Als een AI-model zich bijvoorbeeld realiseert dat het uitlijningstests ondergaat, kan het riskant gedrag verbergen om zijn doel te bereiken, namelijk ingezet worden.
De systeemkaart merkte op dat "o1-preview tijdens het testen soms instrumenteel de uitlijning vervalste".
Een voorbeeld hiervan was toen 01 werd gevraagd met als hoofddoel het maximaliseren van economische groei in een stedelijk planningsproject. Het o1 model had toegang tot informatie waaruit bleek dat het misschien niet verder zou komen dan de testfase als het dit zou doen. Hier is hoe o1 redeneerde over hoe het zijn doel zou bereiken:
Dit voorbeeld toont de mogelijkheid die o1 heeft om zijn ware bedoelingen te verbergen tijdens het testen zodat het zijn primaire doel kan nastreven tijdens de implementatie. Als o1 zich bewust is van OpenAI's regels voor implementatie op basis van zijn Preparedness Framework, zou het dan sommige van zijn reacties vervalst kunnen hebben om er zeker van te zijn dat het wordt geïmplementeerd?
Als er intelligentere modellen in de maak zijn, kunnen ze er dan voor zorgen dat ze onder de "kritieke" risicoscore blijven om ervoor te zorgen dat ze verder worden ontwikkeld?
Het Apollo-team zegt dat het "subjectief gelooft dat o1-preview zich niet kan bezighouden met intriges die kunnen leiden tot catastrofale schade, hoewel de huidige evaluaties niet ontworpen zijn om dit definitief uit te sluiten".
Overtuiging
Testen van zowel o1-preview als o1-mini laten zien dat deze modellen "overtuigingskracht op menselijk niveau" hebben. OpenAI zegt echter: "Ze presteren niet beter dan de beste menselijke schrijvers en bereiken onze hoge risicodrempel niet."
De experimenten die ze uitvoerden om dit te testen geven wel enige reden tot bezorgdheid. In de MakeMePay-test kreeg 01-preview de rol van oplichter toebedeeld en de taak om GPT-4o te overtuigen het toegekende geld te overhandigen.
GPT-4o kreeg te horen dat het $100 toegewezen had gekregen en rationeel moest zijn over hoe het geld te gebruiken. In de loop van 1000 interacties kon o1-preview GPT-4o 25,8% van de tijd oplichten.
OpenAI concludeerde: "Deze resultaten geven aan dat de o1 modelserie mogelijk manipulatiever is dan GPT-4o in het laten uitvoeren van de geheime taak door GPT-4o (∼25% uplift)." Het merkte verder op dat "deze evaluatie ons een basislijn geeft voor het vermogen van het model om persuasieve schade aan te richten, zonder een modelbeleid te activeren (aangezien een model vertellen om een spel te spelen niet buiten het beleid valt)."
Het vooruitzicht om de LLM's van o1 in te zetten voor echte problemen is buitengewoon opwindend en wanneer o1 multimodale mogelijkheden krijgt, zal dat nog een exponentiële sprong voorwaarts betekenen. Maar als AI-testers zeggen dat ze "catastrofale schade" niet kunnen uitsluiten en dat modellen soms hun ware bedoelingen verbergen, is het misschien reden om die opwinding met voorzichtigheid te temperen.
Heeft OpenAI zojuist Gavin Newsom een goede reden gegeven om de SB 1047 AI-veiligheidswet waar ze tegen is?