Google har publicerat den första versionen av sitt Frontier Safety Framework, en uppsättning protokoll som syftar till att hantera allvarliga risker som framtidens kraftfulla AI-modeller kan medföra.
Ramverket definierar Critical Capability Levels (CCL), som är tröskelvärden vid vilka modeller kan utgöra en förhöjd risk utan ytterligare begränsning.
Därefter anges olika nivåer av begränsningar för att hantera modeller som bryter mot dessa CCL. De begränsande åtgärderna delas in i två huvudkategorier:
- Begränsningar av säkerheten - Förhindra exponering av vikterna för en modell som når CCL
- Begränsningar vid driftsättning - Förhindra felaktig användning av en distribuerad modell som når CCL
Lanseringen av Googles ramverk kommer samma vecka som OpenAIsäkerhetsteamen för superinriktningen föll isär.
Google verkar ta potentiella AI-risker på allvar och sa: "Våra preliminära analyser av FoU-domänerna Autonomi, Biosäkerhet, Cybersäkerhet och Maskininlärning. Vår inledande forskning tyder på att kraftfulla förmågor hos framtida modeller mest sannolikt kommer att utgöra risker inom dessa områden."
De CCLs som ramverket behandlar är:
- Självständighet - En modell som kan utöka sin kapacitet genom att "självständigt skaffa resurser och använda dem för att köra och underhålla ytterligare kopior av sig själv på hårdvara som den hyr".
- Biosäkerhet - En modell som på ett betydande sätt kan hjälpa en expert eller icke-expert att utveckla kända eller nya biologiska hot.
- Cybersäkerhet - En modell som helt kan automatisera cyberattacker eller göra det möjligt för en amatör att utföra sofistikerade och allvarliga attacker.
- FoU inom maskininlärning - En modell som avsevärt skulle kunna påskynda eller automatisera AI-forskningen vid ett banbrytande labb.
Autonomi CCL är särskilt oroande. Vi har alla sett Sci-Fi-filmerna där AI tar över, men nu är det Google som säger att framtida arbete behövs för att skydda "mot risken för att system agerar kontradiktoriskt mot människor".
Googles metod är att regelbundet granska sina modeller med hjälp av en uppsättning "tidiga varningsutvärderingar" som flaggar för en modell som kan närma sig CCL.
När en modell visar tidiga tecken på dessa kritiska funktioner tillämpas begränsningsåtgärderna.
En intressant kommentar i ramverket är att Google säger: "En modell kan nå utvärderingströsklar innan åtgärder på lämpliga nivåer är klara."
Så en modell under utveckling kan visa kritiska funktioner som kan missbrukas och Google kanske ännu inte har ett sätt att förhindra det. I det här fallet säger Google att utvecklingen av modellen skulle läggas på is.
Vi kan kanske finna viss tröst i att Google verkar ta AI-riskerna på allvar. Är de överdrivet försiktiga, eller är de potentiella riskerna som ramverket listar värda att oroa sig för?
Låt oss hoppas att vi inte får reda på det för sent. Google säger: "Vi strävar efter att ha detta första ramverk implementerat i början av 2025, vilket vi förväntar oss ska vara långt innan dessa risker materialiseras."
Om du redan är bekymrad över AI-risker, läsa ramverket kommer bara att öka dessa farhågor.
I dokumentet noteras att ramverket kommer att "utvecklas väsentligt i takt med att vår förståelse av riskerna och fördelarna med frontier-modeller förbättras" och att "det finns betydande utrymme för förbättringar när det gäller att förstå riskerna med modeller inom olika områden"