Google har publisert den første versjonen av Frontier Safety Framework, et sett med protokoller som tar sikte på å håndtere alvorlige risikoer som fremtidens kraftige AI-modeller kan utgjøre.
Rammeverket definerer Critical Capability Levels (CCL-er), som er terskler der modeller kan utgjøre en økt risiko uten ytterligere risikoreduserende tiltak.
Deretter beskrives ulike nivåer av tiltak for å håndtere modeller som bryter med disse CCL-ene. De risikoreduserende tiltakene faller inn i to hovedkategorier:
- Sikkerhetsreduserende tiltak - Forhindrer eksponering av vektene til en modell som når CCL
- Reduserende tiltak ved distribusjon - Forhindrer misbruk av en distribuert modell som når CCL-er
Utgivelsen av Googles rammeverk kommer i samme uke som OpenAI's superalignment sikkerhetsteam falt fra hverandre.
Google ser ut til å ta potensielle AI-risikoer på alvor og sa: "Våre foreløpige analyser av FoU-domenene Autonomi, Biosikkerhet, Cybersikkerhet og Maskinlæring. Vår innledende forskning tyder på at det er mest sannsynlig at kraftige evner i fremtidige modeller vil utgjøre en risiko på disse områdene."
CCL-ene som rammeverket tar for seg, er
- Selvstendighet - En modell som kan utvide kapasiteten sin ved å "selvstendig anskaffe ressurser og bruke dem til å kjøre og opprettholde flere kopier av seg selv på maskinvare den leier".
- Biosikkerhet - En modell som gjør det mulig for eksperter eller ikke-eksperter å utvikle kjente eller nye biologiske trusler.
- Cybersikkerhet - En modell som kan automatisere dataangrep fullt ut eller sette en amatør i stand til å utføre sofistikerte og alvorlige angrep.
- FoU innen maskinlæring - En modell som kan fremskynde eller automatisere AI-forskningen ved et banebrytende laboratorium.
Autonomi CCL er spesielt bekymringsfullt. Vi har alle sett sci-fi-filmene der kunstig intelligens tar over, men nå er det Google som sier at det er behov for fremtidig arbeid for å beskytte "mot risikoen for at systemer opptrer kontradiktorisk mot mennesker".
Googles tilnærming er å gjennomgå modellene sine med jevne mellomrom ved hjelp av et sett med "tidlig varslingsevalueringer" som flagger en modell som kan være i ferd med å nærme seg CCL-grensene.
Når en modell viser tidlige tegn på disse kritiske egenskapene, vil avbøtende tiltak bli iverksatt.
En interessant kommentar i rammeverket er at Google sier: "En modell kan nå evalueringsterskler før avbøtende tiltak på passende nivåer er klare."
Så en modell under utvikling kan vise kritiske funksjoner som kan misbrukes, og Google har kanskje ennå ikke en måte å forhindre det på. I dette tilfellet sier Google at utviklingen av modellen vil bli satt på vent.
Vi kan kanskje trøste oss med at Google ser ut til å ta KI-risikoer på alvor. Er de overdrevent forsiktige, eller er de potensielle risikoene som rammeverket lister opp, verdt å bekymre seg for?
La oss håpe vi ikke finner det ut for sent. Google sier: "Vi tar sikte på å ha dette første rammeverket implementert tidlig i 2025, noe vi forventer bør være i god tid før disse risikoene materialiserer seg."
Hvis du allerede er bekymret for AI-risiko, lesing av rammeverket vil bare forsterke denne frykten.
I dokumentet bemerkes det at rammeverket vil "utvikle seg betydelig etter hvert som vår forståelse av risikoene og fordelene ved frontier-modeller forbedres", og at "det er betydelig rom for forbedring når det gjelder å forstå risikoen som modeller på ulike områder utgjør"