Google har offentliggjort den første version af sin Frontier Safety Framework, et sæt protokoller, der har til formål at imødegå alvorlige risici, som fremtidens stærke frontier AI-modeller kan udgøre.
Rammen definerer Critical Capability Levels (CCL'er), som er tærskler, hvor modeller kan udgøre en øget risiko uden yderligere afhjælpning.
Derefter opstilles forskellige niveauer af afhjælpninger for at imødegå modeller, der overtræder disse CCL'er. Afbødningerne falder i to hovedkategorier:
- Sikkerhedsforanstaltninger - Forebyggelse af eksponering af vægtene i en model, der når CCL'er
- Begrænsninger i udrulningen - Forebyggelse af misbrug af en implementeret model, der når CCL'er
Udgivelsen af Googles rammeværk kommer i samme uge, som OpenAI's superalignment-sikkerhedsteams faldt fra hinanden.
Google ser ud til at tage potentielle AI-risici alvorligt og sagde: "Vores foreløbige analyser af F&U-domænerne autonomi, biosikkerhed, cybersikkerhed og maskinlæring. Vores indledende forskning viser, at fremtidige modellers stærke evner mest sandsynligt vil udgøre en risiko inden for disse områder."
De CCL'er, som rammerne omhandler, er:
- Selvstændighed - En model, der kan udvide sine muligheder ved "autonomt at erhverve ressourcer og bruge dem til at køre og opretholde yderligere kopier af sig selv på hardware, som den lejer."
- Biosikkerhed - En model, der kan sætte en ekspert eller ikke-ekspert i stand til at udvikle kendte eller nye biotrusler.
- Cybersikkerhed - En model, der kan automatisere cyberangreb fuldt ud eller sætte en amatør i stand til at udføre sofistikerede og alvorlige angreb.
- Machine Learning R&D - En model, der i høj grad kan fremskynde eller automatisere AI-forskning på et banebrydende laboratorium.
CCL'en om autonomi er særligt bekymrende. Vi har alle set sci-fi-filmene, hvor AI tager over, men nu er det Google, der siger, at der er brug for fremtidigt arbejde for at beskytte "mod risikoen for, at systemer handler kontradiktorisk mod mennesker."
Googles tilgang er at gennemgå sine modeller med jævne mellemrum ved hjælp af et sæt "tidlige advarselsevalueringer", der markerer en model, der måske nærmer sig CCL'erne.
Når en model viser tidlige tegn på disse kritiske kapaciteter, vil de afhjælpende foranstaltninger blive anvendt.
En interessant kommentar i rammeværket er, at Google siger: "En model kan nå evalueringstærskler, før afhjælpninger på passende niveauer er klar."
Så en model under udvikling kan vise kritiske funktioner, der kan misbruges, og Google har måske endnu ikke en måde at forhindre det på. I dette tilfælde siger Google, at udviklingen af modellen vil blive sat på hold.
Vi kan måske finde lidt trøst i, at Google ser ud til at tage AI-risici alvorligt. Er de alt for forsigtige, eller er de potentielle risici, som rammen opregner, værd at bekymre sig om?
Lad os håbe, at vi ikke finder ud af det for sent. Google siger: "Vi sigter mod at have denne indledende ramme implementeret i begyndelsen af 2025, hvilket vi forventer vil være i god tid, før disse risici materialiserer sig."
Hvis du allerede er bekymret for AI-risici, læsning af rammerne vil kun forstærke den frygt.
Dokumentet bemærker, at rammen vil "udvikle sig væsentligt, efterhånden som vores forståelse af risici og fordele ved frontier-modeller forbedres", og at "der er betydelig plads til forbedring i forståelsen af de risici, som modeller på forskellige områder udgør".