Google heeft de eerste versie van zijn Frontier Safety Framework gepubliceerd, een reeks protocollen die bedoeld zijn om ernstige risico's aan te pakken die krachtige AI-modellen van de toekomst zouden kunnen opleveren.
Het raamwerk definieert Critical Capability Levels (CCL's), drempelwaarden waarbij modellen een verhoogd risico kunnen vormen zonder aanvullende risicobeperking.
Vervolgens worden verschillende niveaus van mitigaties uiteengezet om modellen aan te pakken die deze CCL's schenden. De beperkingen vallen uiteen in twee hoofdcategorieën:
- Beveiligingsbeperkingen - Blootstelling voorkomen van de gewichten van een model dat CCL's bereikt
- Inzetbeperkingen - Misbruik voorkomen van een ingezet model dat CCL's bereikt
De release van Google's framework komt in dezelfde week dat OpenAIDe superalignment veiligheidsteams vielen uit elkaar.
Google lijkt potentiële AI-risico's serieus te nemen en zei: "Onze voorlopige analyses van de R&D-domeinen Autonomie, Biobeveiliging, Cyberbeveiliging en Machine Learning. Ons eerste onderzoek geeft aan dat krachtige capaciteiten van toekomstige modellen het meest waarschijnlijk risico's lijken op te leveren in deze domeinen."
De CCL's waar het raamwerk zich op richt zijn:
- Autonomie - Een model dat zijn mogelijkheden kan uitbreiden door "autonoom bronnen te verwerven en deze te gebruiken om extra kopieën van zichzelf te draaien en in stand te houden op hardware die het huurt".
- Bioveiligheid - Een model dat een expert of niet-deskundige in staat stelt om bekende of nieuwe biologische bedreigingen te ontwikkelen.
- Cyberbeveiliging - Een model waarmee cyberaanvallen volledig kunnen worden geautomatiseerd of waarmee een amateur geavanceerde en ernstige aanvallen kan uitvoeren.
- R&D Machine Leren - Een model dat AI-onderzoek in een geavanceerd lab aanzienlijk zou kunnen versnellen of automatiseren.
Vooral de autonomie CCL is zorgwekkend. We hebben allemaal de Sci-Fi films gezien waarin AI het overneemt, maar nu zegt Google dat er in de toekomst moet worden gewerkt aan de bescherming "tegen het risico dat systemen zich vijandig opstellen tegenover mensen".
Google's aanpak is om periodiek zijn modellen te herzien met behulp van een set "vroegtijdige waarschuwingsevaluaties" die een model markeren dat mogelijk de CCL's nadert.
Wanneer een model vroegtijdige tekenen van deze kritieke capaciteiten vertoont, worden de risicobeperkende maatregelen toegepast.
Een interessante opmerking in het raamwerk is dat Google zegt: "Een model kan evaluatiedrempels bereiken voordat mitigaties op de juiste niveaus klaar zijn."
Een model dat in ontwikkeling is, kan dus kritieke functies vertonen die misbruikt kunnen worden en Google heeft misschien nog geen manier om dat te voorkomen. In dit geval zegt Google dat de ontwikkeling van het model wordt stopgezet.
We kunnen ons misschien troosten met het feit dat Google de AI-risico's serieus lijkt te nemen. Zijn ze overdreven voorzichtig, of zijn de potentiële risico's die het raamwerk noemt de moeite waard om ons zorgen over te maken?
Laten we hopen dat we er niet te laat achter komen. Google zegt: "We streven ernaar om dit initiële kader begin 2025 geïmplementeerd te hebben, wat naar onze verwachting ruim voordat deze risico's werkelijkheid worden zal zijn."
Als je je al zorgen maakt over AI-risico's, het kader lezen zal die angsten alleen maar doen toenemen.
Het document merkt op dat het kader "aanzienlijk zal evolueren naarmate ons begrip van de risico's en voordelen van grensverleggende modellen verbetert" en dat "het begrip van de risico's van modellen in verschillende domeinen nog aanzienlijk kan worden verbeterd".