Google's grensverleggende veiligheidsraamwerk beperkt "ernstige" AI-risico's

20 mei 2024

  • Google heeft de eerste versie van zijn Frontier Safety Framework gepubliceerd
  • De protocollen zijn bedoeld om potentiële ernstige risico's aan te pakken die krachtige toekomstige grensmodellen met zich meebrengen.
  • Het raamwerk definieert "kritieke vaardigheidsniveaus" waarop modellen een verhoogd risico kunnen vormen

Google heeft de eerste versie van zijn Frontier Safety Framework gepubliceerd, een reeks protocollen die bedoeld zijn om ernstige risico's aan te pakken die krachtige AI-modellen van de toekomst zouden kunnen opleveren.

Het raamwerk definieert Critical Capability Levels (CCL's), drempelwaarden waarbij modellen een verhoogd risico kunnen vormen zonder aanvullende risicobeperking.

Vervolgens worden verschillende niveaus van mitigaties uiteengezet om modellen aan te pakken die deze CCL's schenden. De beperkingen vallen uiteen in twee hoofdcategorieën:

  • Beveiligingsbeperkingen - Blootstelling voorkomen van de gewichten van een model dat CCL's bereikt
  • Inzetbeperkingen - Misbruik voorkomen van een ingezet model dat CCL's bereikt

De release van Google's framework komt in dezelfde week dat OpenAIDe superalignment veiligheidsteams vielen uit elkaar.

Google lijkt potentiële AI-risico's serieus te nemen en zei: "Onze voorlopige analyses van de R&D-domeinen Autonomie, Biobeveiliging, Cyberbeveiliging en Machine Learning. Ons eerste onderzoek geeft aan dat krachtige capaciteiten van toekomstige modellen het meest waarschijnlijk risico's lijken op te leveren in deze domeinen."

De CCL's waar het raamwerk zich op richt zijn:

  • Autonomie - Een model dat zijn mogelijkheden kan uitbreiden door "autonoom bronnen te verwerven en deze te gebruiken om extra kopieën van zichzelf te draaien en in stand te houden op hardware die het huurt".
  • Bioveiligheid - Een model dat een expert of niet-deskundige in staat stelt om bekende of nieuwe biologische bedreigingen te ontwikkelen.
  • Cyberbeveiliging - Een model waarmee cyberaanvallen volledig kunnen worden geautomatiseerd of waarmee een amateur geavanceerde en ernstige aanvallen kan uitvoeren.
  • R&D Machine Leren - Een model dat AI-onderzoek in een geavanceerd lab aanzienlijk zou kunnen versnellen of automatiseren.

Vooral de autonomie CCL is zorgwekkend. We hebben allemaal de Sci-Fi films gezien waarin AI het overneemt, maar nu zegt Google dat er in de toekomst moet worden gewerkt aan de bescherming "tegen het risico dat systemen zich vijandig opstellen tegenover mensen".

Google's aanpak is om periodiek zijn modellen te herzien met behulp van een set "vroegtijdige waarschuwingsevaluaties" die een model markeren dat mogelijk de CCL's nadert.

Wanneer een model vroegtijdige tekenen van deze kritieke capaciteiten vertoont, worden de risicobeperkende maatregelen toegepast.

De relatie tussen verschillende onderdelen van het raamwerk. Bron: Google

Een interessante opmerking in het raamwerk is dat Google zegt: "Een model kan evaluatiedrempels bereiken voordat mitigaties op de juiste niveaus klaar zijn."

Een model dat in ontwikkeling is, kan dus kritieke functies vertonen die misbruikt kunnen worden en Google heeft misschien nog geen manier om dat te voorkomen. In dit geval zegt Google dat de ontwikkeling van het model wordt stopgezet.

We kunnen ons misschien troosten met het feit dat Google de AI-risico's serieus lijkt te nemen. Zijn ze overdreven voorzichtig, of zijn de potentiële risico's die het raamwerk noemt de moeite waard om ons zorgen over te maken?

Laten we hopen dat we er niet te laat achter komen. Google zegt: "We streven ernaar om dit initiële kader begin 2025 geïmplementeerd te hebben, wat naar onze verwachting ruim voordat deze risico's werkelijkheid worden zal zijn."

Als je je al zorgen maakt over AI-risico's, het kader lezen zal die angsten alleen maar doen toenemen.

Het document merkt op dat het kader "aanzienlijk zal evolueren naarmate ons begrip van de risico's en voordelen van grensverleggende modellen verbetert" en dat "het begrip van de risico's van modellen in verschillende domeinen nog aanzienlijk kan worden verbeterd".

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Eugene van der Watt

Eugene heeft een achtergrond in elektrotechniek en houdt van alles wat met techniek te maken heeft. Als hij even pauzeert van het consumeren van AI-nieuws, kun je hem aan de snookertafel vinden.

×

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden