Google hat die erste Version seines Frontier Safety Framework veröffentlicht, eine Reihe von Protokollen, die darauf abzielen, schwerwiegenden Risiken zu begegnen, die leistungsstarke KI-Modelle der Zukunft darstellen könnten.
Der Rahmen definiert kritische Fähigkeitsstufen (Critical Capability Levels, CCLs), d. h. Schwellenwerte, bei denen Modelle ohne zusätzliche Abhilfemaßnahmen ein erhöhtes Risiko darstellen können.
Anschließend werden verschiedene Stufen von Abhilfemaßnahmen für Modelle festgelegt, die gegen diese CCLs verstoßen. Die Abhilfemaßnahmen fallen in zwei Hauptkategorien:
- Sicherheitsabschwächungen - Verhinderung der Exposition der Gewichte eines Modells, das die CCLs erreicht
- Abschwächung des Einsatzes - Verhinderung des Missbrauchs eines bereitgestellten Modells, das die CCLs erreicht
Die Veröffentlichung des Google-Frameworks erfolgt in derselben Woche, in der OpenAIDie übergreifenden Sicherheitsteams sind auseinandergefallen..
Google scheint potenzielle KI-Risiken ernst zu nehmen und sagte: "Unsere vorläufigen Analysen der F&E-Bereiche Autonomie, Biosicherheit, Cybersicherheit und maschinelles Lernen. Unsere ersten Untersuchungen deuten darauf hin, dass die leistungsstarken Fähigkeiten zukünftiger Modelle in diesen Bereichen am ehesten Risiken bergen".
Die CCLs, die der Rahmen behandelt, sind:
- Autonomie - Ein Modell, das seine Fähigkeiten erweitern kann, indem es "autonom Ressourcen erwirbt und diese nutzt, um zusätzliche Kopien von sich selbst auf angemieteter Hardware zu betreiben und zu erhalten".
- Biosecurity - Ein Modell, das es einem Experten oder Nicht-Experten ermöglicht, bekannte oder neuartige biologische Bedrohungen zu entwickeln.
- Cybersecurity - Ein Modell, das in der Lage ist, Cyberangriffe vollständig zu automatisieren oder einen Amateur in die Lage zu versetzen, ausgeklügelte und schwere Angriffe durchzuführen.
- Maschinelles Lernen F&E - Ein Modell, das die KI-Forschung in einem Spitzenlabor erheblich beschleunigen oder automatisieren könnte.
Die CCL zur Autonomie ist besonders besorgniserregend. Wir haben alle die Sci-Fi-Filme gesehen, in denen die KI die Macht übernimmt, aber jetzt sagt Google, dass künftige Arbeiten erforderlich sind, um "das Risiko von Systemen, die sich gegen Menschen richten, zu vermeiden".
Google überprüft seine Modelle regelmäßig anhand einer Reihe von "Frühwarnbewertungen", die ein Modell kennzeichnen, das sich den CCLs nähert.
Wenn ein Modell frühe Anzeichen dieser kritischen Fähigkeiten aufweist, werden die Abhilfemaßnahmen angewendet.
Eine interessante Bemerkung in dem Rahmenwerk ist, dass Google sagt: "Ein Modell kann Bewertungsschwellen erreichen, bevor Abhilfemaßnahmen auf angemessener Ebene bereit sind."
Ein in der Entwicklung befindliches Modell könnte also kritische Funktionen aufweisen, die missbraucht werden könnten, und Google hat möglicherweise noch keine Möglichkeit, dies zu verhindern. In diesem Fall sagt Google, dass die Entwicklung des Modells auf Eis gelegt werden würde.
Die Tatsache, dass Google die KI-Risiken ernst zu nehmen scheint, kann uns vielleicht etwas beruhigen. Sind sie übermäßig vorsichtig, oder sind die potenziellen Risiken, die der Rahmen auflistet, es wert, sich Sorgen zu machen?
Hoffen wir, dass wir das nicht zu spät herausfinden. Google sagt: "Unser Ziel ist es, diesen ersten Rahmen bis Anfang 2025 zu implementieren, also lange bevor diese Risiken eintreten."
Wenn Sie bereits über KI-Risiken besorgt sind, Lesen des Rahmens wird diese Ängste nur noch verstärken.
Das Dokument stellt fest, dass sich der Rahmen "in dem Maße weiterentwickeln wird, in dem sich unser Verständnis der Risiken und des Nutzens von Grenzmodellen verbessert", und dass "ein erheblicher Spielraum für Verbesserungen beim Verständnis der Risiken besteht, die von Modellen in verschiedenen Bereichen ausgehen".